Marlies Temper, Leiterin des Studienganges Data Science an der FH St. Pölten, über die Bedeutung von Datenexpertise und Domänenwissen und über Fallstricke im Umgang mit Daten.
Der Konnex zur Praxis ist entscheidend. Das gilt für das Ausbildungsprogramm der Fachhochschule St. Pölten generell. Und das gilt besonders, wenn man einen neuen Studiengang aufbaut – so wie Marlies Temper vor mittlerweile sechs Jahren den Studiengang Data Science und Business Analytics. Mit einer Vielzahl von Stakeholdern aus der Wirtschaft und Wissenschaft entwickelte man gemeinsam ein Gesamtbild der vielfältigen Anforderungen. Und extrahierte daraus, welche Skills die Studierenden aus dem dreijährigen Bachelor-Studium mitnehmen müssen, um diese Anforderungen in der Praxis erfüllen zu können. Das war der Start für einen laufenden intensiven Austausch, ganz besonders natürlich mit den Firmen, bei denen die Studierenden ihre Praktika absolvieren. Mittlerweile ist der erste Jahrgang erfolgreich in der Praxis und den neuen Berufsrollen angekommen.
Mit dem großen Ganzen in Sachen Daten beschäftigt sich Marlies Temper so umfassend wie wohl nur wenige andere. Mit verschiedensten Aspekten von Deep Learning über Sicherheit und Recht bis zu Ethik und Nachhaltigkeit. Neben dem Studiengang Data Science und Business Analytics leitet sie auch den Studiengang Data Intelligence und ist stellvertretende Leiterin des Departments Informatik & Security an der FH St. Pölten. Ihr Forschungsschwerpunkt ist das Thema Data und AI, etwa in der Forschungsgruppe Data Intelligence. Auch als Vizepräsidentin der DIO, der Data Intelligence Offensive, treibt sie das Thema voran. Die Needs in der Realität sind dabei immer das entscheidende Puzzle-Stück, das ein Gesamtbild erst komplett macht. Und diese Needs sind sehr klar. „Viele Verantwortliche wissen, dass sie ihr Geschäft mit Daten optimieren können und müssen“, stellt Temper fest. „Was sie brauchen, sind aber die Expert:innen, die das umsetzen können.“
Frau Temper, der Trend geht offenbar immer stärker in die Richtung, das Business zu enabeln, selbst seine Daten zu verarbeiten und zu nutzen. Zum Beispiel mit Tools bis hin zu standardisierten KI-Blackboxes. Die Devise heißt: Keep it simple. Wie sehen Sie diesen Trend?
Ich sehe diesen Trend differenziert. Grundsätzlich ist es positiv, wenn die Schwelle, sich mit Daten und mit KI zu befassen, niedriger wird und das Verständnis für Daten immer breiter. Und wenn ein Blackbox-Modell mit Standard-Algorithmen oder einfach anwendbare statistische Methoden dabei helfen, diese Themen greifbar zu machen, ist das per se nichts Schlechtes.
Ich bin aber skeptisch, wenn ich Begriffe wie Self Service und Low Code höre, und wenn die Botschaft lautet: Jeder kann mit ein paar Clicks einen Machine-Learning-Algorithmus zusammenklicken und bekommt etwas Tolles dabei heraus.
Man muss sich bewusst sein, dass es für wirklich wertvolle Ergebnisse viel mehr braucht, vor allem sehr viel datenspezifisches Fachwissen.
Im Moment ist vor allem viel von Domänenwissen die Rede, weniger vom datenspezifischen Fachwissen.
Das ist aber genauso notwendig. Ich muss wissen, was alles in einem Datenmodell drinnen ist, muss die Daten kennen, muss die Qualität der Daten beurteilen können. Wir sehen das in unserer eigenen Praxis: Wir haben immer wieder Studierende, die mit großem Vorwissen einsteigen, wenn es zum Beispiel um Deep Learning geht und darum, wer das coolere Netz baut. Aber wenn es in die höhere Mathematik geht, gibt es da sehr viel Nachholbedarf. Mathematik und Statistik sind aber die Grundlagen und Assets, die im Hintergrund von beispielsweise Deep Learning wichtig sind, um Verfahren und die mathematischen Parameter und Konzepte dahinter wirklich zu verstehen. Und ich brauche Grundlagen der Informatik, um eine Data Science Pipeline zu bauen, oder das Wissen um Rechnerarchitekturen – Was ist eine CPU, was eine GPU? – für eine effiziente Umsetzung. Ich brauche all diese Skills, weil es bei der Arbeit mit Daten eine Menge unterschiedlicher Fallstricke gibt … und die können bei jedem Use Case andere sein.
Auch wenn die Use Cases unterschiedlich sind – gibt es dennoch allgemeingültige Erkenntnisse und Fallstricke?
Dass die Use Cases sehr unterschiedlich sind, ist ja bereits eine allgemeingültige Erkenntnis: Ich muss nicht für jedes Problem ein Deep-Learning-Netz einsetzen. Manchmal reichen auch andere, einfachere und ressourcenschonende Verfahren, um meine Fragestellungen zu beantworten.
Ein häufiger Fallstrick ist, dass ich es mit einem unbalancierten Datenset zu tun habe. Etwa, wenn eine Produktionsmaschine über 95 Prozent der Zeit im Normalbetrieb genaue Daten liefert, Anomalien, die ich vorhersagen möchte, aber nur über 5 Prozent der Zeit auftreten. Somit entsteht ein Ungleichgewicht in meinen gesammelten Daten.
Ein Modell, trainiert auf solch unausgeglichene Daten, würde zu Problemen führen. Wenn ich das nicht erkenne, kann ich noch so viele Daten sammeln und einen Algorithmus noch so intensiv trainieren – mein Datenmodell wird unbrauchbar sein. Domänenwissen hilft, um solch ein Ungleichgewicht zu erkennen. Als Data Scientist ist aber wichtig zu wissen, wie diese Daten vorverarbeitet werden müssen, um ein Modell damit zu trainieren. Hier können Methoden der Statistik und der Datensynthese zum Beispiel helfen. Der wohl häufigste Fallstrick ist, zu denken, es geht nur darum, ein Modell zu bauen und damit hat es sich. Das ist nur ein Teilausschnitt.
Wie sehen die anderen Teile aus?
Auf der einen Seite gibt es sehr viel Vorarbeit zu leisten. Als Data Scientist muss ich mir die Anwendungsfälle anschauen, mit den Expert:innen und Benutzer:innen aus den Fachabteilungen reden, um die Use Cases und das, was gebraucht wird, zu verstehen. Ich muss mir anschauen, welche Daten gesammelt wurden, wie es um die Datenqualität steht und die Daten vorbereiten. Und dann kann ich mich an mein Modell machen, es scripten und evaluieren, ob es für meine Aufgabenstellung einsetzbar ist. Wenn das Modell gebaut ist und es eine ausreichende Genauigkeit liefert, muss es noch gut dokumentiert werden, bevor es in den laufenden Betrieb überführt wird. Das alles ist eine Menge Arbeit, aber auch dann kann ich als Data Scientist noch nicht sagen: So, das war es und ich bin dann einmal weg. Die Arbeit ist damit nämlich noch nicht zu Ende. Ein Teil der Arbeit, der auch dazugehört, den viele jedoch zu wenig am Radar haben, fängt dann erst an und geht laufend weiter.
Weil Daten agil sind?
Genau. Es gibt einen AI Lifecycle nach dem Deployment.
Ein Datenmodell muss laufend aktualisiert werden. Ich muss das Modell regelmäßig trainieren, muss evaluieren, ob das Setting noch richtig ist, ob meine Daten aktuell und noch ausreichend sind, oder, ob es neue Daten gibt, mit denen ich mein Modell optimieren kann.
Es gibt so viele Einflussfaktoren, und die Rahmenbedingungen ändern sich laufend und immer rascher. In diesem Lifecycle steckt noch enorm viel Potenzial, und da sind nicht nur die Data Scientists, sondern ist auch das Business gefragt.
Es gibt offenbar auch immer mehr Leute aus dem Business, die sich in die Richtung Data Science weiterbilden. Merken Sie das bei Ihren Studiengängen auch und macht das angesichts der Komplexität überhaupt Sinn?
Diesen Trend merken wir auch. Und das macht auch durchaus Sinn, weil die Entwicklung dahingeht, dass sich die Rolle der Data Scientists in unterschiedliche Schienen und Aufgabenfelder konturiert … die einander übrigens sehr gut ergänzen. Die eine Schiene ist in einem zentralen Bereich angesiedelt, der sich übergreifend um das Thema Daten und um Aspekte wie Data Governance kümmert. Hier ist vor allem die methodische Kompetenz von Data Scientists gefragt. Die andere Schiene agiert im Business und dort geht es naturgemäß in erster Linie um konkrete, spezifische Fragestellungen des jeweiligen Fachbereiches. Für Leute aus dem Business, die dann zumeist auch dort in der Rolle als Data Scientist oder Business Analyst agieren werden, ist es wichtig, sich die technischen, mathematischen und statistischen Grundlagen anzueignen. Aber die Rolle und die Skill-Palette der Data Scientists und Business Analysts geht darüber ja weit hinaus – unabhängig davon, wo sie sitzen. Das umfasst das Wissen, was Datenqualität und Datensouveränität tatsächlich bedeuten: Wie kann und darf man zum Beispiel Daten austauschen? Welche ethischen und rechtlichen Implikationen gibt es dabei? Und vor allem geht es auch um kommunikative Skills.
Also Storytelling als Teil des Data-Science-Studiums?
Absolut. Wir spannen die angehenden Data Scientists und Business Analysts bewusst mit Leuten aus anderen Disziplinen, aus dem Sozial-, Wirtschafts- oder auch Gesundheitsbereich, zusammen, um zu lernen, wie man auf unterschiedliche Zielgruppen eingeht. Als Data Scientist oder Business Analyst bin ich ja kein Techniker, der alleine im Keller sitzt und sich nur um Algorithmen kümmern muss. Ich muss hinausgehen, mit den Leuten reden, aus Daten Stories machen und wichtige Informationen auf einen Blick kompakt in einem Dashboard zusammenfassen. Da gehört es dazu, handwerklich zu wissen, wie man eine Storyline aufbaut und wie man Fakten effektiv visualisiert. Aber dazu gehört auch, die Courage zu haben, auch einmal zu erklären, warum ein Datenmodell nicht funktioniert. Die Kommunikation mit den Menschen in anderen Abteilungen, mit dem Business, wird immer wichtiger, weil es zunehmend darum geht, Human Centered AI zu entwickeln und AI für die End User gut nutzbar zu machen. Und dazu braucht es Expert:innen, die wissen und erklären, wie man damit umgehen muss.
Von Michael Dvorak Fotos: Milagros Martinez-Flener
Comentarios