Unsere Veranstaltung
Alles KI oder was? – Über Möglichkeiten und Chancen der Künstlichen Intelligenz
Katharina Ehrmann ist erfolgreiche Studentin des AKAD-Master-Fernstudiengangs Data Science. Die junge Frau brennt für ihr Thema, was man ihr im Rahmen des AKAD-Connect-Interviews in jedem Moment anmerkt. Nach ihrem Bachelor in Wirtschaftsinformatik sattelte die MINT-Begeisterte umgehend ihren Master drauf. Dabei legte sie ihren vollen Fokus aufs Fernstudium zusammen mit ihrer Tätigkeit als Data Data Analyst:in für diverse Data-Science-Lösungen. Aus beidem zog sie sich gegenseitig befruchtende Impulse: aus der Praxis in die Theorie und umgekehrt.
Anforderungen an Daten: Was braucht es eigentlich?
In ihrer Master-Arbeit ging Katharina Ehrmann der Frage nach: Welche Eigenschaften muss ein Datensystem erfüllen, damit es die Interessen der Stakeholder erfüllt? Die Definition erfolgt zusammen mit dem Auftraggeber, und das schon sehr früh im Projekt für eine gute Erfolgsperspektive. Die Antworten auf die Leitfrage lauten: Verständlich formulierte, vollständige, konsistente und vor allem auch überprüfbare Anforderungen sind erfolgsentscheidend für datengetriebene KI-Projekte. Im klaren Rahmen zu agieren, stärkt die Stringenz des Projektverlaufs signifikant. Das Risiko, zu scheitern, wird so minimiert.
Was sind Daten, was ist KI und was können sie zusammen leisten?
Daten sind nichts anderes als maschinell verarbeitbare Zeichen, die Objekte der Realwelt repräsentieren, wie Katharina Ehrmann erklärt. Zusammen mit ergänzter Semantik und Kontext lassen sich Informationen extrahieren – in verschiedener Gestalt. KI ist also nichts anderes als Software, die mit bestimmten Techniken und Konzepten Empfehlungen, Vorhersagen und Prognosen abliefert für verwertbare Entscheidungsgrundlagen. Das Umfeld zu beeinflussen, kann dabei direkt oder indirekt, also automatisiert, erfolgen. Dahinter stehen Logik, Regeln und Statistik. Aus Maschinellem Lernen (Regression und Clustering) und Deep Learning lassen sich ebenfalls KI-Software-Modelle entwickeln, z. B. für die Bilderkennung.
Klare Definition ist erfolgsentscheidend
Wie Katharina Ehrmann weiter erläuterte, ist die Klarheit über Begriffe und Intentionen erfolgsentscheidend für KI-Projekte. Sie führte deshalb weiter aus: Machine Learning ist überwachtes Lernen: Die Basis dafür ist ein Datensatz mit zwei Merkmalen (Objekteigenschaft oder Beobachtung) plus der Bezeichnung, was dahinter steckt, z. B. Klassen. Dazu kommen Trainingsdaten, die gemeinsam in einen Lernalgorithmus eingegeben werden. Heraus kommt eine Empfehlung, die mit weiteren Daten gefüttert wird zur weiteren Präzisierung der Vorhersagen. Nach klaren Regeln und Mustern aus dem Trainingsdatensatz erfolgt eine verbesserte Zuordnung zu Klassen. In der Praxis ist das komplexer, z. B. durch iteratives Vorgehen.
Motivation und Zielsetzung für die Master-Arbeit
„Data is food for AI” (Andrew Ng, Ikone der KI-Entwicklung). Das meint nichts anderes, als dass KI ohne Daten nicht wachsen kann. Ohne Daten keine Modelle. Ohne Daten keine Trainingssätze. Gute Daten sorgen also für gute KI-Modelle. Was macht also gute Daten aus? Wer frühzeitig für gute Daten sorgt, steigert die Erfolgsaussichten seines KI-Engagements deutlich. Der Fokus auf diesem Zusammenhang ist noch nicht so verbreitet, deswegen wählte Katharina Ehrmann dieses Thema für ihre Master-Arbeit. Ihre Kernfrage lautete: „Lassen sich allgemeingültige Anforderungen für KI-Daten definieren, die für alle Arten von KI-Daten anwendbar sind?
Auf der Spur der Datenqualität
Katharina Ehrmann hat eine Checkliste erarbeitet, die hilfreich dabei ist, das Erreichen der eigenen KI-Ziele durch gute Daten zu stärken. Dazu wertete sie vorhandene Fachliteratur aus und entwickelte daraus ihre Vorgehensweise zur Identifikation von Anforderungen. Selbst Gesetzesentwürfe und Expertengespräche flossen in ihre Master-Arbeit ein, auch Paper und KI-Negativbeispiele zog sie dafür heran. Aus allen Quellen sortierte und gruppierte Katharina Ehrmann dann die Anforderungen für ihre Checkliste an KI-Daten. Diese Kriterien testete sie gleich selbst über eine Fallstudie: erfolgreich.
Ergebnisse der Master-Arbeit von hoher Relevanz
Katharina Ehrmann zeigte: Es gibt unterschiedliche Anforderungen: allgemeingültige und spezifische für Teilbereiche von KI-Daten. Sie unterscheidet nach Lernart, Problemklasse und Repräsentation der Daten, die Unteranforderungen nutzen und relevant sind. Als dritten Punkt kristallisierte sich der Umgang mit den Daten heraus, z. B. bei der Dokumentation von Änderungen am Datensatz. Diese müssen nachvollziehbar bleiben. Hauptaugenmerk ihrer Master-Arbeit blieben die 13 generischen Anforderungen: Datenqualität und -quantität, Korrektheit & Vollständigkeit, Repräsentativität, Relevanz der Daten im Datensatz, die Einhaltung von Ethik – als ganz wichtiger Punkt –, Vermeidung von Bias & Noise – womit die Abwesenheit von Verzerrungen gemeint ist –, Rechtmäßigkeit, Verfügbarkeit und Zugänglichkeit, Robustheit und Datenrepräsentation sowie übergeordnete Anforderungen des KI-Projekts. Das klingt auf den ersten Blick eher vage, erfordert aber umso mehr Präzision beim Aufsetzen des KI-Projekts. Katharina Ehrmanns Fazit: „Der Charakter der Anforderungen ist ein Gerüst zur Orientierung.“ Sie gibt zu jedem der 13 Checklisten-Punkte ausformulierte Anforderungsprofile zur Unterstützung an die Hand:
- Abstrakte Anforderung
- Ausformulierung der Anforderung
- Wahl einer Metrik zur Prüfung der Anforderung
- Festlegung eines Zielwerts der Metrik
- Auswahl Tool/Messinstrument zur Ermittlung der Metrik für Datensatz
All das fließt in das iterative Vorgehen ein zur weiteren Schärfung und Präzisierung der Datenqualität.
Theorie ganz praktisch: von der kategorischen Variable zur automatisierten Aussage
Diese umfangreiche Theoriebasis veranschaulicht Katharina Ehrmann anhand eines Pilz-Datensatzes. Verschiedene Ausprägungen (Aussehen), Klassen (giftig-ungiftig) etc. flossen darin ein. Die KI soll angeben, ob ein Pilz essbar oder ungenießbar ist. Über das oben beschriebene Fünf-Punkte-Modell gelang ihr das mit einer Abweichung von plus/minus 5% Korrektheit in automatisierter Weise. Zur Überprüfung der Relevanz der Aussage wird zudem eine ideale Anzahl von Datensätzen ausgewiesen, für verlässliche KI-Empfehlungen.
Fernstudium als ideales Karrieresprungbrett
Handfestes Wissen für KI-interessierte Unternehmen: Mittels ihres Master-Fernstudiums Data Science qualifizierte sich Katharina Ehrmann direkt für anspruchsvolle Fach- und Führungsaufgaben. Sie freut sich sehr auf ihre aussichtsreiche berufliche Zukunft in diesem Wachstumsfeld der KI. Das gesamte AKAD-Team wünscht ihr weiterhin alles Gute für ihren spannenden Weg!
Voll akkreditiert und von Studierenden prämiert
Fragen zum Studium
Kostenloses Infomaterial anfordern