Would you like to know more about our products or do you have a question?
Die Qualität der Daten ist für die Arbeit mit Künstlicher Intelligenz entscheidend. Na klar, wird jetzt der ein oder andere schon denken. Denn wir haben bereits gelernt: je hochwertiger die Daten sind, desto besser kann die KI trainiert werden und die Daten verarbeiten und auswerten. Doch: was bedeutet eigentlich „hochwertige Daten“?
Werfen wir einen Blick auf den eigenen Desktop. Liegen dort die unterschiedlichsten Dateien aus verschiedensten Kategorien? Mobilfunkrechnung_April, Präsentation_Neu, Präsentation_NeuNeu, Präsentation_aktuell, Foto1.jpg , Auflistung_Mitarbeiterdaten.xls usw. Gar nicht so einfach, hier den Überblick zu behalten.
Machen wir nun eine kleine Übung: im ersten Schritt löschen wir alle alten Dateien, die nicht relevant sind. Was kann weg, was ist relevant? Und keine Angst: das wird kein Tutorial, wie man seinen Desktop aufräumt.
Im zweiten Schritt legen wir Ordner an (sollten die nicht schon existieren). Sortieren wir nun die Rechnungen in den Rechnungsordner usw. Innerhalb kürzester Zeit ist der Desktop übersichtlicher und wir können besser mit den Dateien arbeiten. Nicht relevante und nicht aktuelle Informationen sind im besten Fall gelöscht, alle anderen kategorisiert.
So ähnlich kann man sich den Beginn der Aufbereitung bei Daten für die Arbeit mit KI vorstellen. Natürlich weitaus komplexer und umfangreicher.
Es lassen sich folgende „Todos“ bei der Aufbereitung von Daten zusammenfassen:
Die Vorbereitung und Aufarbeitung der Daten ist sehr entscheidend für den Erfolg der Arbeit mit KI in Bezug auf Genauigkeit und aussagekräftige Ergebnisse. Deswegen lohnt es sich, viel Zeit zu investieren und sehr sorgfältig zu arbeiten.
Foto: Wesley Thinge (Unsplash)
1. Datenidentifikation und -kategorisierung
Erfassung von Datenquellen:
Kategorisierung: Die Daten werden in strukturierte (Tabellen, Datenbanken) und unstrukturierte Daten (PDFs, Bilder, E-Mails) aufgeteilt.
Relevanzanalyse: Es wird geprüft, welche Daten für spezifische KI-Anwendungen (z. B. Schadensbewertung, Risikoberechnung) nützlich sind.
2. Datenbereinigung
Dubletten entfernen: Überprüfung auf doppelte Datensätze, insbesondere in Kundendatenbanken.
Lücken füllen: Fehlende Datenpunkte identifizieren und, wenn möglich, aus anderen Quellen ergänzen.
Standardisierung: Einheitliche Formate (z. B. Datumsangaben oder Adressen), Konsistenz in Bezeichnungen (z. B. "Auto" vs. "Kfz").
3. Datenintegration
Zusammenführung: Daten aus verschiedenen Quellen (z. B. CRM, Schadenssysteme, externe Daten) in einem zentralen Data Warehouse oder Data Lake konsolidieren.
Schnittstellen schaffen: APIs oder Datenpipelines einrichten, um Echtzeitdaten oder Batch-Updates zu integrieren.
Formatangleichung: Sicherstellen, dass Daten aus verschiedenen Quellen in kompatiblen Formaten vorliegen.
4. Datenannotierung
Für KI-Anwendungen wie Bilderkennung (z. B. bei Schadensfotos) oder Textanalyse (z. B. bei Schadensberichten):
Tagging: Daten manuell oder halbautomatisch mit relevanten Kategorien versehen.
Beispiel: Bilder von Fahrzeugschäden mit Schadenskategorien annotieren.
Labeling: Daten mit Ausgabenkennzeichnungen versehen (z. B. "Genehmigt" oder "Abgelehnt" bei Schadensmeldungen).
5. Datenqualitätssicherung
Qualitätsprüfungen: Sicherstellen, dass Daten vollständig, akkurat und aktuell sind.
Outlier-Analyse: Identifizieren und Überprüfen von Ausreißern, die KI-Modelle verfälschen könnten.
Regelmäßige Aktualisierung: Datenbanken auf dem neuesten Stand halten.
6. Daten-Sicherheit und Compliance
KI-Modelle mit datenschutzfreundlichen Ansätzen trainieren, z. B. durch Differential Privacy.
Revisionssicherheit: Alle Änderungen an Daten dokumentieren.
Regulatorische Anforderungen erfüllen:
DSGVO (Datenminimierung, Transparenz)
Versicherungsaufsichtsrecht (BAFIN-Richtlinien)
7. Datenbereitstellung für KI
Feature Engineering: Wichtige Merkmale aus den Daten extrahieren (z. B. Schadenhöhe, Fahrzeugalter, Region).
Datenpartitionierung: Trainingsdaten, Testdaten und Validierungsdaten erstellen
„KI-freundliche“ Formate: Daten in Formate wie CSV, JSON oder Parquet konvertieren, die für Machine-Learning-Modelle geeignet sind.
Gerade bei Versicherungen und in Unternehmen, die mit sensiblen Daten arbeiten, ist „Sicherheit“ bei der Verarbeitung der Informationen besonders wichtig. Versicherungen sollten also auf eigene KI-Systeme setzen, die sie mit ihren Informationen füttern und von denen sie wissen, wo die Server stehen, im besten Fall sogar im eigenen Serverraum. Deswegen ist Open Source ein großes Thema: mit vollem Zugriff und Kontrolle. Wer also sicherstellen möchte (und muss), dass die eigenen Daten das Haus nicht verlassen, der setzt auf die wirklich eigene KI (mehr Informationen zum Beispiel unter www.oskis.de).
Wer in die Arbeit mit KI startet, sollte sich ganzheitlich beraten lassen und es macht Sinn, den kompletten Datenaufbereitungsprozess bereits von Profis begleiten zu lassen. Nur so kann sichergestellt werden, dass sie immer sicher gehandelt werden.
OSKIS: www.oskis.de