Data Cleaning
Heutzutage nimmt die zur Verfügung stehende Datenmenge in fast jedem Unternehmen so schnell wie noch nie zu. Die allgegenwärtige Digitalisierung und Automatisierung insbesondere im CRM tragen dazu bei, dass nicht nur qualitative Daten wie Name und Adresse der Kunden gespeichert werden, sondern auch Informationen über das Verhalten und die individuelle Customer Journey. Letzteres lässt zum Beispiel Affinitäten und NBOs berechnen.
Bei großen Datenmengen gibt es jedoch eine hohe Wahrscheinlichkeit, dass es Datenanomalien – also Abweichungen in den Daten – geben wird. Diese Datenanomalien werden über das sogenannte Data Cleaning – auch als Data Cleansing oder Datenbereinigung bekannt – abgehandelt bzw. bereinigt. Um Ausreißer in den Datensätzen frühzeitig zu erkennen, können sich Unternehmen viel Zeit und Geld sparen.
In diesem Beitrag beschreiben wir, worauf Data Cleaning basiert, was eine Datenanomalieerkennung ist sowie welche Vor- und Nachteile Data-Cleaning-Algorithmen mit sich bringen.
Inhaltsverzeichnis:
- Definition: Was ist Data Cleaning?
- Welche Probleme lassen sich durch Data Cleaning beheben?
- Definition: Was sind Datenanomalien?
- Isolation Forest Algorithmus: Definition und Funktionsweise
- Vorteile & Nachteile des Isolation Forest Algorithmus
- Use Cases: Wie erkennt man eine Datenanomalie?
- Weitere Methoden der Datenanomalieerkennung
- Unser Fazit zu Data Cleaning
Definition: Was ist Data Cleaning?
Data Cleaning (auch bekannt als Data Cleansing, Data Scrubbing oder Datenbereinigung) ist eine Methode, bei der es darum geht, Datenqualitäten zu verbessern, indem bestimmte Datensätze bereinigt werden. Hierbei kommen verschiedene Tools oder Algorithmen zum Einsatz, um aufgekommene Probleme bzw. Datenanomalien in Datensätzen zu erkennen und zu beheben.
Beim Data Cleaning geht es also darum, Daten oder Datensätze zu identifizieren, welche unvollständig, ungenau, korrupt oder gänzlich irrelevant sind und diese mit qualitativ hochwertigeren Daten zu ersetzen.
Ist das Data Cleaning erfolgreich durchgeführt, sollten alle Daten oder Datensätze einheitlich und fehlerfrei sein. Letzteres ist für eine weiterführende Nutzung der Daten unabdingbar, denn fehlerhafte Daten können bespielsweise Ergebnisse von Analysen verfälschen. Auch können Machine-Learning– oder KI-Modelle verzerrt werden und dadurch schlechte Leistungen erbringen, wenn sie mit den falschen Daten befüllt bzw. trainiert werden.
Exkurs: Data Cleaning vs. Data Transformation
Data Cleaning ist nicht mit dem Begriff der Data Transformation gleichzusetzen. Data Cleaning beschreibt – wie das englische Wort ‚Cleaning‘ bereits mit sich bringt – den Prozess der Bereinigung von Daten.
Bei der Data Transformation hingegen werden Rohdaten in ein für eine Datenanalyse geeignetes Format umgewandelt bzw. transformiert. Die Data Transformation wird außerdem oft als ‚Wrangling‘ oder ‚Munging‘ bezeichnet.
Welche Probleme lassen sich durch Data Cleaning beheben?
Data Cleaning kann verschiedene Probleme erkennen und lösen. Das beinhaltet beispielsweise:
- Entdecken von Daten-Duplikaten und die damit einhergehende Dupletten-Entfernung
- Erkennen und Beheben von Fehlern in den Daten
- Identifizieren und Löschen von Daten, die nicht korrekt oder wichtig sind
- Erkennen und Vervollständigung von Daten-Lücken
- Erkennen und Korrigieren von Daten, welche falsch formatiert wurden
Definition: Was sind Datenanomalien?
Datenanomalien sind unter anderem Daten, die nicht zu einem erwarteten Muster passen. Als Beispiel dient folgende arithmetische Datenreihe:
1, 2, 3, 4, 5, 3, 2, 6, 1, 90
Es fällt auf, dass sich die Zahl 90 stark von den anderen Werten abgrenzt. In diesem Fall stellt die Zahl 90 gleichzeitig einen Ausreißer bzw. eine Datenanomalie dar. Gleiches gilt auch in mehrdimensionalen Datensätzen.
Mit anderen Worten gesagt: Bei einer Datenanomalie handelt es sich um einen Datenpunkt, der im Sinne eines gegebenen Distanzmaßes (wie zum Beispiel euklidische Distanz, Manhattan-Distanz, City-Block-Distanz, Mahalanobis-Distanz etc.) zu allen anderen Datenpunkten eine hohe Entfernung aufweist. Eine Datenanomalie kann dabei unterschiedliche Ursachen haben. Folgende Ursachen sind möglich;
- Mess- und Trackingfehler
- Dateneingabe- und Übermittlungsfehler
- Absichtliches Handeln
Um dem entgegenzuwirken, kommt die Methode der Datenanomalieerkennung zum Einsatz. Für diese Methode wird eine Grenze um „normale“ Datenpunkte definiert, sodass solche von Ausreißern bzw. Datenanomalien unterschieden werden können.
Isolation Forest Algorithmus: Definition und Funktionsweise
Data Cleaning kann auf unterschiedlichen Algorithmen basieren. Einer davon ist der Isolation Forest Algorithmus, auf welchen wir in diesem Artikel unseren Fokus legen.
Was ist ein Isolation Forest Algorithmus?
Der Isolation Forest Algorithmus wurde 2008 von Fei Tony Liu, Kai Ming Ting und Zhi-Hua Zhou entwickelt. Es ist ein unüberwachter Lernalgorithmus, der zur Familie der Entscheidungsbäume gehört. An dieser Stelle ist es sinnvoll, den Begriff „unüberwachtes Lernen“ (engl. „unsupervised learning“) zu erläutern. Hierbei handelt es sich um Machine-Learning-Methoden, die es ermöglichen, ohne vorgegebene Muster die Zusammenhänge in Daten explorativ zu erkennen. In der Praxis bedeutet dies, dass der Algorithmus keine historischen Daten braucht und direkt an einer gegebenen Datenmenge anwendbar ist. Im Kontext der Anomalieerkennung muss der Algorithmus also nicht wissen, welche Merkmalsausprägungen auf eine Anomalie hindeuten, sondern findet diese selbst heraus.
Dieser Ansatz macht sich zunutze, dass Anomalien Variablenwerte haben, die sich stark von den erwarteten Mittelwerten unterscheiden und dass sie nur mit einer sehr geringen Wahrscheinlichkeit auftreten. Diese Eigenschaften ermöglichen es, Anomalien von den restlichen Daten zu isolieren. Der Algorithmus funktioniert hervorragend mit sehr großen multidimensionalen Datensätzen und hat sich als sehr effektive Methode erwiesen.
Wie funktioniert der Isolation Forest Algorithmus?
Der Kern des Algorithmus besteht darin, Anomalien zu isolieren, indem Entscheidungsbäume mit zufälligen Attributen erstellt werden:
Schritt #1 : Hier wählt der Algorithmus eine Variable und ihre Ausprägung, die zwischen dem Minimum und Maximum der Variable liegt, nach dem Zufallsprinzip. Die Datenpunkte werden in zwei Gruppen aufgeteilt: „kleiner gleich“ und „größer“ als die gewählte Ausprägung, und im Fall einer qualitativen Variablen, „gehört“ und „gehört nicht“ zu der gewählten Menge an Ausprägungen. Dieser Vorgang wird für jede Teilmenge unabhängig wiederholt, bis jede Teilmenge genau einen Datenpunkt enthält. Beim Betrachten des resultierenden Baums können normale und anormale Punkte anhand ihrer durchschnittlichen Pfadlänge unterschieden werden. Je kürzer der Isolationsweg ist, desto mehr weist er auf eine Anomalie hin. Dies ist nur ein Entscheidungsbaum und wie der Name des Algorithmus sagt, werden viele „Bäume“ bzw. ein ganzer „Wald“ benötigt. Deswegen wird der gesamte Vorgang mit immer wieder neuen zufälligen Ausgangspunkten über mindestens 100 Schleifen wiederholt.
Schritt #2: Darauf aufbauend wird im nächsten Schritt ein Anomalie-Scoring erstellt. Diese Funktion berechnet eine Durchschnittspfadlänge vom Baumansatz (auch Wurzel genannt) und normiert diese auf ein Intervall [0, 1]. Ziel ist es, ein analytisch eingeschränktes und vergleichbares Maß für jeden Datenpunkt zu definieren.
Die dann verwendete Scoring-Funktion ist gegeben durch: S(x,n)=2^(-E[h(x)]/c(n))
Definition:
h (x) – Pfadlänge des Datenpunktes x im gegebenen Isolationsbaum
E [h(x)] – Durchschnittspfadlänge des Datenpunktes x in allen Isolationsbäumen
c(n) – Durchschnittspfadlänge über alle Datenpunkte und Isolationsbäume
Dementsprechend haben Datenpunkte mit Pfadlängen kürzer als der Durchschnitt einen Scoring-Wert von mehr als 0,5.
Je höher der Scoring-Wert, desto kürzer die durchschnittliche Pfadlänge und somit die Wahrscheinlichkeit, dass es sich um eine Anomalie handelt.
Schritt #3: Als letztes wird der gewünschte und vom Benutzer definierte Anteil (Kontaminationsniveau) der Datenpunkte mit dem höchsten Scoring als Anomalien ausgegeben. Diese sollten weiter analysiert werden, um die Ursachen der Unvereinbarkeit mit dem vorliegenden Datenmuster zu ergründen, umso entsprechende Maßnahmen durchführen zu können.
Vorteile & Nachteile des Isolation Forest Algorithmus
Ein Vorteil des Isolation Forest Algorithmus ist, dass dieser recht unkompliziert ist und seine Ergebnisse einfach zu interpretieren sind. Er liefert eine fertige Liste der Datenanomalien. Ebenso zählt Schnelligkeit zum Vorteil: Die Zeitkomplexität ist linear, das heißt auch, bei sehr großen Datenmengen findet der Isolation Forest Algorithmus eine effiziente Lösung. Außerdem kann er sowohl bei quantitativen als auch qualitativen Daten angewendet werden, was bei vielen anderen Algorithmen ausgeschlossen ist. Da das Verfahren hervorragend mit multidimensionalen Datensätzen funktioniert, bekommen Nutzer:innen gleichzeitig ein ganzheitliches Bild von den untersuchten Daten.
Ein Nachteil ist, dass die Datenpunkte mit einem hohen Scoring nicht direkt isoliert werden – das Kontaminationsniveau wird manuell eingestellt und sollte ggf. angepasst werden. Die Anomalien werden durch zufällige Verteilungen identifiziert, deswegen könnte es in sehr seltenen Fällen dazu kommen, dass dies nicht korrekt erfolgt. Um das Risiko zu minimieren, empfiehlt es sich, die Anzahl der verwendeten Entscheidungsbäume zu erhöhen.
Use Cases: Wie erkennt man eine Datenanomalie?
Use Case #1: Die Ermittlung von Betrugspräventionen
Ein häufiger Use Case ist die Ermittlung von Fraud Prevention (auch bekannt als Betrugsprävention).
E-Commerce: Beispielsweise können sich Händler im E-Commerce vor Betrugsversuchen und -maschen schützen, indem sie diese identifizieren, bevor die Ware das Lager verlässt. Informationen wie beispielsweise die Anzahl der bestellten Ware, die Anzahl der Bestellungen in einer Periode oder ob der Kauf auf Rechnung erfolgt ist, sind jederzeit verfügbar und können in Echtzeit für Analysen verwendet werden. Da der Algorithmus multidimensional funktioniert, werden alle eingesetzten Faktoren in Betracht gezogen. So werden zum Beispiel Kunden, die jeden Tag zehn bestimmte Artikel auf Rechnung bestellen von den Kunden die gelegentlich und in üblichen Mengen auf Rechnung bestellen, unterschieden.
Bankwesen: Ähnlich kann der Isolation Forest Algorithmus im Bankwesen, zum Beispiel in der Analyse einer Kreditkartentransaktionen, angewendet werden. Solche Transaktionen haben meistens ein bestimmtes Verhaltensmuster: Gehaltseingang, Rechnungen und Einkäufe, die bezahlt werden, etc. Passt eine Transaktion nicht zu diesem Verhaltensmuster, beispielsweise wenn eine Überweisung von 10.000 Euro nach Dubai getätigt wird, wo der Kunde nie war oder etwas gekauft hat, so wird diese abgefangen. Der Algorithmus liefert eine Liste an potenziellen Betrugsversuchen, die dann einzeln geprüft werden können.
Use Case #2: Datenqualitätsmanament
Ein weiterer Use Case ist das Datenqualitätsmanagement selbst. Durch eine automatisierte Erkennung von Datenanomalien können Fehler in Datenquellen oder -strecken erkannt werden und ausgemerzt werden. Auch im CRM bzw. im Marketing kann die Erkennung von Datenanomalien helfen. Bei Customer Analytics Modellen werden klassischerweise alle Datenpunkte eines Kunden mit einbezogen. Ggf. führen aber Ausreißer dazu, dass sich zum Beispiel NBOs verschieben, obwohl der Kunde beispielsweise nur im falschen Account angemeldet war. In diesem Fall ist es unter Umständen besser, solche Ausreißer nicht mit ins Ergebnis einfließen zu lassen.
Weitere Methoden der Datenanomalieerkennung
Boxplots
Die einfachste und bekannteste Methode der Ausreißer-Identifizierung stellen Boxplots dar. In dieser Methode wird der Median, das obere und das untere Quartil der Daten sowie die Grenzwerte, ab denen man von Ausreißer sprechen kann, determiniert. Diese Methode funktioniert allerdings nur mit eindimensionalen Daten und ist somit für komplexere Fragestellungen nicht geeignet.
Clustering-Algorithmen
Alternativ können auch Clustering-Algorithmen für die Anomalieerkennung eingesetzt werden, jedoch ist ihre Anwendung zum Teil eingeschränkt. Beispielsweise braucht ein k-means-Algorithmus eine vorgegebene Anzahl an Clustern. Da sich die Anomalien nicht nur von den Normalwerten, sondern auch selbst voneinander stark unterscheiden können, müsste diese mir der Trial-and-Error-Methode bestimmt werden.
DBSCAN-Algorithmus
Weiter könnte auch der DBSCAN-Algorithmus verwendet werden. Dieser gruppiert die Datenpunkte anhand der euklidischen Abstände. In dem Fall haben die Normalwerte kleine Abstände und werden demselben Clustern zugeordnet. Die Datenpunkte, die aufgrund großer Entfernung keinem Cluster zugehören sind die sogenannten Rauschpunkte und entsprechen den Anomalien in der Datenmenge.
Autoencoder
Eine andere, effiziente Methode aus dem Bereich Deep Learning ist der Autoencoder. Hierbei handelt es sich um ein künstliches neuronales Netz, das die Input-Daten vereinfacht einkodiert und anschließend wiederherstellt. Ein Autoencoder lernt, die Daten zu komprimieren und gleichzeitig den Rekonstruktionsfehler zu minimieren. Da die Normalwerte die Mehrheit stellen, tragen sie zum Lerneffekt am meisten bei. Somit ist der Rekonstruktionsfehler für die Anomalien deutlich größer als für die anderen Werte. Diese Methode, obwohl sehr leistungsfähig, erfordert allerdings ein tieferes methodisches Verständnis als die des Isolation Forest Algorithmus.
Unser Fazit zu Data Cleaning
Data Cleaning ist eine wichtige Methode zur Bereinigung von Daten bzw. Datenanomalien. Letztere sollten stets beobachtet werden, um eventuelle negative Folgen für Unternehmen zu minimieren. Verunreinigte Daten, Datenlecks oder gar Geldverluste beispielsweise durch Betrug lassen sich dementsprechend vermeiden. Der Isolation Forest Algorithmus ist ein mächtiges Tool für eine Datenanomalieerkennung jeglicher Art und kann sehr effizient in eine IT-Systemlandschaft implementiert werden. Mit einer ganzheitlichen Betrachtung von (mehrdimensionalen) Daten bietet dieser Algorithmus eine sehr gute Grundlage für weitere, detaillierte Analysen von Datenanomalien.