Scoringmodell
„Vorhersagen sind schwierig, vor allem, wenn sie die Zukunft betreffen“ mit diesem Bonmot hat Karl Valentin das grundlegende Problem sehr treffend zusammengefasst. Auch wenn Scoringmodelle die Schwierigkeit von Vorhersagen nicht immer komplett beseitigen können, so helfen sie doch in den meisten Fällen, die Vorhersagegenauigkeit deutlich zu verbessern. In diesem Artikel haben wir einige Informationen für Sie zusammengefasst:
Definition: Was ist ein Scoringmodell?
Ein Scoringmodell ist das Ergebnis eines mathematischen Verfahrens, welches meist zu Prognosezwecken eingesetzt wird. Merkmalsträgern (meist Personen) wird ein Wert zugeordnet, welcher ein bestimmtes Verhalten/Ereignis vorhersagen soll. Oft ist diese Zuordnung nicht deterministisch („ja“/“nein“), sondern erfolgt in Form eines Wahrscheinlichkeitswertes („fĂĽr die Person A besteht eine 3% Wahrscheinlichkeit, dass sie den Ratenkredit nicht zurĂĽckzahlen wird“).Â
In einfachen Formen wenden wir selbst häufig Scores an, entwickeln sogar einfache Scores! Ein Beispiel: Kauf eines Smartphones. Bestimmte Merkmale sind uns wichtig – manche mehr, manche weniger. Bluetooth-Kopfhörer, Displaygröße, Akkulaufzeit, Qualität der Kamera und der Preis. Gedanklich verteilen wir „Punktewerte“: der Preis ist 5x wichtiger als die Kopfhörer, die Kameraqualität und Akkulaufzeit sind zusammen genauso wichtig wie der Preis, etc. Die Kombination der Merkmale und unsere persönliche Gewichtung dieser Merkmale ergibt dann eine Gleichung, mit welcher wir einen Wert fĂĽr jedes Smartphone „errechnen“ bzw. schätzen. Die Gleichung könnte in etwa so aussehen: -5*(Preis) + 5*(Akkulaufzeit + Kameraqualität) + Kopfhörer = Smartphone-Score. Das negative Vorzeichen vor dem Gewicht des Preises kommt dadurch zustande dass gĂĽnstiger hier besser ist – also je niedriger der Preis, umso interessanter ist das Smartphone fĂĽr uns.Â
Bei dem Beispiel zu Smartphones mögen einfache Daumenregeln fĂĽr unseren persönlichen Bedarf halbwegs funktionieren. Ein groĂźer Onlinehändler kann fĂĽr jeden einzelnen Kunden jedoch hunderte Merkmale/Datenpunkte vorliegen haben. Es ist unmöglich, bei solchen Datenmengen mit Hilfe von Heuristiken die relevanten Merkmale zu identifizieren und entsprechend zu gewichten – hier muss auf ein Scoringmodell zurĂĽckgegriffen werden, um ein erfolgreiches, datengestĂĽtztes CRM zu betreiben.Â
WofĂĽr wird ein Scoringmodell eingesetzt?
Was vorhergesagt werden soll, ist nahezu beliebig – von Aktienkursen, Kaufwahrscheinlichkeiten, Umsatzprognose eines neuen Produktes bis hin zur Bevölkerungsentwicklung können unterschiedlichste Kriterien gewählt werden. Auch bei den Merkmalsträgern – also fĂĽr wen/was etwas vorhergesagt werden soll – sind keine Grenzen gesetzt: eine Person, eine Personengruppe, ein Standort, ein neues Produkt, eine Region – alle weisen bestimmte Merkmale auf, fĂĽr welche Prognosemodelle (wie etwa Scores) genutzt werden können.Â
Nahezu jeder von uns ist tagtäglich Scoringmodellen „ausgesetzt“. Ob ein Recommender System Musik- oder Filmvorschläge macht, die Wettervorhersage fĂĽr das Wochenende, ob wir einen Kredit genehmigt bekommen (und wenn ja, zu welchem Zinssatz), die Regierung auf Basis einer Steuerschätzung den Steuersatz ändert – hinter all diesen Ereignissen stehen Scoringmodelle. Â
Meist wird den Merkmalsträgern durch Scoringmodelle ein konkreter Scorewert zugeordnet. Dadurch lassen sich die Merkmalsträger dann nach Wertigkeit reihen. Dies ist beispielsweise wichtig, wenn ich wissen will, welche Kunden am wahrscheinlichsten auf meine Ansprache reagieren werden. Die Kunden mit der höchsten Response-Wahrscheinlichkeit wĂĽrden dann bevorzugt angesprochen. Dies kann insbesondere dann relevant sein, wenn die Kundenansprache mit hohen Kosten verbunden ist, z.B. ĂĽber ein Callcenter oder ein hochwertiges Printmailing erfolgt. Â
Welche Scoringmodell-Methoden gibt es?
Es gibt nicht das eine Scoringmodell bzw. das eine Prognosemodell – je nach Fragestellung stehen unterschiedliche Methoden zur VerfĂĽgung. Die Verfahren sind sehr vielfältig – was einen umfassenden Ăśberblick schwierig macht. Mit den wichtigsten, hier genannten Verfahren dĂĽrften sich die meisten Aufgabenstellungen jedoch gut bearbeiten lassen: Â
Logistic Regression
Mit einer logistischen Regression können Personen (oder andere Merkmalsträger) einer Gruppe zugeordnet werden. Meist handelt es sich um eine ja/nein-Zuordnung, z.B. „Person hat Auto ja/nein“
Linear Regression
Die lineare Regression prognostiziert einen kontinuierlichen Wert, z.B. „erwarteter Jahresumsatz“ oder „Kreditausfallwahrscheinlichkeit“Â
Time Series Analysis
Bei der Zeitreihenanalyse ist das Ziel, vorherzusagen, wie sich ein bestimmter Wert im Zeitverlauf entwickeln wird. Ein klassisches Beispiel ist die Vorhersage von Aktienkursen – wobei auf diesem Gebiet noch kein Modell bekannt ist, welches dies dauerhaft leisten kann Â
Decision Tree / Random Forest Model
Die “Entscheidungsbäume“ werden vor allem fĂĽr Klassifizierungsaufgaben genutzt. An Knotenpunkten verzweigen sich die „Äste“ eines Entscheidungsbaumes in Abhängigkeit von bestimmten MerkmalsausprägungenÂ
Neuronal Networks
Bei kĂĽnstlichen neuronalen Netzen werden die Eingangsvariablen/Prädiktoren in einer Zwischenschicht zusammengefasst und unterschiedlich gewichtet. Die Knoten in dieser Zwischenschicht können dann als Input fĂĽr eine oder mehrere weitere Zwischenschichten dienen, bis zu einer finalen Ausgabeschicht, in welcher die Zuordnung zu dem Zielkriterium erfolgt.Â
Bayesian Inference
Die Besonderheit dieser Modelle liegt darin, dass die Ereigniswahrscheinlichkeit fortlaufend aktualisiert werden kann, indem neue Beobachtungen in das Scoringmodell integriert werdenÂ
Wie wird ein Scoringmodell entwickelt?
Um ein Scoringmodell zu entwickeln empfehlen sich folgende drei Schritte:
Zielkriterium definierenÂ
Ein Scoringmodell soll helfen, die Wahrscheinlichkeit eines Ereignisses vorherzusagen – und dadurch Unsicherheit reduzieren und eine Entscheidungsgrundlage geben. Um ein Scoringmodell zu entwickeln, muss ein klares Ziel definiert sein: was soll vorhergesagt werden, und fĂĽr welche Gruppe? Dies ist nicht trivial, wie exemplarisch an einem Onlinehändler verdeutlicht werden kann: welche Kunden reagieren am wahrscheinlichsten auf eine Kampagne?Â
Welche Reaktion ist aber tatsächlich das Ziel des Händlers: eine Bestellung? Der Umsatz? Die Marge? Die Nettomarge nach Abzug der Retouren? Und fĂĽr welche Kundengruppe möchte ich eine Vorhersage treffen: fĂĽr alle Kunden oder getrennt nach Kundensegmenten (z.B. Neu- vs. Bestandskunden)? Je nachdem, fĂĽr welches Zielkriterium oder welche Kundengruppe der Händler sich entscheidet, werden sehr unterschiedliche Scoringmodelle das Ergebnis der Score-Entwicklung sein. Â
DatenaufbereitungÂ
Das Fundament fĂĽr ein gutes Scoringmodell ist die Datenbasis. Ohne die entsprechende Datenbasis kann kein gutes Scoringmodell entwickelt werden. Dabei ist meint die Datenqualität nicht unbedingt eine möglichst groĂźe Menge an Daten oder besonders hohen Detailgrad. Wichtig fĂĽr ein gutes Modell sind vielmehr:Â
- Vollständigkeit der Daten: Liegen Daten vollständig fĂĽr alle Merkmalsträger vor, oder gibt es viele fehlende Werte? Dies ist wichtig, um das spätere Modell auf möglichst viele Merkmalsträger anwenden zu können. Wenn ein Merkmal einen hohen Einfluss (eine hohe Gewichtung) in dem Scoringmodell hat, aber nur fĂĽr wenige Merkmalsträger vorliegt, kann das Modell auch nur fĂĽr diese Gruppe valide Vorhersagen liefern. Will eine Versicherung beispielsweise fĂĽr die Prämienberechnung die jährlichen Fahrtkilometer nutzen, hat diese Daten aber nur fĂĽr einen kleinen Teil ihrer Kunden, sollte dieses Merkmal nicht fĂĽr die Score-Entwicklung genutzt werden, sondern auf andere Merkmale zurĂĽckgegriffen werden – z.B. den Fahrzeugtyp, sofern dieser fĂĽr mehr Kunden vorliegt. Fehlende Werte sind allerdings kein Ausschlusskriterium, ĂĽber Mittelwerte von Merkmalen oder Nearest-Neighbor-Verfahren können fehlende Werte in vielen Fällen ersetzt werdenÂ
- Datenformat: FĂĽr manche Scoringmodelle mĂĽssen bestimmte Voraussetzungen an das Datenformat erfĂĽllt sein, etwa hinsichtlich des Skalierungsformates oder der Datenverteilung. Durch Datentransformation lassen sich, bei Bedarf, die Daten entsprechend aufbereiten, z.B. ein nominalskaliertes Merkmal in mehrere dichotome Merkmale umwandeln, oder eine Normalverteilung fĂĽr ein Merkmal erzielt werden.
- VerfĂĽgbarkeit von Daten: Wie soll das Scoringmodell nach der Entwicklung eingesetzt werden, und vor allem: fĂĽr wie lange? Werden die Daten, auf deren Basis das Modell entwickelt wurde, dann auch noch vorliegen? DĂĽrfen beispielsweise aufgrund von rechtlichen Rahmenbedingungen bestimmte personenbezogene Daten in Zukunft nicht mehr erhoben werden, macht es wenig Sinn, diese Daten fĂĽr die Score-Entwicklung zu nutzen. Selbst wenn diese Merkmale eine gute Vorhersage ermöglichen wĂĽrden, könnten sie zu einem späteren Zeitpunkt nicht genutzt werden, und das Modell wĂĽrde obsolet.Â
Die Datenaufbereitung ist meist der arbeitsintensivste Teil der Modellentwicklung – und oft auch der Einflussreichste! Die Qualität des Scoringmodells hängt viel stärker von der Qualität der Daten ab als von der Wahl des konkreten Algorithmus oder der bestmöglichen Wahl der Parameter fĂĽr diese Algorithmen.Â
Wahl des ModellsÂ
Welches Scoringmodell ist nun das Richtige? Das hängt von vielen Faktoren ab, etwas DatenverfĂĽgbarkeit, Zeithorizont der Nutzung des Modells, Anforderungen an Alpha- und Betafehler etc. Im Zweifelsfall gilt: einfach testen! Es spricht nichts dagegen, mehrere Modelle auf einen Datensatz anzuwenden, Modelle zu entwickeln und gegen eine Validierungsstichprobe die ModellgĂĽte zu prĂĽfen. Â
Fazit
In einer digitalisierten CRM-Welt entsteht eine groĂźe Menge an heterogenen Datenpunkten zu jedem einzelnen Kunden. Diese Datenmengen lassen sich nicht nutzen, ohne die entsprechenden mathematischen Verfahren – wie etwa Scoringmodelle. Ohne die richtigen mathematischen Modelle werden Budgets nicht optimal allokiert und Möglichkeiten der Weiterentwicklung im CRM-Umfeld ĂĽbersehen. Bauchentscheidungen und RĂĽckgriffe auf vermeintliches persönliches Expertenwissen sind in diesem Zusammenhang nicht mehr zeitgemäß. Scoringmodelle bieten in vielen Fällen eine wissenschaftliche, valide Entscheidungsgrundlage, welche sich, bei konsequenter Nutzung, auch in zentralen KPIs des CRMs widerspiegeln wird.Â