Scoringmodell

< Zurück zur Übersicht

„Vorhersagen sind schwierig, vor allem, wenn sie die Zukunft betreffen“ mit diesem Bonmot hat Karl Valentin das grundlegende Problem sehr treffend zusammengefasst. Auch wenn Scoringmodelle die Schwierigkeit von Vorhersagen nicht immer komplett beseitigen können, so helfen sie doch in den meisten Fällen, die Vorhersagegenauigkeit deutlich zu verbessern. In diesem Artikel haben wir einige Informationen für Sie zusammengefasst:

Definition: Was ist ein Scoringmodell?
Wofür wird ein Scoringmodell eingesetzt?
Welche Scoringmodell-Methoden gibt es?
Wie wird ein Scoringmodell entwickelt?
Fazit

Definition: Was ist ein Scoringmodell?

Ein Scoringmodell ist das Ergebnis eines mathematischen Verfahrens, welches meist zu Prognosezwecken eingesetzt wird. Merkmalsträgern (meist Personen) wird ein Wert zugeordnet, welcher ein bestimmtes Verhalten/Ereignis vorhersagen soll. Oft ist diese Zuordnung nicht deterministisch („ja“/“nein“), sondern erfolgt in Form eines Wahrscheinlichkeitswertes („für die Person A besteht eine 3% Wahrscheinlichkeit, dass sie den Ratenkredit nicht zurückzahlen wird“).

In einfachen Formen wenden wir selbst häufig Scores an, entwickeln sogar einfache Scores! Ein Beispiel: Kauf eines Smartphones. Bestimmte Merkmale sind uns wichtig – manche mehr, manche weniger. Bluetooth-Kopfhörer, Displaygröße, Akkulaufzeit, Qualität der Kamera und der Preis. Gedanklich verteilen wir „Punktewerte“: der Preis ist 5x wichtiger als die Kopfhörer, die Kameraqualität und Akkulaufzeit sind zusammen genauso wichtig wie der Preis, etc. Die Kombination der Merkmale und unsere persönliche Gewichtung dieser Merkmale ergibt dann eine Gleichung, mit welcher wir einen Wert für jedes Smartphone „errechnen“ bzw. schätzen. Die Gleichung könnte in etwa so aussehen: -5*(Preis) + 5*(Akkulaufzeit + Kameraqualität) + Kopfhörer = Smartphone-Score. Das negative Vorzeichen vor dem Gewicht des Preises kommt dadurch zustande dass günstiger hier besser ist – also je niedriger der Preis, umso interessanter ist das Smartphone für uns.

Bei dem Beispiel zu Smartphones mögen einfache Daumenregeln für unseren persönlichen Bedarf halbwegs funktionieren. Ein großer Onlinehändler kann für jeden einzelnen Kunden jedoch hunderte Merkmale/Datenpunkte vorliegen haben. Es ist unmöglich, bei solchen Datenmengen mit Hilfe von Heuristiken die relevanten Merkmale zu identifizieren und entsprechend zu gewichten – hier muss auf ein Scoringmodell zurückgegriffen werden, um ein erfolgreiches, datengestütztes CRM zu betreiben.

Interesse an einer Scoringmodell Beratung? Hier erfahren Sie mehr über unser Leistungsspektrum!

Wofür wird ein Scoringmodell eingesetzt?

Was vorhergesagt werden soll, ist nahezu beliebig – von Aktienkursen, Kaufwahrscheinlichkeiten, Umsatzprognose eines neuen Produktes bis hin zur Bevölkerungsentwicklung können unterschiedlichste Kriterien gewählt werden. Auch bei den Merkmalsträgern – also für wen/was etwas vorhergesagt werden soll – sind keine Grenzen gesetzt: eine Person, eine Personengruppe, ein Standort, ein neues Produkt, eine Region – alle weisen bestimmte Merkmale auf, für welche Prognosemodelle (wie etwa Scores) genutzt werden können.

Nahezu jeder von uns ist tagtäglich Scoringmodellen „ausgesetzt“. Ob ein Recommender System Musik- oder Filmvorschläge macht, die Wettervorhersage für das Wochenende, ob wir einen Kredit genehmigt bekommen (und wenn ja, zu welchem Zinssatz), die Regierung auf Basis einer Steuerschätzung den Steuersatz ändert – hinter all diesen Ereignissen stehen Scoringmodelle.

Meist wird den Merkmalsträgern durch Scoringmodelle ein konkreter Scorewert zugeordnet. Dadurch lassen sich die Merkmalsträger dann nach Wertigkeit reihen. Dies ist beispielsweise wichtig, wenn ich wissen will, welche Kunden am wahrscheinlichsten auf meine Ansprache reagieren werden. Die Kunden mit der höchsten Response-Wahrscheinlichkeit würden dann bevorzugt angesprochen. Dies kann insbesondere dann relevant sein, wenn die Kundenansprache mit hohen Kosten verbunden ist, z.B. über ein Callcenter oder ein hochwertiges Printmailing erfolgt.

Welche Scoringmodell-Methoden gibt es?

Es gibt nicht das eine Scoringmodell bzw. das eine Prognosemodell – je nach Fragestellung stehen unterschiedliche Methoden zur Verfügung. Die Verfahren sind sehr vielfältig – was einen umfassenden Überblick schwierig macht. Mit den wichtigsten, hier genannten Verfahren dürften sich die meisten Aufgabenstellungen jedoch gut bearbeiten lassen:

Logistic Regression

Mit einer logistischen Regression können Personen (oder andere Merkmalsträger) einer Gruppe zugeordnet werden. Meist handelt es sich um eine ja/nein-Zuordnung, z.B. „Person hat Auto ja/nein“

Linear Regression

Die lineare Regression prognostiziert einen kontinuierlichen Wert, z.B. „erwarteter Jahresumsatz“ oder „Kreditausfallwahrscheinlichkeit“

Time Series Analysis

Bei der Zeitreihenanalyse ist das Ziel, vorherzusagen, wie sich ein bestimmter Wert im Zeitverlauf entwickeln wird. Ein klassisches Beispiel ist die Vorhersage von Aktienkursen – wobei auf diesem Gebiet noch kein Modell bekannt ist, welches dies dauerhaft leisten kann

Decision Tree / Random Forest Model

Die “Entscheidungsbäume“ werden vor allem für Klassifizierungsaufgaben genutzt. An Knotenpunkten verzweigen sich die „Äste“ eines Entscheidungsbaumes in Abhängigkeit von bestimmten Merkmalsausprägungen

Neuronal Networks

Bei künstlichen neuronalen Netzen werden die Eingangsvariablen/Prädiktoren in einer Zwischenschicht zusammengefasst und unterschiedlich gewichtet. Die Knoten in dieser Zwischenschicht können dann als Input für eine oder mehrere weitere Zwischenschichten dienen, bis zu einer finalen Ausgabeschicht, in welcher die Zuordnung zu dem Zielkriterium erfolgt.

Bayesian Inference

Die Besonderheit dieser Modelle liegt darin, dass die Ereigniswahrscheinlichkeit fortlaufend aktualisiert werden kann, indem neue Beobachtungen in das Scoringmodell integriert werden

Wie wird ein Scoringmodell entwickelt?

Um ein Scoringmodell zu entwickeln empfehlen sich folgende drei Schritte:

Zielkriterium definieren

Ein Scoringmodell soll helfen, die Wahrscheinlichkeit eines Ereignisses vorherzusagen – und dadurch Unsicherheit reduzieren und eine Entscheidungsgrundlage geben. Um ein Scoringmodell zu entwickeln, muss ein klares Ziel definiert sein: was soll vorhergesagt werden, und für welche Gruppe? Dies ist nicht trivial, wie exemplarisch an einem Onlinehändler verdeutlicht werden kann: welche Kunden reagieren am wahrscheinlichsten auf eine Kampagne?

Welche Reaktion ist aber tatsächlich das Ziel des Händlers: eine Bestellung? Der Umsatz? Die Marge? Die Nettomarge nach Abzug der Retouren? Und für welche Kundengruppe möchte ich eine Vorhersage treffen: für alle Kunden oder getrennt nach Kundensegmenten (z.B. Neu- vs. Bestandskunden)? Je nachdem, für welches Zielkriterium oder welche Kundengruppe der Händler sich entscheidet, werden sehr unterschiedliche Scoringmodelle das Ergebnis der Score-Entwicklung sein.

Datenaufbereitung

Das Fundament für ein gutes Scoringmodell ist die Datenbasis. Ohne die entsprechende Datenbasis kann kein gutes Scoringmodell entwickelt werden. Dabei ist meint die Datenqualität nicht unbedingt eine möglichst große Menge an Daten oder besonders hohen Detailgrad. Wichtig für ein gutes Modell sind vielmehr:

Vollständigkeit der Daten: Liegen Daten vollständig für alle Merkmalsträger vor, oder gibt es viele fehlende Werte? Dies ist wichtig, um das spätere Modell auf möglichst viele Merkmalsträger anwenden zu können. Wenn ein Merkmal einen hohen Einfluss (eine hohe Gewichtung) in dem Scoringmodell hat, aber nur für wenige Merkmalsträger vorliegt, kann das Modell auch nur für diese Gruppe valide Vorhersagen liefern. Will eine Versicherung beispielsweise für die Prämienberechnung die jährlichen Fahrtkilometer nutzen, hat diese Daten aber nur für einen kleinen Teil ihrer Kunden, sollte dieses Merkmal nicht für die Score-Entwicklung genutzt werden, sondern auf andere Merkmale zurückgegriffen werden – z.B. den Fahrzeugtyp, sofern dieser für mehr Kunden vorliegt. Fehlende Werte sind allerdings kein Ausschlusskriterium, über Mittelwerte von Merkmalen oder Nearest-Neighbor-Verfahren können fehlende Werte in vielen Fällen ersetzt werden
Datenformat: Für manche Scoringmodelle müssen bestimmte Voraussetzungen an das Datenformat erfüllt sein, etwa hinsichtlich des Skalierungsformates oder der Datenverteilung. Durch Datentransformation lassen sich, bei Bedarf, die Daten entsprechend aufbereiten, z.B. ein nominalskaliertes Merkmal in mehrere dichotome Merkmale umwandeln, oder eine Normalverteilung für ein Merkmal erzielt werden.
Verfügbarkeit von Daten: Wie soll das Scoringmodell nach der Entwicklung eingesetzt werden, und vor allem: für wie lange? Werden die Daten, auf deren Basis das Modell entwickelt wurde, dann auch noch vorliegen? Dürfen beispielsweise aufgrund von rechtlichen Rahmenbedingungen bestimmte personenbezogene Daten in Zukunft nicht mehr erhoben werden, macht es wenig Sinn, diese Daten für die Score-Entwicklung zu nutzen. Selbst wenn diese Merkmale eine gute Vorhersage ermöglichen würden, könnten sie zu einem späteren Zeitpunkt nicht genutzt werden, und das Modell würde obsolet.

Die Datenaufbereitung ist meist der arbeitsintensivste Teil der Modellentwicklung – und oft auch der Einflussreichste! Die Qualität des Scoringmodells hängt viel stärker von der Qualität der Daten ab als von der Wahl des konkreten Algorithmus oder der bestmöglichen Wahl der Parameter für diese Algorithmen.

Wahl des Modells

Welches Scoringmodell ist nun das Richtige? Das hängt von vielen Faktoren ab, etwas Datenverfügbarkeit, Zeithorizont der Nutzung des Modells, Anforderungen an Alpha- und Betafehler etc. Im Zweifelsfall gilt: einfach testen! Es spricht nichts dagegen, mehrere Modelle auf einen Datensatz anzuwenden, Modelle zu entwickeln und gegen eine Validierungsstichprobe die Modellgüte zu prüfen.

Fazit

In einer digitalisierten CRM-Welt entsteht eine große Menge an heterogenen Datenpunkten zu jedem einzelnen Kunden. Diese Datenmengen lassen sich nicht nutzen, ohne die entsprechenden mathematischen Verfahren – wie etwa Scoringmodelle. Ohne die richtigen mathematischen Modelle werden Budgets nicht optimal allokiert und Möglichkeiten der Weiterentwicklung im CRM-Umfeld übersehen. Bauchentscheidungen und Rückgriffe auf vermeintliches persönliches Expertenwissen sind in diesem Zusammenhang nicht mehr zeitgemäß. Scoringmodelle bieten in vielen Fällen eine wissenschaftliche, valide Entscheidungsgrundlage, welche sich, bei konsequenter Nutzung, auch in zentralen KPIs des CRMs widerspiegeln wird.