Entscheidungsbaum zur anschaulichen Vorhersage

Entscheidungsbaum zur anschaulichen Vorhersage
Daten und Kontext
Kategorien
Data Science
Schlagworte
No items found.
Autor
Frederic Bauerfeind
Lesedauer
3 Minuten

Sinnvolles Verfahren im Machine Learning

Machine Learning-Verfahren sind in der Datenanalyse ein viel besprochenes Thema. Es gibt kaum eine Konferenz zur Digitalisierung oder ein Symposium, bei denen nicht in mindestens einem Slot Potenziale des Machine Learning diskutiert würden. Zu den am häufigsten angewendeten Verfahren gehört der Entscheidungsbaum. Um konkrete Anwendungsbeispiele zu illustrieren, eröffnen wir ein Plädoyer für die Stärken des Entscheidungsbaums.

Viele Verfahren des Machine Learnings liefern zwar eine hohe Vorhersagegenauigkeit, der zugrundeliegende Prozess aber ist schwer verständlich. Häufig stellt ein solches Verfahren für Anwendende eine Art Black-Box dar: Es besteht keine Möglichkeit einzusehen, wie genau der betreffende Algorithmus eine Vorhersage vornimmt.

Vorteile: Entscheidungsbaum als Vorhersagemodell

In der Praxis werden häufig Entscheidungsbäume als Vorhersagemodelle verwendet. Nicht zuletzt liegt deren Beliebtheit in ihrer leichten Verständlichkeit und Interpretierbarkeit begründet. Entscheidungsbäume finden zur Vorhersage von numerischen Werten oder Klassen eines Merkmals Verwendung. So sind Entscheidungsbäume sowohl im Klassifikations- als auch im Regressionsfall einsetzbar.

Entscheidungsbaum zur Vorhersage der Kündigungsabsicht

Beispielsweise könnte ein solcher Entscheidungsbaum zur Vorhersage der Kündigungsabsicht von Kunden und Kundinnen in Betracht kommen. Als Datenbasis werden Informationen bezüglich einiger Kundenmerkmale benötigt und ob diese bereits gekündigt haben oder dem Unternehmen weiterhin treu geblieben sind. Aus diesen Daten wird mittels eines Algorithmus ein Entscheidungsbaum “gezüchtet”, der es ermöglicht, auf Basis von Kundenmerkmalen eine Vorhersage über die Kündigungsabsicht eines Kunden oder einer Kundin zu treffen.

In der unteren Abbildung ist ein solcher Entscheidungsbaum zur Vorhersage der Kündigungsabsicht dargestellt. In diesem Beispiel nutzt man die Vertragsdauer und die monatlichen Kosten der Kunden, um die Kündigungsabsicht vorherzusagen.

Interpretation des Entscheidungsbaums

Die in der Abbildung im Entscheidungsbaum befindlichen Kästen stellen die sogenannten Knoten des Baums dar. Der obere Knoten wird auch Wurzel genannt und die nicht weiter aufgesplitteten Knoten Blätter.

Um eine Vorhersage für einen Kunden bezüglich seiner Kündigungsabsicht zu treffen, wird der Entscheidungsbaum von oben nach unten durchlaufen. Dabei wird beginnend beim Wurzelknoten zunächst entschieden, ob der Vertrag des Kunden für weniger oder mehr als zwei Jahre geschlossen ist. Je nachdem, wie es sich für den Kunden verhält, wird der linke oder rechte Knoten erreicht. Hat der Kunde also eine Vertragsdauer von einem Jahr, wird zum linken Knoten übergegangen. Nun stellt sich für diesen Kunden die Frage nach den monatlichen Kosten. Hat der Kunde monatliche Kosten von 80 Euro, würde der rechte untere Knoten erreicht.

Wird der Entscheidungsbaum auf diese Weise durchlaufen und ein Blatt erreicht, stellt sich die Frage, wie nun eine Vorhersage für den betreffenden Kunden getroffen wird.

Dazu werden die in den Knoten befindlichen Werte herangezogen. Diese stellen in unserem Beispiel die Anzahl gekündigter beziehungsweise nicht gekündigter Verträge in diesem Knoten dar. In unserem Beispiel ist der Kunde mit einjähriger Vertragsdauer und 80 Euro monatlichen Kosten Teil des Blattes, welches 27 Kunden und Kundinnen enthält, die ihre Verträge gekündigt haben und 922 Kunden und Kundinnen, die dem Unternehmen weiterhin treu sind. Da die Mehrzahl der Beobachtungen, die zu diesem Blatt gehören, nicht gekündigt haben, lautet die Vorhersage für unseren Kunden ebenfalls, dass er nicht kündigen wird.

Wie entstehen Entscheidungsbäume eigentlich?

Zum Züchten derartiger Entscheidungsbäume existieren eine Vielzahl von Algorithmen, beispielsweise CHIAD oder ID3.

Eine bekannte Methode ist insbesondere CART (Classification And Regression Trees). Beim Züchten eines CART-Baums wird, ausgehend vom gesamten Datensatz, eine rekursive Partitionierung der Daten vorgenommen. Dabei wird bei jeder Teilung der Daten (Splitten in zwei neue Knoten) zunächst ausgewählt, anhand welchen Merkmals gesplittet werden soll. Dabei macht es im Klassifikationsfall Sinn, solche Beobachtungen zu einer Teilmenge zu gruppieren, welche möglichst die gleiche Klasse besitzen. Das heißt das Ergebnis soll möglichst homogene Gruppen bezüglich der Klassen des Merkmals erhalten, welches vorhergesagt werden soll.

Auf dieser Idee basieren sogenannte Unreinheitsmaße, beispielsweise der Gini-Index. Solche Maße werden nun zur Auswahl des am besten geeigneten Splits herangezogen. So wählt der Algorithmus sukzessive an jedem zu splittenden Knoten das Kriterium aus, welches die Daten am sinnvollsten aufteilt. Aber wie groß sollte ein CART-Baum gezüchtet werden? Hier setzt eine Methode an, die sich Pruning nennt. Die Idee beim Pruning ist, den Baum so groß zu züchten, bis die Blätter des Baums rein sind und diesen dann erst zu stutzen.

Das Fazit zu Entscheidungsbäumen

Die Nutzung von Entscheidungsbäumen zur Modellbildung beziehungsweise zur Vorhersage bietet klare Vorteile im Vergleich zu anderen Ansätzen. Eine getroffene Entscheidung ist leicht nachvollziehbar und durch die visuelle Darstellungsmöglichkeit liefert ein solcher Baum Einsicht in den Entscheidungsprozess des Modells. Bei der Wahl eines geeigneten Verfahrens bieten Entscheidungsbäume also eine echte Alternative.

No items found.
No items found.
Weitere Themen und Beratung rund um Data und Analytics
No items found.
Bleib mit unserem monatlichen Newsletter immer auf dem aktuellen Stand. Alle neuen Whitepaper, Blog-Artikel und Infos inklusive.
Newsletter abonnieren
Firmensitz Köln

taod Consulting GmbH
Oskar-Jäger-Str. 173, K4
50825 Köln‍
Standort Hamburg

taod Consulting GmbH
Alter Wall 32
20457 Hamburg
Standort Stuttgart

taod Consulting GmbH
Kronprinzstraße 3
70173 Stuttgart