Entscheidungsbaum zur anschaulichen Vorhersage - taod Insight

by Jannik
3 Monaten ago
350 Views

Entscheidungsbaum zur anschaulichen Vorhersage

Machine Learning-Verfahren sind in der Datenanalyse ein viel besprochenes Thema. Keine Konferenz zur Digitalisierung, kein Symposium, das nicht in irgendeinem Slot deren Potentiale diskutiert. Der Entscheidungsbaum gehört zu den am häufigsten angewendeten Verfahren. Um konkrete Anwendungsbeispiele zu illustrieren, eröffnen wir ein Plädoyer für die Stärken des Entscheidungsbaums.

Vorteile: Entscheidungsbaum als Vorhersagemodell

Viele Verfahren des Machine Learnings liefern zwar eine hohe Vorhersagegenauigkeit, sind aber mit einer schweren Verständlichkeit der zugrundeliegenden Prozesse verbunden. Häufig stellt ein solches Verfahren für den Anwender eine Art Black-Box dar – es besteht für ihn keine Möglichkeit, einzusehen, wie genau der betreffende Algorithmus eine Vorhersage vornimmt.

In der Praxis verwendet man häufig Entscheidungsbäume als Vorhersagemodelle. Nicht zuletzt liegt deren Beliebtheit in ihrer leichten Verständlichkeit und Interpretierbarkeit begründet. Entscheidungsbäume finden zur Vorhersage von numerischen Werten oder Klassen eines Merkmals Verwendung. So sind Entscheidungsbäume sowohl im Klassifikations- als auch im Regressionsfall einsetzbar.

Entscheidungsbaum zur Vorhersage der Kündigungsabsicht

Beispielsweise könnte ein solcher Entscheidungsbaum zur Vorhersage der Kündigungsabsicht von Kunden in Betracht kommen. Als Datenbasis benötigt man Informationen bezüglich einiger Kundenmerkmale und ob diese bereits gekündigt haben oder dem Unternehmen weiterhin treu geblieben sind. Aus diesen Daten „züchtet“ man mittels eines Algorithmus einen Entscheidungsbaum, der es ermöglicht, auf Basis von Kundenmerkmalen eine Vorhersage über die Kündigungsabsicht eines Kunden zu treffen.

In der unteren Abbildung ist ein solcher Entscheidungsbaum zur Vorhersage der Kündigungsabsicht dargestellt. In diesem Beispiel nutzt man die Vertragsdauer und die monatlichen Kosten der Kunden, um die Kündigungsabsicht vorherzusagen.

Interpretation des Entscheidungsbaums

Die in der Abbildung im Entscheidungsbaum befindlichen Kästen stellen die sogenannten Knoten des Baums dar. Den oberen Knoten nennt man auch Wurzel und die nicht weiter aufgesplitteten Knoten Blätter.

Um eine Vorhersage für einen Kunden bezüglich seiner Kündigungsabsicht zu treffen, durchläuft man den Entscheidungsbaum von oben nach unten. Dabei entscheidet man beginnend beim Wurzelknoten zunächst, ob der Vertrag des Kunden für weniger oder mehr als zwei Jahre geschlossen ist. Je nachdem, wie es sich für den Kunden verhält, wird der linke oder rechte Knoten erreicht. Hat der Kunde also eine Vertragsdauer von einem Jahr, wird zum linken Knoten übergegangen. Nun stellt sich für diesen Kunden die Frage nach den monatlichen Kosten. Hat der Kunde monatliche Kosten von 80 Euro, würde der rechte untere Knoten erreicht.

Wird der Entscheidungsbaum auf diese Weise durchlaufen und ein Blatt erreicht, stellt sich die Frage, wie nun eine Vorhersage für den betreffenden Kunden getroffen wird.

Dazu zieht man die in den Knoten befindlichen Werte heran. Diese stellen in unserem Beispiel die Anzahl gekündigter bzw. nicht gekündigter Verträge in diesem Knoten dar. In unserem Beispiel ist der Kunde mit einjähriger Vertragsdauer und 80 Euro monatlichen Kosten Teil des Blattes, welches 27 Kunden enthält, die ihre Verträge gekündigt haben und 922 Kunden, die dem Unternehmen weiterhin treu sind. Da die Mehrzahl der Beobachtungen, die zu diesem Blatt gehören, nicht gekündigt haben, lautet die Vorhersage für unseren Kunden ebenfalls, dass er nicht kündigen wird.

Entscheidungsbäume mit KNIME erstellen!

Wie entstehen Entscheidungsbäume eigentlich?

Zum Züchten derartiger Entscheidungsbäume wie im oben beschriebenen Beispiel, existieren eine Vielzahl von Algorithmen, beispielsweise CHIAD oder ID3.

Eine bekannte Methode ist insbesondere CART (Classification And Regression Trees). Beim Züchten eines CART-Baums nimmt man, ausgehend vom gesamten Datensatz, eine rekursive Partitionierung der Daten vor. Dabei wählt man bei jeder Teilung der Daten (Splitten in zwei neue Knoten) zunächst aus, anhand welchen Merkmals man splitten möchte. Dabei macht es im Klassifikationsfall Sinn, solche Beobachtungen zu einer Teilmenge zu gruppieren, welche möglichst die gleiche Klasse besitzen. Das heißt man möchte im Ergebnis möglichst homogene Gruppen bezüglich der Klassen des Merkmals erhalten, welches vorhergesagt werden soll.

Auf dieser Idee basieren sogenannte Unreinheitsmaße, beispielsweise der Gini-Index. Solche Maße zieht man nun zur Auswahl des am besten geeigneten Splits heran. So wählt der Algorithmus sukzessive an jedem zu splittenden Knoten das Kriterium aus, welches die Daten am sinnvollsten aufteilt. Aber wie groß sollte ein CART-Baum gezüchtet werden? Hier setzt eine Methode an, die sich Pruning nennt. Die Idee beim Pruning ist, den Baum so groß zu züchten, bis die Blätter des Baums rein sind und diesen dann erst zu stutzen.

Das Fazit zu Entscheidungsbäumen

Die Nutzung von Entscheidungsbäumen zur Modellbildung bzw. zur Vorhersage bietet klare Vorteile im Vergleich zu anderen Ansätzen. Eine getroffene Entscheidung ist leicht nachvollziehbar und durch die visuelle Darstellungsmöglichkeit liefert ein solcher Baum Einsicht in den Entscheidungsprozess des Modells. Bei der Wahl eines geeigneten Verfahrens bieten Entscheidungsbäume also eine echte Alternative.