Entscheidungsbaum zur anschaulichen Vorhersage - taod Insight

by Jannik
1 Monat ago
173 Views

Entscheidungsbäume – Anschauliche Modelle zur Vorhersage

Machine Learning-Verfahren sind in der Datenanalyse ein viel besprochenes Thema. Keine Konferenz zur Digitalisierung, kein Symposium, das nicht in irgendeinem Slot deren Potentiale diskutiert. Der Entscheidungsbaum gehört einerseits zu den am häufigsten angewendeten Verfahren, wird aber andererseits selten erwähnt. Um auch wirklich Anwendungsbeispiel zu illustrieren, eröffnen wir ein Plädoyer für die Stärken des Entscheidungsbaums.

Vorteile von Entscheidungsbäumen als Vorhersagemodelle

Viele Verfahren des Machine Learnings liefern zwar eine hohe Vorhersagegenauigkeit, sind aber mit einer schweren Verständlichkeit der zugrundeliegenden Prozesse verbunden. Häufig stellt ein solches Verfahren für den Anwender eine Art Black-Box dar – es besteht für ihn keine Möglichkeit, einzusehen, wie genau der betreffende Algorithmus eine Vorhersage vornimmt.

In der Praxis werden häufig Entscheidungsbäume als Vorhersagemodelle verwendet. Nicht zuletzt liegt deren Beliebtheit in ihrer leichten Verständlichkeit und Interpretierbarkeit begründet. Verwendet werden können Entscheidungsbäume zur Vorhersage von numerischen Werten oder Klassen eines Merkmals. So sind Entscheidungsbäume sowohl im Klassifikations- als auch im Regressionsfall einsetzbar.

Entscheidungsbaum zur Vorhersage der Kündigungsabsicht

Beispielsweise könnte ein solcher Entscheidungsbaum zur Vorhersage der Kündigungsabsicht von Kunden in Betracht kommen. Als Datenbasis werden Informationen bezüglich einiger Kundenmerkmale benötigt und, ob diese bereits gekündigt haben oder dem Unternehmen weiterhin treu geblieben sind. Aus diesen Daten kann mittels eines Algorithmus‘ ein Entscheidungsbaum „gezüchtet“ werden, der genutzt werden kann, um auf Basis von Kundenmerkmalen eine Vorhersage über die Kündigungsabsicht eines Kunden zu treffen.

In der unteren Abbildung ist ein solcher Entscheidungsbaum zur Vorhersage der Kündigungsabsicht dargestellt. In diesem Beispiel werden die Vertragsdauer und die monatlichen Kosten der Kunden genutzt, um die Kündigungsabsicht vorherzusagen.

Interpretation des Entscheidungsbaums

Die in der Abbildung im Entscheidungsbaum befindlichen Kästen stellen die sogenannten Knoten des Baums dar. Der obere Knoten wird auch Wurzel und die nicht weiter aufgesplitteten Knoten Blätter genannt.

Um eine Vorhersage für einen Kunden bezüglich seiner Kündigungsabsicht zu treffen, wird der Entscheidungsbaum von oben nach unten durchlaufen. Dabei wird, beginnend beim Wurzelknoten, zunächst entschieden, ob der Vertrag des Kunden für weniger oder mehr als zwei Jahre geschlossen ist. Je nachdem, wie es sich für den Kunden verhält, wird der linke oder rechte Knoten erreicht. Hat der Kunde also eine Vertragsdauer von einem Jahr, wird zum linken Knoten übergegangen. Nun stellt sich für diesen Kunden die Frage nach den monatlichen Kosten. Hat der Kunde monatliche Kosten von 80 Euro, würde der rechte untere Knoten erreicht.

Wird der Entscheidungsbaum auf diese Weise durchlaufen und ein Blatt erreicht, stellt sich die Frage, wie nun eine Vorhersage für den betreffenden Kunden getroffen werden kann. Dazu werden die in den Knoten befindlichen Werte herangezogen. Diese stellen in unserem Beispiel die Anzahl gekündigter bzw. nicht gekündigter Verträge in diesem Knoten dar. In unserem Beispiel ist der Kunde mit einjähriger Vertragsdauer und 80 Euro monatlichen Kosten Teil des Blattes, welches 27 Kunden enthält, die ihre Verträge gekündigt haben und 922 Kunden, die dem Unternehmen weiterhin treu sind. Da die Mehrzahl der Beobachtungen, die zu diesem Blatt gehören, nicht gekündigt haben, lautet die Vorhersage für unseren Kunden ebenfalls, dass er nicht kündigen wird.

Entscheidungsbäume mit KNIME erstellen!

Wie entstehen Entscheidungsbäume eigentlich?

Zum Züchten derartiger Entscheidungsbäume wie im oben beschriebenen Beispiel, existieren eine Vielzahl von Algorithmen, beispielsweise CHIAD oder ID3.

Eine bekannte Methode ist insbesondere CART (Classification And Regression Trees). Beim Züchten eines CART-Baums wird, ausgehend vom gesamten Datensatz, eine rekursive Partitionierung der Daten vorgenommen. Dabei wird bei jeder Teilung der Daten (Splitten in zwei neue Knoten) zunächst ausgewählt, anhand welchen Merkmals gesplittet werden soll. Dabei macht es im Klassifikationsfall Sinn, solche Beobachtungen zu einer Teilmenge zu gruppieren, welche möglichst die gleiche Klasse besitzen, d.h. man möchte im Ergebnis möglichst homogene Gruppen bezüglich der Klassen des Merkmals erhalten, welches vorhergesagt werden soll. Auf dieser Idee basieren sogenannte Unreinheitsmaße, beispielsweise der Gini-Index. Solche Maße können nun zur Auswahl des am besten geeigneten Splits herangezogen werden. So wählt der Algorithmus sukzessive an jedem zu splittenden Knoten das Kriterium aus, welches die Daten am sinnvollsten aufteilt. Aber wie groß sollte ein CART-Baum gezüchtet werden? Hier setzt eine Methode an, die sich Pruning nennt. Die Idee beim Pruning ist, den Baum so groß zu züchten, bis die Blätter des Baums rein sind und diesen dann erst zu stutzen.

Das Fazit zu Entscheidungsbäumen

Die Nutzung von Entscheidungsbäumen zur Modellbildung bzw. zur Vorhersage bietet klare Vorteile im Vergleich zu anderen Ansätzen. Eine getroffene Entscheidung kann leicht nachvollzogen werden und durch die visuelle Darstellungsmöglichkeit liefert ein solcher Baum Einsicht in den Entscheidungsprozess des Modells. Bei der Wahl eines geeigneten Verfahrens bieten Entscheidungsbäume also eine echte Alternative.