Random Forests - Genauere Vorhersagen durch eine Vielzahl von Bäumen

by Dirk Müller
2 Monaten ago
401 Views

Random Forests – Stabile Alternative zur Vorhersage

Random Forests ist ein bekanntes Machine Learning-Verfahren aus dem Bereich des Supervised Learnings, das auf Entscheidungsbäumen aufbaut. Entscheidungsbäume sind geeignet, um Vorhersagen zu treffen und stellen für den Anwender einfach interpretierbare Modelle dar. Doch die Verwendung von Entscheidungsbäumen bringt nicht nur Vorteile. Ein Nachteil kann Instabilität sein, denn kleine Änderungen in den Daten können bereits zu unterschiedlichen Splits im Entscheidungsbaum führen. Dieses Risiko wird durch Random Forests vermindert.

Ein ganzer Wald voller Bäume

Bei Random Forests züchtet man viele Entscheidungsbäume (eine häufig verwendete Anzahl sind 100 Bäume) auf Basis von sogenannten Bootstrap-Datensätzen. Ein Bootstrap-Datensatz ist ein Datensatz, der durch Ziehen mit Zurücklegen aus dem ursprünglichen Datensatz entsteht. Daher kann ein Bootstrap-Datensatz eine Beobachtung aus dem ursprünglichen Datensatz mehrmals oder auch gar nicht enthalten.

Anschließend züchtet man auf Grundlage jeweils eines Bootstrap-Datensatzes nun Entscheidungsbäume. Dies ist das Vorgehen beim sogenannten Bagging. Doch Random Forests geht noch weiter: Zusätzlich wird der Zuchtprozess der einzelnen Entscheidungsbäume modifiziert. Beim Erstellen (=Züchten) eines Baums wählt beispielsweise ein CART-Algorithmus sukzessive ein Merkmal anhand eines Unreinheitsmaßes aus, welches sich für einen nächsten Split besonders gut eignet.

Zunächst ist beim Züchten eines Baums in einem Random Forest die Auswahlmöglichkeit der Merkmale eingeschränkt. Demzufolge wird der Pool an möglichen Merkmalen, bezüglich welcher ein Split potentiell vorgenommen werden kann, auf eine bestimmte Anzahl reduziert. Deswegen legt man die an jedem zu splittenden Knoten auswählbaren Merkmale immer wieder zufällig fest. Zusammenfassend entsteht durch Züchten von vielen Entscheidungsbäumen auf Bootstrap Datensätzen somit ein Random Forest.

Random-Forest-Klassifizierung mit KNIME erstellen!

Wie entstehen Vorhersagen im Random Forest?

Die Antwort auf diese Frage ist unbestimmt. Zunächst kommt es darauf an, wie die möglichen Werte, beziehungsweise die Ausprägungen des vorherzusagenden Merkmals, beschaffen sind. Handelt es sich um numerische Werte, werden die Vorhersagen der einzelnen Entscheidungsbäume gemittelt. Danach verwendet man diesen Mittelwert als Vorhersage des Random Forests. Möchte man Klassen vorhergesagen, d.h. möchte man eine Entscheidung zwischen einer endlichen Anzahl von Ausprägungen, welche keine natürliche Ordnung besitzen, treffen, dann zieht man die von den Entscheidungsbäumen am häufigsten vorhergesagte Klasse als Vorhersage des gesamten Random Forests heran.

Vor- und Nachteile des Verfahren

Wie bereits angedeutet kann das Verfahren als stabile Weiterentwicklung von Entscheidungsbäumen ansehen. Warum also nicht immer einen Random Forest verwenden, wenn die Möglichkeit dazu besteht? Ein Nachteil liegt in der schlechteren Interpretierbarkeit. Es ist nicht einfach ersichtlich, welche Merkmale im Modell eine entscheidende Rolle gespielt und einen Einfluss auf die Vorhersage ausgeübt haben.

Aufgrund dieser Tatsache wurden sogenannte Wichtigkeitsmaße entwickelt. Diese bauen auf Random Forests  auf und messen die Wichtigkeit der Merkmale, wie beispielsweise das Gini-Wichtigkeitsmaß oder das Permutations-Wichtigkeitsmaß.

Das Fazit zu Random Forests

Die Nutzung des Verfahrens kann im Vergleich zur Verwendung einzelner Entscheidungsbäume Vorteile bringen. Durch ihre Stabilität bieten Random Forests eine echte Alternative zur Verwendung einzelner Bäume. Falls der Einfluss der Merkmale auf die Modellbildung für den Anwender interessant ist, kann man Wichtigkeitsmaße einsetzen.

Schlagwörter: