Vorhersagen mit Random Forests

Vorhersagen mit Random Forests
Daten und Kontext
Kategorien
Data Science
Schlagworte
No items found.
Autor
Frederic Bauerfeind
Lesedauer
2 Minuten

Lernender Algorithmus für Machine-Learning-Verfahren

Random Forests ist ein bekanntes Machine-Learning-Verfahren aus dem Bereich des Supervised Learnings, das auf Entscheidungsbäumen aufbaut. Entscheidungsbäume sind geeignet, um Vorhersagen zu treffen und stellen für Anwendende einfach interpretierbare Modelle dar. Doch die Verwendung von Entscheidungsbäumen bringt nicht nur Vorteile. Ein Nachteil kann Instabilität sein, denn kleine Änderungen in den Daten können bereits zu unterschiedlichen Splits im Entscheidungsbaum führen. Dieses Risiko wird durch Random Forests vermindert.

Bei Random Forests werden viele Entscheidungsbäume (eine häufig verwendete Anzahl sind 100 Bäume) auf Basis von sogenannten Bootstrap-Datensätzen gezüchtet. Ein Bootstrap-Datensatz ist ein Datensatz, der durch Ziehen mit Zurücklegen aus dem ursprünglichen Datensatz entsteht. Daher kann ein Bootstrap-Datensatz eine Beobachtung aus dem ursprünglichen Datensatz mehrmals oder auch gar nicht enthalten. Anschließend werden auf Grundlage jeweils eines Bootstrap-Datensatzes nun Entscheidungsbäume gezüchtet.

Ein Wald aus Entscheidungsbäumen

Doch Random Forests geht noch weiter: Zusätzlich wird der Zuchtprozess der einzelnen Entscheidungsbäume modifiziert. Beim Erstellen (=Züchten) eines Baums wählt beispielsweise ein CART-Algorithmus sukzessive ein Merkmal anhand eines Unreinheitsmaßes aus, welches sich für einen nächsten Split besonders gut eignet.

Zunächst ist beim Züchten eines Baums in einem Random Forest die Auswahlmöglichkeit der Merkmale eingeschränkt. Demzufolge wird der Pool an möglichen Merkmalen, bezüglich potenziell möglicher Splits, auf eine bestimmte Anzahl reduziert. Deswegen werden die an jedem zu splittenden Knoten wählbaren Merkmale immer wieder zufällig festgelegt. Zusammenfassend entsteht durch das Züchten von vielen Entscheidungsbäumen auf Bootstrap-Datensätzen somit ein Random Forest.

Wie entstehen Vorhersagen im Random Forest?

Die Antwort auf diese Frage ist unbestimmt. Zunächst kommt es darauf an, wie die möglichen Werte, beziehungsweise die Ausprägungen des vorherzusagenden Merkmals, beschaffen sind. Handelt es sich um numerische Werte, werden die Vorhersagen der einzelnen Entscheidungsbäume gemittelt. Danach wird dieser Mittelwert als Vorhersage des Random Forests verwendet.

Sollen Klassen vorhergesagt werden (also soll eine Entscheidung zwischen einer endlichen Anzahl von Ausprägungen, welche keine natürliche Ordnung besitzen, getroffen werden), dann wird die von den Entscheidungsbäumen am häufigsten vorhergesagte Klasse als Vorhersage des gesamten Random Forests herangezogen.

Vor- und Nachteile des Verfahrens

Wie bereits angedeutet kann das Verfahren als stabile Weiterentwicklung von Entscheidungsbäumen ansehen. Warum also nicht immer einen Random Forest verwenden, wenn die Möglichkeit dazu besteht? Ein Nachteil liegt in der schlechteren Interpretierbarkeit. Es ist nicht einfach ersichtlich, welche Merkmale im Modell eine entscheidende Rolle gespielt und einen Einfluss auf die Vorhersage ausgeübt haben. Aufgrund dieser Tatsache wurden sogenannte Wichtigkeitsmaße entwickelt. Diese bauen auf Random Forests  auf und messen die Wichtigkeit der Merkmale, wie beispielsweise das Gini-Wichtigkeitsmaß oder das Permutations-Wichtigkeitsmaß.

Das Fazit zu Random Forests

Die Nutzung des Verfahrens kann im Vergleich zur Verwendung einzelner Entscheidungsbäume Vorteile bringen. Durch ihre Stabilität bieten Random Forests eine echte Alternative zur Verwendung einzelner Bäume. Falls der Einfluss der Merkmale auf die Modellbildung für den Anwender interessant ist, können Wichtigkeitsmaße eingesetzt werden.

No items found.
No items found.
Weitere Themen und Beratung rund um Data und Analytics
No items found.
Bleib mit unserem monatlichen Newsletter immer auf dem aktuellen Stand. Alle neuen Whitepaper, Blog-Artikel und Infos inklusive.
Newsletter abonnieren
Firmensitz Köln

taod Consulting GmbH
Oskar-Jäger-Str. 173, K4
50825 Köln‍
Standort Hamburg

taod Consulting GmbH
Alter Wall 32
20457 Hamburg
Standort Stuttgart

taod Consulting GmbH
Kronprinzstraße 3
70173 Stuttgart