Random Forests - Genauere Vorhersagen durch eine Vielzahl von Bäumen

by Dirk Müller
2 Wochen ago
208 Views

Random Forests – Stabile Alternative zur Vorhersage

Random Forests ist ein bekanntes Machine Learning-Verfahren aus dem Bereich des Supervised Learnings, das auf Entscheidungsbäumen aufbaut. Entscheidungsbäume werden genutzt, um Vorhersagen zu treffen und stellen für den Anwender einfach interpretierbare Modelle dar. Doch die Verwendung von Entscheidungsbäumen bringt nicht nur Vorteile. Ein Nachteil kann Instabilität sein, denn kleine Änderungen in den Daten können bereits zu unterschiedlichen Splits im Entscheidungsbaum führen. Dieses Risiko kann durch Random Forests vermindert werden.

Ein ganzer Wald voller Bäume

Bei Random Forests werden viele Entscheidungsbäume (eine häufig verwendete Anzahl sind 100 Bäume) auf Basis von sogenannten Bootstrap-Datensätzen gezüchtet. Ein Bootstrap-Datensatz ist ein Datensatz, der durch Ziehen mit Zurücklegen aus dem ursprünglichen Datensatz entsteht. Dies bedeutet, ein Bootstrap-Datensatz kann eine Beobachtung aus dem ursprünglichen Datensatz mehrmals oder auch gar nicht enthalten.

Auf Grundlage jeweils eines Bootstrap-Datensatzes können nun Entscheidungsbäume gezüchtet werden. Dies ist das Vorgehen beim sogenannten Bagging. Doch Random Forests geht noch weiter: Zusätzlich wird der Zuchtprozess der einzelnen Entscheidungsbäume modifiziert. Beim Erstellen (=Züchten) eines Baums wird beispielsweise beim CART-Algorithmus sukzessive ein Merkmal anhand eines Unreinheitsmaßes ausgewählt, welches sich für einen nächsten Split besonders gut eignet.

Beim Züchten eines Baums in einem Random Forest wird die Auswahlmöglichkeit der Merkmale eingeschränkt. Genauer wird der Pool an möglichen Merkmalen, bezüglich welcher ein Split potentiell vorgenommen werden kann, auf eine bestimmte Anzahl reduziert. Die an jedem zu splittenden Knoten auswählbaren Merkmale werden immer wieder zufällig festgelegt. Zusammenfassend entsteht durch Züchten von vielen Entscheidungsbäumen auf Bootstrap Datensätzen somit ein Random Forest.

Random-Forest-Klassifizierung mit KNIME erstellen!

Wie entstehen Vorhersagen im Random Forest?

Die Antwort auf diese Frage ist unbestimmt: Es kommt darauf an, wie die möglichen Werte, beziehungsweise die Ausprägungen des vorherzusagenden Merkmals, beschaffen sind. Handelt es sich um numerische Werte, werden die Vorhersagen der einzelnen Entscheidungsbäume gemittelt und dieser Mittelwert als Vorhersage des Random Forests verwendet. Sollen Klassen vorhergesagt werden, d.h. soll eine Entscheidung zwischen einer endlichen Anzahl von Ausprägungen, welche keine natürliche Ordnung besitzen, getroffen werden, dann wird die von den Entscheidungsbäumen am häufigsten vorhergesagte Klasse als Vorhersage des gesamten Random Forests herangezogen.

Vor- und Nachteile von Random Forests

Wie bereits angedeutet kann Random Forests als stabile Weiterentwicklung von Entscheidungsbäumen angesehen werden. Warum also nicht immer einen Random Forest verwenden, wenn die Möglichkeit dazu besteht? Ein Nachteil von Random Forests liegt in der schlechteren Interpretierbarkeit. Es ist nicht einfach ersichtlich, welche Merkmale im Modell eine entscheidende Rolle gespielt und einen Einfluss auf die Vorhersage ausgeübt haben.

Aufgrund dieser Tatsache wurden sogenannte Wichtigkeitsmaße entwickelt, welche auf Random Forests aufbauen und die Wichtigkeit der Merkmale messen, wie beispielsweise das Gini-Wichtigkeitsmaß oder das Permutations-Wichtigkeitsmaß.

Das Fazit zu Random Forests

Die Nutzung von Random Forests kann im Vergleich zur Verwendung einzelner Entscheidungsbäume Vorteile bringen. Durch ihre Stabilität bieten Random Forests eine echte Alternative zur Verwendung einzelner Bäume. Falls der Einfluss der Merkmale auf die Modellbildung für den Anwender interessant ist, können Wichtigkeitsmaße eingesetzt werden.