Alternative Modelle#

It is often necessary when some cherished scheme has failed, to take up the best alternative open, and if so, it is folly not to work for it with all your might.

— Winston Churchill

Neben den bekannten maschinellen Lernmodellen wie logistischer Regression, linearer Regression, Entscheidungsbäumen, Ensemble-Modellen, Clustering, Principal Component Analysis (PCA), Matrixfaktorisierung, neuronalen Netzwerken und Reinforcement Learning gibt es eine Vielzahl weiterer Modelltypen, die in verschiedenen Anwendungsbereichen verwendet werden. Hier sind einige zusätzliche Typen von maschinellen Lernmodellen:

Markov-Modelle#

Markov-Modelle sind stochastische Modelle, die auf der Markov-Annahme basieren, die besagt, dass der Zustand eines Systems nur von seinem aktuellen Zustand abhängt, nicht aber von früheren Zuständen. Wir haben sie kurz im Kontext von Reinforcement Learning kennen gelernt, weil dort u.a. Markov Decision Processes (MDP) zur Modellierung des Zustandsraums der Umgebung genutzt werden. Dies macht sie nützlich für Anwendungen wie Spracherkennung, der Bildverarbeitung oder der Bioinformatik, wo aufeinanderfolgende Ereignisse (Zuständen) von Bedeutung sind.

Baysian Networks#

Bayessche Netze modellieren Wahrscheinlichkeitsbeziehungen zwischen verschiedenen Variablen in Form von gerichteten azyklischen Graphen dar. Anders als Markov-Modelle (welche Folgen von Ereignissen modellieren) konzentrieren sie sich vor allem auf die Wahrscheinlichkeiten das Ereignisse in Form von bedingten Wahrscheinlichkeiten gleichzeitig auftreten. Sie ermöglichen es, komplexe Abhängigkeiten zu modellieren und Schlussfolgerungen auf Basis bedingter Wahrscheinlichkeiten zu ziehen. Dies macht sie wertvoll für Diagnose-Systeme oder Risikoanalysen, wo viele Faktoren zusammenspielen.

Naive Bayes#

Naive Bayes sind einfache probabilistische Klassifikationsmodelle, die wie Bayessche Netze auf dem Bayesschen Theorem zur Schätzung bedingter Wahrscheinlichkeiten basiert. Es gibt keine explizite grafische Struktur wie bei Bayesschen Netzwerken sondern berechnen die Wahrscheinlichkeit einer Klasse, auf Basis einer Menge von Attributen, unter der Annahme der Unabhängigkeit der Attribute. Sie eignen sich insbesondere für Probleme mit hoher Dimensionalität und relativ wenig Trainingsdaten und werden häufig in Textklassifikation, Spam-Filterung, Sentiment-Analyse und anderen Anwendungen mit klar definierten Merkmalen verwendet.

Assoziationsanalyse#

Assoziationsanalyse (Association rule learning) konzentrieren sich auf die Identifikation von Zusammenhänge in Daten in Form von Regeln, insbesondere in Transaktionsdaten. Ein klassisches Beispiel ist die Warenkorbanalyse im Einzelhandel, bei der untersucht wird, welche Produkte oft zusammen gekauft werden. Diese Modelle verwenden Metriken wie Support und Konfidenz, um Assoziationsregeln (z.B. Regel: wer A kauft -> kauft auch B) zu identifizieren.

Random Fields#

Random Fields, insbesondere Markov Random Fields, sind probabilistische Modelle, die Beziehungen zwischen benachbarten Variablen in einem Gitter oder Graphen darstellen. Sie werden häufig in der Bildverarbeitung und Computer Vision verwendet, beispielsweise zur Segmentierung von Bildern, indem benachbarte Pixel als abhängig modelliert werden.

Autoencoder#

Autoencoder sind spezielle neuronale Netzwerke, die darauf abzielen, Daten effizient zu komprimieren (kodieren) und wiederherzustellen (dekodieren). Sie werden häufig zur Dimensionalitätsreduktion, Bildkompression, Feature-Learning und Anomalieerkennung verwendet. Ein Beispiel ist die Reduktion der Dimensionalität von Bildern für eine effiziente Speicherung. Wir werden Sie im nachfolgenden Kurs “Machinelles Lernen und Künstliche Intelligenz” behandeln.

Generative Modelle#

Generative Modelle lernen die Wahrscheinlichkeitsverteilung der Eingabedaten und können neue Daten generieren. Zu den gängigen Typen gehören Generative Adversarial Networks (GANs), die aus zwei konkurrierenden neuronalen Netzwerken bestehen, und Variational Autoencoders (VAEs), die probabilistische Annahmen über die zugrunde liegende Verteilung der Daten machen. Generative Modelle werden zur Bilderzeugung, Datenaugmentation und Textgenerierung verwendet. Ein Beispiel ist die Erzeugung synthetischer Bilder, die echten Bildern ähneln. Wir werden Sie vertiefend im Kurs “Machinelles Lernen und Künstliche Intelligenz” behandeln.

Vergleich#

Die folgende Tabelle vergleicht die unterschiedlichen Modelle noch zusammenfassend.

Merkmal / Modell

Typ

Ziel

Struktur

Hauptannahmen

Vorteile

Nachteile

Anwendungsbeispiele

Logistische Regression

Überwacht

Regression

Lineares Modell

Lineare Beziehung

Einfach zu interpretieren

Annahme der linearen Trennung

Kreditrisikobewertung

Lineare Regression

Überwacht

Regression

Lineares Modell

Lineare Beziehung

Einfach zu interpretieren

Annahme der Linearität

Hauspreisschätzung

Entscheidungsbaum

Überwacht

Klassifikation / Regression

Baumstruktur

Keine

Einfach zu verstehen

Neigt zu Überanpassung

Kundenklassifikation

Ensemble Models

Überwacht

Klassifikation / Regression

Kombination aus Modellen

Keine

Hohe Genauigkeit, Robustheit

Rechenintensiv, komplex

Spam-Erkennung, Wettervorhersage

Clustering

Unüberwacht

Gruppierung

Cluster (Gruppen)

Keine

Einfache Implementierung

Benötigt geeignete Metriken

Kundensegmentierung

PCA

Unüberwacht

Dimensionalitäts- reduktion

Lineare Transformation

Lineare Beziehung

Reduziert Dimensionalität

Kann Interpretierbarkeit verringern

Datenvorverarbeitung, Feature-Reduktion

Matrixfaktorisierung

Unüberwacht

Dimensionalitäts- reduktion

Matrizen-operationen

Latente Faktoren

Effektiv für große Datenmengen

Schwierig zu interpretieren

Produktempfehlungen

Neuronale Netzwerke

Überwacht

Vielfältig (Klass., Reg., etc.)

Mehrschichtige Netzwerke

Keine

Kann komplexe Muster lernen

Rechenintensiv, erfordert viel Daten

Bilderkennung, Sprachverarbeitung

Reinforcement Learning

Überwacht

Entscheidungen

Agent-Umwelt-Interaktion

Belohnungs-modell

Löst komplexe Aufgaben

Lange Trainingszeiten

Robotik, Spiele

Markov-Modelle

Überwacht / Unüberwacht

Zeitabhängige Prozesse

Zustandsmodell

Markov-Eigenschaft

Modelliert zeitliche Abhängigkeiten

Benötigt Zustandsdef.

Wettervorhersage, Sprachmodellierung

Bayessche Netzwerke

Überwacht

Bedingte Abhängigkeiten

Gerichteter Graph

Bedingte Unabhängigkeit

Modelliert Abhängigkeiten

Komplexe Struktur

Medizinische Diagnose

Naive Bayes

Überwacht

Klassifikation

Wahrscheinlichkeiten

Bedingte Unabhängigkeit

Schnell, einfach

Annahme der Unabhängigkeit

Spam-Filter

Assoziationsregel

Unüberwacht

Assoziationsregel-Mining

Regeln

Assoziationen

Identifiziert relevante Muster

Mögliche Überanpassung

Produktkaufmuster

Random Fields

Überwacht / Unüberwacht

Bildverarbeitung, Vision

Graph-/Gitterstruktur

Nachbarschaft

Kontextabhängigkeiten

Rechenintensiv

Bildsegmentierung

Autoencoder

Unüberwacht

Dimensionalitäts- reduktion

Kodierungs-/Dekodierungsnetzwerk

Effiziente Datenrepräsentation

Reduziert Datenkomplexität

Kann überanpassen

Bildkompression

Generative Modelle

Überwacht / Unüberwacht

Datengenerierung

Verschiedene

Verteilungsannahmen

Erzeugt realistische Daten

Schwierig zu trainieren

Synthetische Datenerzeugung