Alternative Modelle#
It is often necessary when some cherished scheme has failed, to take up the best alternative open, and if so, it is folly not to work for it with all your might.
— Winston Churchill
Neben den bekannten maschinellen Lernmodellen wie logistischer Regression, linearer Regression, Entscheidungsbäumen, Ensemble-Modellen, Clustering, Principal Component Analysis (PCA), Matrixfaktorisierung, neuronalen Netzwerken und Reinforcement Learning gibt es eine Vielzahl weiterer Modelltypen, die in verschiedenen Anwendungsbereichen verwendet werden. Hier sind einige zusätzliche Typen von maschinellen Lernmodellen:
Markov-Modelle#
Markov-Modelle sind stochastische Modelle, die auf der Markov-Annahme basieren, die besagt, dass der Zustand eines Systems nur von seinem aktuellen Zustand abhängt, nicht aber von früheren Zuständen. Wir haben sie kurz im Kontext von Reinforcement Learning kennen gelernt, weil dort u.a. Markov Decision Processes (MDP) zur Modellierung des Zustandsraums der Umgebung genutzt werden. Dies macht sie nützlich für Anwendungen wie Spracherkennung, der Bildverarbeitung oder der Bioinformatik, wo aufeinanderfolgende Ereignisse (Zuständen) von Bedeutung sind.
Baysian Networks#
Bayessche Netze modellieren Wahrscheinlichkeitsbeziehungen zwischen verschiedenen Variablen in Form von gerichteten azyklischen Graphen dar. Anders als Markov-Modelle (welche Folgen von Ereignissen modellieren) konzentrieren sie sich vor allem auf die Wahrscheinlichkeiten das Ereignisse in Form von bedingten Wahrscheinlichkeiten gleichzeitig auftreten. Sie ermöglichen es, komplexe Abhängigkeiten zu modellieren und Schlussfolgerungen auf Basis bedingter Wahrscheinlichkeiten zu ziehen. Dies macht sie wertvoll für Diagnose-Systeme oder Risikoanalysen, wo viele Faktoren zusammenspielen.
Naive Bayes#
Naive Bayes sind einfache probabilistische Klassifikationsmodelle, die wie Bayessche Netze auf dem Bayesschen Theorem zur Schätzung bedingter Wahrscheinlichkeiten basiert. Es gibt keine explizite grafische Struktur wie bei Bayesschen Netzwerken sondern berechnen die Wahrscheinlichkeit einer Klasse, auf Basis einer Menge von Attributen, unter der Annahme der Unabhängigkeit der Attribute. Sie eignen sich insbesondere für Probleme mit hoher Dimensionalität und relativ wenig Trainingsdaten und werden häufig in Textklassifikation, Spam-Filterung, Sentiment-Analyse und anderen Anwendungen mit klar definierten Merkmalen verwendet.
Assoziationsanalyse#
Assoziationsanalyse (Association rule learning) konzentrieren sich auf die Identifikation von Zusammenhänge in Daten in Form von Regeln, insbesondere in Transaktionsdaten. Ein klassisches Beispiel ist die Warenkorbanalyse im Einzelhandel, bei der untersucht wird, welche Produkte oft zusammen gekauft werden. Diese Modelle verwenden Metriken wie Support und Konfidenz, um Assoziationsregeln (z.B. Regel: wer A kauft -> kauft auch B) zu identifizieren.
Random Fields#
Random Fields, insbesondere Markov Random Fields, sind probabilistische Modelle, die Beziehungen zwischen benachbarten Variablen in einem Gitter oder Graphen darstellen. Sie werden häufig in der Bildverarbeitung und Computer Vision verwendet, beispielsweise zur Segmentierung von Bildern, indem benachbarte Pixel als abhängig modelliert werden.
Autoencoder#
Autoencoder sind spezielle neuronale Netzwerke, die darauf abzielen, Daten effizient zu komprimieren (kodieren) und wiederherzustellen (dekodieren). Sie werden häufig zur Dimensionalitätsreduktion, Bildkompression, Feature-Learning und Anomalieerkennung verwendet. Ein Beispiel ist die Reduktion der Dimensionalität von Bildern für eine effiziente Speicherung. Wir werden Sie im nachfolgenden Kurs “Machinelles Lernen und Künstliche Intelligenz” behandeln.
Generative Modelle#
Generative Modelle lernen die Wahrscheinlichkeitsverteilung der Eingabedaten und können neue Daten generieren. Zu den gängigen Typen gehören Generative Adversarial Networks (GANs), die aus zwei konkurrierenden neuronalen Netzwerken bestehen, und Variational Autoencoders (VAEs), die probabilistische Annahmen über die zugrunde liegende Verteilung der Daten machen. Generative Modelle werden zur Bilderzeugung, Datenaugmentation und Textgenerierung verwendet. Ein Beispiel ist die Erzeugung synthetischer Bilder, die echten Bildern ähneln. Wir werden Sie vertiefend im Kurs “Machinelles Lernen und Künstliche Intelligenz” behandeln.
Vergleich#
Die folgende Tabelle vergleicht die unterschiedlichen Modelle noch zusammenfassend.
Merkmal / Modell |
Typ |
Ziel |
Struktur |
Hauptannahmen |
Vorteile |
Nachteile |
Anwendungsbeispiele |
---|---|---|---|---|---|---|---|
Logistische Regression |
Überwacht |
Regression |
Lineares Modell |
Lineare Beziehung |
Einfach zu interpretieren |
Annahme der linearen Trennung |
Kreditrisikobewertung |
Lineare Regression |
Überwacht |
Regression |
Lineares Modell |
Lineare Beziehung |
Einfach zu interpretieren |
Annahme der Linearität |
Hauspreisschätzung |
Entscheidungsbaum |
Überwacht |
Klassifikation / Regression |
Baumstruktur |
Keine |
Einfach zu verstehen |
Neigt zu Überanpassung |
Kundenklassifikation |
Ensemble Models |
Überwacht |
Klassifikation / Regression |
Kombination aus Modellen |
Keine |
Hohe Genauigkeit, Robustheit |
Rechenintensiv, komplex |
Spam-Erkennung, Wettervorhersage |
Clustering |
Unüberwacht |
Gruppierung |
Cluster (Gruppen) |
Keine |
Einfache Implementierung |
Benötigt geeignete Metriken |
Kundensegmentierung |
PCA |
Unüberwacht |
Dimensionalitäts- reduktion |
Lineare Transformation |
Lineare Beziehung |
Reduziert Dimensionalität |
Kann Interpretierbarkeit verringern |
Datenvorverarbeitung, Feature-Reduktion |
Matrixfaktorisierung |
Unüberwacht |
Dimensionalitäts- reduktion |
Matrizen-operationen |
Latente Faktoren |
Effektiv für große Datenmengen |
Schwierig zu interpretieren |
Produktempfehlungen |
Neuronale Netzwerke |
Überwacht |
Vielfältig (Klass., Reg., etc.) |
Mehrschichtige Netzwerke |
Keine |
Kann komplexe Muster lernen |
Rechenintensiv, erfordert viel Daten |
Bilderkennung, Sprachverarbeitung |
Reinforcement Learning |
Überwacht |
Entscheidungen |
Agent-Umwelt-Interaktion |
Belohnungs-modell |
Löst komplexe Aufgaben |
Lange Trainingszeiten |
Robotik, Spiele |
Markov-Modelle |
Überwacht / Unüberwacht |
Zeitabhängige Prozesse |
Zustandsmodell |
Markov-Eigenschaft |
Modelliert zeitliche Abhängigkeiten |
Benötigt Zustandsdef. |
Wettervorhersage, Sprachmodellierung |
Bayessche Netzwerke |
Überwacht |
Bedingte Abhängigkeiten |
Gerichteter Graph |
Bedingte Unabhängigkeit |
Modelliert Abhängigkeiten |
Komplexe Struktur |
Medizinische Diagnose |
Naive Bayes |
Überwacht |
Klassifikation |
Wahrscheinlichkeiten |
Bedingte Unabhängigkeit |
Schnell, einfach |
Annahme der Unabhängigkeit |
Spam-Filter |
Assoziationsregel |
Unüberwacht |
Assoziationsregel-Mining |
Regeln |
Assoziationen |
Identifiziert relevante Muster |
Mögliche Überanpassung |
Produktkaufmuster |
Random Fields |
Überwacht / Unüberwacht |
Bildverarbeitung, Vision |
Graph-/Gitterstruktur |
Nachbarschaft |
Kontextabhängigkeiten |
Rechenintensiv |
Bildsegmentierung |
Autoencoder |
Unüberwacht |
Dimensionalitäts- reduktion |
Kodierungs-/Dekodierungsnetzwerk |
Effiziente Datenrepräsentation |
Reduziert Datenkomplexität |
Kann überanpassen |
Bildkompression |
Generative Modelle |
Überwacht / Unüberwacht |
Datengenerierung |
Verschiedene |
Verteilungsannahmen |
Erzeugt realistische Daten |
Schwierig zu trainieren |
Synthetische Datenerzeugung |