
Machine
Learning
Joern Ploennigs
Künstliche Neuronale Netzwerke
Grundlagen¶
Neuronen¶
Neuronen sind die grundlegenden Bausteine eines neuronalen Netzwerks. Ein Neuron empfängt Eingaben, verarbeitet sie und gibt eine Ausgabe weiter. Die Verarbeitung erfolgt durch eine Aktivierungsfunktion $f(\cdot)$, die den linearen Eingang in eine nichtlineare Ausgabe umwandelt. Die Grundstruktur eines Neurons besteht aus mehreren Komponenten: Eingaben (Inputs), Gewichte (Weights), Bias und der Aktivierungsfunktion.
Die Eingaben $x_1, x_2, ..., x_n$ sind die Signale oder Datenpunkte, die in das Neuron eingespeist werden. Gewichte $w_1, w_2, ..., w_n$ sind Faktoren, die die Bedeutung jedes Eingangs steuern. Der Bias $b$ ist ein zusätzlicher Parameter, der den Schwellenwert für die Aktivierung anpasst. Schließlich gibt es die Aktivierungsfunktion $f(\cdot)$, die den Summenwert der gewichteten Eingaben und des Bias in eine Ausgabe umwandelt. Die Ausgabe eines Neurons wird durch die folgende Formel berechnet:
$$ y = f\left(b + \sum_{i=1}^n w_i x_i\right) $$
- Eingaben (Inputs, $x_1, x_2, ..., x_n$): Signale oder Datenpunkte, die in das Neuron eingespeist werden.
- Gewichte (Weights, $w_1, w_2, ..., w_n$): Faktoren, die die Bedeutung jedes Eingangs steuern.
- Bias (Bias, $b$): Ein zusätzlicher Parameter, der den Schwellenwert für die Aktivierung anpasst.
- Aktivierungsfunktion (Activation Function, $f(\cdot)$): Eine Funktion, die den Summenwert der gewichteten Eingaben und des Bias in eine Ausgabe umwandelt.
Damit gleicht das Neuron in der gleichen Formel einem Generalisierten Linearem Modell (GLM). Bei GLM zielt die Transformationsfunktion $f(\cdot)$ darauf ab, die Verteilung der Ausgangsvariable zu verändern.
Die meisten Aktivierungsfunktionen bei KNN zielen darauf ab, das Ausgangssignal entweder klarer zu differenzieren (aktiv/inaktiv) oder nichtlinear zu transformieren , um komplexe Zusammenhänge zu lernen. Einige gängige Aktivierungsfunktionen sind:
Sigmoid: Diese Funktion kennen wir von den Logistischen Regression und GLM. Sie transformiert den Eingang in einen Wert zwischen 0 und 1, was sie besonders geeignet für die Ausgabe von Wahrscheinlichkeiten macht.
$$f(x) = (1 + e^{-x})^{-1}.$$
ReLU (Rectified Linear Unit): Sie ist eine einfache und häufig verwendete Funktion, die den Eingang direkt zurückgibt, wenn er positiv ist, und ansonsten Null. ReLU ist bekannt dafür, neuronale Netze schneller und effizienter zu trainieren.
$$f(x) = \max(0, x).$$
Tanh (Hyperbolic Tangent): Diese Funktion transformiert den Eingang in einen Wert zwischen -1 und 1 und ist oft in früheren Versionen von neuronalen Netzwerken zu finden. Sie kann in Aufgaben nützlich sein, bei denen sowohl positive als auch negative Werte relevant sind.
$$f(x) = \tanh(x).$$
Softmax: Die Softmax-Funktion normalisiert die Ausgabe eines Neurons auf eine Wahrscheinlichkeitsverteilung, wobei die Summe aller Ausgänge 1 ergibt. Sie wird häufig in mehrstufigen Klassifizierungsaufgaben eingesetzt, wo sie die Wahrscheinlichkeiten aller Klassen gleichzeitig ausgibt.
$$f(x_i) = e^{-x_i}(\sum_{j}^K e^{x_j})^{-1}.$$
Schichten¶
Die Fähigkeit komplexe Zusammenhänge zu erlernen, ergibt sich vor allem daraus, dass Neuronale Netzwerke aus mehreren Schichten von Neuronen bestehen, die in einer bestimmten Architektur angeordnet sind.
Trainingsprozess¶
Der Grund, weshalb Neuronale Netzwerke fast 60 Jahre lang nicht genutzt wurden, lag in Skalierbarkeit des Trainings. Das oben abgebildete Beispiel zeigt bereits, die hohe Anzahl an 25 Parametern (Gewichte und Bias) für ein kleines Netzwerk mit vier Schichten. Leistungsfähige Netze haben bis zu Milliarden an Parametern.
Aufgrund der Komplexität können die Parameter nicht direkt berechnet werden und werden deshalb normalerweise iterativ angenähert. Dieser Prozess umfasst typischerweise folgende Schritte:
- Zufällige Initialisierung aller Parameter $w$ und $b$ mit Zufallszahlen.
- Vorwärtsausbreitung (Forward Propagation): Die Eingabedaten werden durch das Netzwerk geleitet und die Ausgabe geschätzt. Jedes Neuron berechnet seine Aktivierungsfunktion basierend auf den gewichteten Eingaben und dem Bias mit Hilfe der oben angegeben Formel.
Berechnung des Fehlers (Loss Calculation): Der Fehler oder Verlust wird durch eine Verlustfunktion berechnet, die die Differenz zwischen der vorhergesagten Ausgabe und der tatsächlichen Ausgabe misst. Die passende Verlustfunktionen richtet sich dabei nach dem Datentyp der Ausgangsvariable. Typische Verlustfunktionen kennen wir bereits:
- Mean Square Error für numerische Daten (siehe Lineare Regression).
$$E^{\text{MSE}} = \frac{1}{n} \sum_{j=1}^{n}(\hat y_j - y_j)^2$$
- Kreuzentropie (LogLoss) für binäre oder kategorische Daten (siehe Logistische Regression).
$$E^{\text{LL}} = -\frac{1}{n} \sum_{j=1}^{n} y_j log(\hat y_j)$$
Rückwärtsausbreitung (Backpropagation): Der Fehler wird durch das Netzwerk rückwärts propagiert, um die Gradienten der Verlustfunktion bezüglich der Gewichte und Biases zu berechnen. Dabei wird im Wesentlichen der Fehler rückwärts im Netzwerk verteilt, so dass Neuronen, die einen großen Anteil an der Vorhersage haben (also hohe Gewichtung und Bias bei hoher Eingangswert), ein größerer Anteil am Fehler zugeteilt wird. Der Gradient $ \nabla {E(w_{ij})} $ des Gewichtes $w_{ij}$ kann mit der Kettenregel berechnet werden:
$$ \nabla {E(w_{ij})} = \frac{\partial E}{\partial w_{ij}} $$ $$ \nabla {E(b_{i})} = \frac{\partial E}{\partial b_{i}} $$
Die entsprechende partielle Ableitung richtet sich prinzipiell nach der Aktivierungsfunktion, wird aber meist numerisch bestimmt, wie z.B. bereits bei der Logistischen Regression diskutiert.
Gewichtsaktualisierung (Weight Update): Die Gewichte und Biases werden mithilfe eines Optimierungsalgorithmus wie Gradient Descent oder Adam angepasst, um den Fehler zu minimieren. Beim Gradient Descent geschieht dies durch Anwendung der berechneten Gradienten auf die Gewichte und Biases mit Hilfe der Lernrate $\alpha$:
$$w_{ij} = w_{ij} - \alpha * \nabla E(w_{ij})$$ $$b_{i} = b_{i} - \alpha * \nabla E(b_{i})$$
- Abbruchkriterium: Wiederholung der Schritte 2.-5. bis ein Konvergenzkriteriums erfüllt wurde oder eine maximale Anzahl an Iterationen erreicht wird.
Der Trainingsprozess wird in der Regel über mehrere Epochen wiederholt, wobei jede Epoche eine Durchführung des gesamten Trainingsdatensatzes darstellt. Dies ermöglicht es dem Netzwerk, die Gewichte iterativ zu verbessern und seine Leistung auf neuen Daten zu generalisieren. Ein entscheidender Grund für den heutigen Erfolg von Neuronalen Netzwerken ist, dass diese Berechnung der Gewichte hoch parallelisierbar ist und somit sehr gut auf modernen Graphikkarten parallelisiert werden können.
Ein häufiges Problem beim Training neuronaler Netzwerke ist Overfitting, bei dem das Netzwerk die Trainingsdaten zu gut lernt und auf neuen Daten schlecht generalisiert. Um Overfitting zu vermeiden und die Leistung des Netzwerks zu verbessern, werden verschiedene Techniken der Regularisierung eingesetzt:
- Regularisierung (z.B. L1, L2): Hinzufügen eines Regularisierungsterms zur Verlustfunktion, um die Komplexität des Modells zu kontrollieren.
- Dropout: Zufälliges Ausschalten von Neuronen während des Trainings, um die Abhängigkeit von bestimmten Neuronen zu reduzieren.
- Datenaugmentation: Erweiterung des Trainingsdatensatzes durch zufällige Transformationen der Daten.
Architekturen¶
Vorwärtsgerichtete Netze¶
Die einfachsten Formen neuronaler Netzwerke sind Vorwärtsgerichtete Neuronale Netze (FNN - Feedforward Neural Networks). Bei ihnen fließen die Daten in eine Richtung von der Eingabeschicht zur Ausgabeschicht, ohne rückwärts gerichtete Datenflüsse. Sie entsprechen den oben dargestellten Netzwerken. Sie sind besonders geeignet bei einfachen Problemen, wo keine Autokorrelation oder komplexe Muster vorherrschen.
Rekurrente Netze¶
Rekurrente oder rückgekoppelte Neuronale Netze (RNN - Recurrent Neural Networks) sind neuronalen Netzen, die sich von Feedforward-Netzen dadurch unterscheiden, dass sie Verbindungen zwischen Neuronen einer Schicht zu Neuronen derselben oder vorheriger Schichten ermöglichen. Diese Art der Verschaltung ähnelt der bevorzugten Struktur neuronaler Netze im Gehirn, insbesondere im Neocortex. RNNs sind ideal für sequenzielle Daten wie Zeitreihen oder Text, da sie über Schleifen verfügen, die Informationen über Zeitpunkte (oder Wortfolgen/Sätze) hinweg speichern. Dadurch lässt sich z.B. gut die Autoregression in Zeitreihen oder komplette Sätze erlernen.
$$ y_j = f\left(b + \sum_{i=1}^n w_{i,j} x_{i,j} + v y_{j-1} \right) $$
Faltungsnetze¶
Faltungsnetze (CNN - Convolutional Neural Networks) sind besonders effektiv bei der Verarbeitung von höherdimensionalen Daten wie Bilddaten oder geospatialer Daten. Sie verwenden Faltungsoperationen, um Merkmale (Kanten, Reliefs, Muster, etc.) aus Eingabebildern zu extrahieren oder zu erlernen und gleichzeitig einen höherendimensionalen Eingang auf einen niedrigdimensionaleren Ausgang zu reduzieren, der diese Merkmale encodiert. Dadurch repräsentiert der Ausgang nur die Relevanz des extrahierten oder gelernten Merkmals und es muss nicht das Gesamtbild gelernt werden. Durch Schichtung mehrere versteckter Faltungsschichten hintereinander werden so zuerst Merkmale extrahiert und dann Muster dieser im Bild gelernt (z.B. die Form eines Hundes). Auf die Faltung und die Bildverarbeitung werden wir im Nachfolgekurs "Maschinelles Lernen und Künstliche Intelligenz" noch vertieft eingehen.
Neuronale Netzwerke in Python¶
Neuronale Netzwerke in sklearn
¶
Wir demonstrieren neuronale Netzwerke anhand einer erweiterten Version des Yin-Yang-Beispiels aus der Klassifikation indem wir die Anzahl der Farben auf 4 Kategorien und die Verwirbelung erhöhen. Wieder besteht die Aufgabe darin, die richtige Farbe basierend auf dem Punkt vorherzusagen, also eine Klassifikationsaufgabe. Wir erstellen die Daten wie folgt:
import numpy as np # Import von NumPy
import pandas as pd # Import von Pandas
import plotly.express as px # Import von Plotly
from sklearn.metrics import confusion_matrix
from sklearn.model_selection import train_test_split
np.random.seed(33)
N = 1000 # Anzahl der Punkte
X1 = np.random.normal(size=N)
X2 = np.random.normal(size=N)
X = np.column_stack((X1, X2))
alpha = np.arctan2(X2, X1)
r = np.sqrt(X1**2 + X2**2)
## Teile the sum of a sin and cosine into 5 intervals
category = pd.cut(np.sin(3*alpha + 2*r) + np.cos(3*alpha + 2*r),
bins=[-1.5, -1.1, -0.6, 0.6, 1.1, 1.5],
labels=[0, 1, 2, 3, 4])
y = category.astype(int)
# Teile in Test und Trainings-Datensatz
X_train, X_test, y_train, y_test = train_test_split(X, y)
# Darstellung des Datensatzes
fig=px.scatter(x=X2, y=X1, color=y, width=600, height=600)
fig.update_traces(marker_line=dict(width=.3, color="black"))
fig.show()
Das Bild zeigt ein komplexes Muster von Spiralarmen in fünf verschiedenen Farben. Dreiarmige gelbe und blauen Arme entsprechen den größten und kleinsten Werten, während sechsarmige Arme in verschiedenen Rot- und Violetttönen den dazwischen liegenden Werten entsprechen. Diese Entscheidungsgrenzen sind sehr schwer mit einfachen Modellen wie logistischer Regression, SVM oder sogar Bäumen zu erfassen. Prüfen wir das noch einmal mit einer kleinen Visualisierungsfunktion, die wir auch in der Klassifikation genutzt haben.
Testen wir einen Random Forest, so erhalten wir zwar ein gutes Modell, dass allerdings overfittet und schlecht generalisiert.
from sklearn.ensemble import RandomForestClassifier
m = RandomForestClassifier()
_ = m.fit(X_train, y_train)
m.score(X_test, y_test)
0.772
confusion_matrix(y_test, m.predict(X_test))
array([[52, 0, 2, 0, 0], [10, 19, 5, 0, 0], [ 4, 7, 50, 9, 0], [ 0, 0, 10, 24, 4], [ 0, 0, 3, 3, 48]])
DBPlot(m, X_test, y_test)
Ein SVM mit radialem Kernel erkennt die Struktur besser, aber hat einen deutlich höheren Fehler.
from sklearn.svm import SVC
m = SVC(kernel="rbf", gamma=1)
_ = m.fit(X_train, y_train)
m.score(X_test, y_test)
0.544
confusion_matrix(y_test, m.predict(X_test))
array([[43, 0, 11, 0, 0], [19, 0, 15, 0, 0], [11, 0, 52, 0, 7], [ 1, 0, 11, 0, 26], [ 3, 0, 10, 0, 41]])
DBPlot(m, X_test, y_test)
Allerdings können neuronale Netzwerke (und k-NN) deutlich besser damit umgehen.
sklearn implementiert einfache Feed-Forward-Neuronale Netzwerke, so genannte Multi-Layer Perceptrons. Dies sind einfache dichte Feed-Forward-Netzwerke mit einer beliebigen Anzahl von versteckten Schichten. Auch wenn sie strukturell einfache neuronaler Netzwerke sind, sind sie dennoch leistungsfähig genug für viele Aufgaben.
Wie bei anderen fortgeschrittenen Modellen bietet sklearn zwei unterschiedlichen Klassen für Klassifikationsaufgaben MLPClassifier
und für Regressionsaufgaben MLPRegressor
. Die grundlegende Verwendung dieser Modelle ist identisch zu den anderen sklearn-Modellen.
Die wichtigsten Argumente für den MLPClassifier
sind:
MLPClassifier(hidden_layer_sizes, activation, max_iter, alpha)
Von diesen ist hidden_layer_sizes der zentralste. Dies beschreibt die Anzahl der versteckten Schichten (die Größe der Eingabe- und Ausgabeschicht wird automatisch aus den Daten bestimmt). Es handelt sich um ein Tupel, das die Anzahl der Knoten für jede versteckte Schicht angibt, daher gibt die Länge des Tupels auch die Anzahl der versteckten Schichten an. Zum Beispiel bedeutet hidden_layer_sizes = (32, 16)
zwei versteckte Schichten, die erste mit 32 und die folgende mit 16 Knoten. activation beschreibt die Aktivierungsfunktion. Es empfiehlt sich meist es bei der Standardfunktion relu
zu lassen, außer es gibt die oben beschriebenen Gründe für andere Aktivierungsfunktionen. alpha ist der L2-Regularisierungsparameter und max_iter gibt die maximale Anzahl von Iterationen an, bevor die Optimierung stoppt.
Lassen Sie uns nun die Verwendung von MLPClassifier
an den Yin-Yang Beispiel demonstrieren. Beginnen wir mit einem einfachen Perzeptron mit einer einzigen versteckten Schicht von 20 Knoten. Daher verwenden wir hidden_layer_sizes=(20,)
, ein Tupel mit nur einer Zahl. Das Anpassen des Modells und die Vorhersage sind größtenteils ähnlich wie bei den anderen sklearn-Funktionen, daher diskutieren wir dies hier nicht. Wir erhöhen auch die Anzahl der Iterationen, da die Standardanzahl von 200 in diesem Fall zu gering ist:
from sklearn.neural_network import MLPClassifier
m = MLPClassifier(hidden_layer_sizes = (20,), max_iter=10000)
_ = m.fit(X_train, y_train)
m.score(X_test, y_test)
0.408
confusion_matrix(y_test, m.predict(X_test))
array([[35, 1, 14, 0, 4], [16, 4, 10, 0, 4], [19, 1, 24, 0, 26], [ 2, 0, 17, 0, 19], [ 1, 0, 14, 0, 39]])
DBPlot(m, X_test, y_test)
Dieses einfache Modell hat zuerst auch nur eine niedrige Genauigkeit. Das liegt daran, dass es zu einfach ist, nur eine einzelne kleine versteckte Schicht reicht nicht aus, um das komplexe Spiralmuster gut zu modellieren. Was sich gut in der Visualisierung erkennen lässt. Wir können dort sehen, dass das Modell die Idee korrekt einfängt: Spiralen in verschiedenen Farben, aber die Form der Spiralen ist nicht genau genug.
Lassen Sie uns das Modell mit einem leistungsstärkeren Netzwerk wiederholen:
m = MLPClassifier(hidden_layer_sizes = (256, 128, 64), max_iter=10000)
_ = m.fit(X_train, y_train)
m.score(X_test, y_test)
0.892
confusion_matrix(y_test, m.predict(X_test))
array([[49, 3, 2, 0, 0], [ 5, 26, 3, 0, 0], [ 1, 3, 61, 5, 0], [ 0, 0, 2, 35, 1], [ 0, 0, 0, 2, 52]])
DBPlot(m, X_test, y_test)
Jetzt sind die Ergebnisse sehr gut mit einer Genauigkeit von ca. 95 %. Die visuelle Inspektion bestätigt, dass das leistungsstärkere neuronale Netzwerk die Gesamtstruktur des Modells gut erfassen kann.
Die angepassten Netzwerkmodelle haben verschiedene Methoden und Attribute, z.B. gibt coefs_
die Modellgewichte aus (als Liste von Gewichtsmatrizen, eine für jede Schicht), und intercepts_
gibt die Modell-Biaswerte aus (als Liste von Bias-Vektoren, einer für jede Schicht). Zum Beispiel enthält das oben angepasste Modell
np.sum([b.size for b in m.intercepts_])
453
Bias.
Während sklearn einen einfachen Zugang zu neuronalen Netzwerkmodellen bietet, sind diese Modelle erheblich eingeschränkt. Für leistungsstärkere Netzwerke muss man andere Bibliotheken wie tensorflow oder pytorch verwenden.
Neuronale Netzwerke in Keras¶
Tensorflow and Keras¶
Tensorflow ist eine Bibliothek, die Berechnungsgraphen implementiert, die automatisch Gradienten berechnen können. Sie ermöglicht auch Berechnungen auf der GPU durchzuführen, was potenziell zu erheblichen Geschwindigkeitsverbesserungen gegenüber CPU-Berechnungen führen kann. In vielerlei Hinsicht ähnelt sie numpy, wo man Matrizen und Tensoren erstellen und manipulieren kann. Allerdings ist sie aufgrund des Berechnungsgraphen-Ansatzes und der GPU-bezogenen Überlegungen viel schwieriger zu verwenden.
Keras ist ein TensorFlow-Front-End, ein Submodul, das einen viel benutzerfreundlicheren Zugang zum Aufbau neuronaler Netzwerke bietet. Die Funktionalität umfasst eine Vielzahl von Netzwerkschichten, bei denen man die entsprechenden Parameter anpassen kann. Beim Aufbau des Netzwerks kann man einfach die Schichten hintereinander hinzufügen, die Verbindung zwischen den Schichten wird von Keras selbst übernommen. Eine gute Quelle für die Keras-Dokumentation ist die API-Referenzdokumentation.
Beispielnetzwerk in keras¶
Lassen Sie uns das Farbspiralbeispiel aus dem letzten Abschnitt von sklearn neu implementieren, diesmal jedoch mit keras. Es wird einige bemerkenswerte Unterschiede geben:
Der Aufbau des Netzwerks selbst ist in Keras anders. Keras berechnet nicht die Größe der Eingabe- und Ausgangsschichten aus den Daten. Beide müssen vom Benutzer angegeben werden. Schließlich sagt Keras nur Wahrscheinlichkeiten für alle Kategorien voraus, daher müssen wir Code hinzufügen, der die Spalte (Kategorie) mit der höchsten Wahrscheinlichkeit findet.
Das Modell erzeugen¶
Zuerst der wichtigste Schritt: Aufbau und Kompilierung des Modells. Dies unterscheidet sich sehr von der Vorgehensweise in sklearn. Lassen Sie uns ein sequentielles Modell mit dichten Schichten aufbauen, die gleiche Architektur, die wir mit sklearn erstellt haben:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
# sequential (not recursive) model (one input, one output)
model=Sequential()
model.add(Dense(512, activation="relu", input_shape=(2,)))
model.add(Dense(256, activation="relu"))
model.add(Dense(64, activation="relu"))
nCategories = len(np.unique(category))
model.add(Dense(nCategories, activation="softmax"))
Das richtige Festlegen der Eingabeformen und Ausgabeknoten ist eine der Hauptursachen für Frustration, wenn man anfängt, mit keras zu arbeiten. Die Fehlermeldungen sind lang und nicht besonders hilfreich, und es ist schwer zu verstehen, was das Problem ist. Hier ist eine Checkliste, die durchgearbeitet werden kann, wenn etwas nicht funktioniert:
- Enthält die erste (und nur die erste) Schicht das Argument
input_shape
? - Stellt
input_shape
korrekt die Form einer einzelnen Instanz der Eingabedaten dar? - Haben Sie die richtige Anzahl von Knoten in der Softmax-aktivierten Ausgangsschicht?
Training des Modells¶
Die nächste Aufgabe besteht darin, das Modell zu kompilieren und anzupassen. Keras-Modelle müssen kompiliert werden - was wir bisher eingerichtet haben, ist nur eine Beschreibung des Modells, nicht das tatsächliche Modell, das für TensorFlow-Tensoren eingerichtet ist und möglicherweise für die GPU-Ausführung. Wir können das Modell wie folgt kompilieren:
model.compile(loss='sparse_categorical_crossentropy',
optimizer='adam',
metrics=['accuracy'])
print(model.summary())
Model: "sequential" _________________________________________________________________ Layer (type) Output Shape Param # ================================================================= dense (Dense) (None, 512) 1536 dense_1 (Dense) (None, 256) 131328 dense_2 (Dense) (None, 64) 16448 dense_3 (Dense) (None, 5) 325 ================================================================= Total params: 149637 (584.52 KB) Trainable params: 149637 (584.52 KB) Non-trainable params: 0 (0.00 Byte) _________________________________________________________________ None
Die drei wichtigsten Argumente sind
loss
beschreibt die Modellverlustfunktion,sparse_categorical_crossentropy
, im Wesentlichen die Log-Likelihood, ist geeignet für Kategorisierungsaufgaben. Der genaue Typ hängt auch davon ab, wie das Ergebnis genau codiert ist.optimizer
ist der Optimierer, der für den stochastischen Gradientenabstieg verwendet werden soll.adam
undrmsprop
sind gute Optionen, aber es gibt auch andere Möglichkeiten.metrics
ist eine Metrik, die während der Optimierung ausgewertet und gedruckt wird und einige Rückmeldungen darüber bietet, wie die Auswertung verläuft.
Die letzte Zeile hier druckt die Modellzusammenfassung aus, eine praktische Übersicht darüber, was wir gemacht haben:
Model: "sequential"
_________________________________________________________________
Layer (type) Output Shape Param #
=================================================================
dense (Dense) (None, 512) 1536
_________________________________________________________________
dense_1 (Dense) (None, 256) 131328
_________________________________________________________________
dense_2 (Dense) (None, 64) 16448
_________________________________________________________________
dense_3 (Dense) (None, 5) 325
=================================================================
Total params: 149,637
Trainable params: 149,637
Non-trainable params: 0
Dieses Netzwerk enthält fast 150.000 Parameter, von denen alle trainierbar sind.
Nach erfolgreicher Kompilierung können wir das Modell anpassen:
history = model.fit(X, y, epochs=200)
Epoch 1/200 32/32 [==============================] - 0s 1ms/step - loss: 1.5753 - accuracy: 0.2640 Epoch 2/200 32/32 [==============================] - 0s 1ms/step - loss: 1.5413 - accuracy: 0.3130 Epoch 3/200 32/32 [==============================] - 0s 1ms/step - loss: 1.5215 - accuracy: 0.3160 Epoch 4/200 32/32 [==============================] - 0s 1ms/step - loss: 1.5004 - accuracy: 0.3390 Epoch 5/200 32/32 [==============================] - 0s 2ms/step - loss: 1.4723 - accuracy: 0.3820 Epoch 6/200 32/32 [==============================] - 0s 2ms/step - loss: 1.4483 - accuracy: 0.3920 Epoch 7/200 32/32 [==============================] - 0s 2ms/step - loss: 1.4190 - accuracy: 0.4080 Epoch 8/200 32/32 [==============================] - 0s 2ms/step - loss: 1.3701 - accuracy: 0.4630 Epoch 9/200 32/32 [==============================] - 0s 2ms/step - loss: 1.3196 - accuracy: 0.4800 Epoch 10/200 32/32 [==============================] - 0s 1ms/step - loss: 1.2397 - accuracy: 0.5230 Epoch 11/200 32/32 [==============================] - 0s 1ms/step - loss: 1.1777 - accuracy: 0.5430 Epoch 12/200 32/32 [==============================] - 0s 2ms/step - loss: 1.0841 - accuracy: 0.6040 Epoch 13/200 32/32 [==============================] - 0s 2ms/step - loss: 1.0175 - accuracy: 0.6120 Epoch 14/200 32/32 [==============================] - 0s 2ms/step - loss: 0.9453 - accuracy: 0.6390 Epoch 15/200 32/32 [==============================] - 0s 2ms/step - loss: 0.8713 - accuracy: 0.6640 Epoch 16/200 32/32 [==============================] - 0s 2ms/step - loss: 0.8110 - accuracy: 0.6790 Epoch 17/200 32/32 [==============================] - 0s 2ms/step - loss: 0.7526 - accuracy: 0.7130 Epoch 18/200 32/32 [==============================] - 0s 2ms/step - loss: 0.7097 - accuracy: 0.7310 Epoch 19/200 32/32 [==============================] - 0s 2ms/step - loss: 0.6917 - accuracy: 0.7080 Epoch 20/200 32/32 [==============================] - 0s 1ms/step - loss: 0.6651 - accuracy: 0.7280 Epoch 21/200 32/32 [==============================] - 0s 2ms/step - loss: 0.5964 - accuracy: 0.7740 Epoch 22/200 32/32 [==============================] - 0s 2ms/step - loss: 0.5477 - accuracy: 0.8080 Epoch 23/200 32/32 [==============================] - 0s 2ms/step - loss: 0.5696 - accuracy: 0.7670 Epoch 24/200 32/32 [==============================] - 0s 2ms/step - loss: 0.5636 - accuracy: 0.7860 Epoch 25/200 32/32 [==============================] - 0s 2ms/step - loss: 0.4930 - accuracy: 0.8150 Epoch 26/200 32/32 [==============================] - 0s 1ms/step - loss: 0.4669 - accuracy: 0.8370 Epoch 27/200 32/32 [==============================] - 0s 1ms/step - loss: 0.4425 - accuracy: 0.8540 Epoch 28/200 32/32 [==============================] - 0s 2ms/step - loss: 0.4386 - accuracy: 0.8490 Epoch 29/200 32/32 [==============================] - 0s 1ms/step - loss: 0.4142 - accuracy: 0.8600 Epoch 30/200 32/32 [==============================] - 0s 2ms/step - loss: 0.4397 - accuracy: 0.8470 Epoch 31/200 32/32 [==============================] - 0s 1ms/step - loss: 0.3958 - accuracy: 0.8600 Epoch 32/200 32/32 [==============================] - 0s 1ms/step - loss: 0.3740 - accuracy: 0.8790 Epoch 33/200 32/32 [==============================] - 0s 1ms/step - loss: 0.3605 - accuracy: 0.8740 Epoch 34/200 32/32 [==============================] - 0s 1ms/step - loss: 0.3996 - accuracy: 0.8550 Epoch 35/200 32/32 [==============================] - 0s 1ms/step - loss: 0.4007 - accuracy: 0.8390 Epoch 36/200 32/32 [==============================] - 0s 1ms/step - loss: 0.3389 - accuracy: 0.8910 Epoch 37/200 32/32 [==============================] - 0s 1ms/step - loss: 0.3323 - accuracy: 0.8740 Epoch 38/200 32/32 [==============================] - 0s 2ms/step - loss: 0.3310 - accuracy: 0.8780 Epoch 39/200 32/32 [==============================] - 0s 1ms/step - loss: 0.3108 - accuracy: 0.8960 Epoch 40/200 32/32 [==============================] - 0s 1ms/step - loss: 0.3218 - accuracy: 0.8820 Epoch 41/200 32/32 [==============================] - 0s 1ms/step - loss: 0.3133 - accuracy: 0.8890 Epoch 42/200 32/32 [==============================] - 0s 1ms/step - loss: 0.2850 - accuracy: 0.9010 Epoch 43/200 32/32 [==============================] - 0s 1ms/step - loss: 0.2888 - accuracy: 0.8920 Epoch 44/200 32/32 [==============================] - 0s 1ms/step - loss: 0.3082 - accuracy: 0.8780 Epoch 45/200 32/32 [==============================] - 0s 1ms/step - loss: 0.2859 - accuracy: 0.9030 Epoch 46/200 32/32 [==============================] - 0s 2ms/step - loss: 0.2534 - accuracy: 0.9180 Epoch 47/200 32/32 [==============================] - 0s 2ms/step - loss: 0.2587 - accuracy: 0.9080 Epoch 48/200 32/32 [==============================] - 0s 1ms/step - loss: 0.2741 - accuracy: 0.8960 Epoch 49/200 32/32 [==============================] - 0s 2ms/step - loss: 0.2384 - accuracy: 0.9230 Epoch 50/200 32/32 [==============================] - 0s 2ms/step - loss: 0.2478 - accuracy: 0.9090 Epoch 51/200 32/32 [==============================] - 0s 1ms/step - loss: 0.2381 - accuracy: 0.9160 Epoch 52/200 32/32 [==============================] - 0s 1ms/step - loss: 0.2341 - accuracy: 0.9250 Epoch 53/200 32/32 [==============================] - 0s 1ms/step - loss: 0.2450 - accuracy: 0.9140 Epoch 54/200 32/32 [==============================] - 0s 1ms/step - loss: 0.2506 - accuracy: 0.9160 Epoch 55/200 32/32 [==============================] - 0s 1ms/step - loss: 0.2120 - accuracy: 0.9250 Epoch 56/200 32/32 [==============================] - 0s 1ms/step - loss: 0.2168 - accuracy: 0.9260 Epoch 57/200 32/32 [==============================] - 0s 1ms/step - loss: 0.2245 - accuracy: 0.9100 Epoch 58/200 32/32 [==============================] - 0s 1ms/step - loss: 0.2355 - accuracy: 0.9140 Epoch 59/200 32/32 [==============================] - 0s 2ms/step - loss: 0.2176 - accuracy: 0.9250 Epoch 60/200 32/32 [==============================] - 0s 1ms/step - loss: 0.2163 - accuracy: 0.9170 Epoch 61/200 32/32 [==============================] - 0s 2ms/step - loss: 0.2883 - accuracy: 0.8880 Epoch 62/200 32/32 [==============================] - 0s 2ms/step - loss: 0.2362 - accuracy: 0.9070 Epoch 63/200 32/32 [==============================] - 0s 2ms/step - loss: 0.2121 - accuracy: 0.9170 Epoch 64/200 32/32 [==============================] - 0s 2ms/step - loss: 0.2171 - accuracy: 0.9160 Epoch 65/200 32/32 [==============================] - 0s 1ms/step - loss: 0.2275 - accuracy: 0.9150 Epoch 66/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1883 - accuracy: 0.9380 Epoch 67/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1826 - accuracy: 0.9410 Epoch 68/200 32/32 [==============================] - 0s 2ms/step - loss: 0.1790 - accuracy: 0.9430 Epoch 69/200 32/32 [==============================] - 0s 2ms/step - loss: 0.2111 - accuracy: 0.9180 Epoch 70/200 32/32 [==============================] - 0s 2ms/step - loss: 0.1822 - accuracy: 0.9330 Epoch 71/200 32/32 [==============================] - 0s 2ms/step - loss: 0.1920 - accuracy: 0.9270 Epoch 72/200 32/32 [==============================] - 0s 2ms/step - loss: 0.1859 - accuracy: 0.9380 Epoch 73/200 32/32 [==============================] - 0s 1ms/step - loss: 0.2185 - accuracy: 0.9180 Epoch 74/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1775 - accuracy: 0.9380 Epoch 75/200 32/32 [==============================] - 0s 1ms/step - loss: 0.2117 - accuracy: 0.9080 Epoch 76/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1816 - accuracy: 0.9370 Epoch 77/200 32/32 [==============================] - 0s 2ms/step - loss: 0.2191 - accuracy: 0.9130 Epoch 78/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1566 - accuracy: 0.9420 Epoch 79/200 32/32 [==============================] - 0s 1ms/step - loss: 0.2621 - accuracy: 0.8940 Epoch 80/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1713 - accuracy: 0.9420 Epoch 81/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1714 - accuracy: 0.9440 Epoch 82/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1718 - accuracy: 0.9370 Epoch 83/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1605 - accuracy: 0.9430 Epoch 84/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1552 - accuracy: 0.9430 Epoch 85/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1633 - accuracy: 0.9420 Epoch 86/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1788 - accuracy: 0.9320 Epoch 87/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1957 - accuracy: 0.9270 Epoch 88/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1641 - accuracy: 0.9370 Epoch 89/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1612 - accuracy: 0.9410 Epoch 90/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1764 - accuracy: 0.9320 Epoch 91/200 32/32 [==============================] - 0s 2ms/step - loss: 0.1315 - accuracy: 0.9580 Epoch 92/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1621 - accuracy: 0.9420 Epoch 93/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1910 - accuracy: 0.9250 Epoch 94/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1467 - accuracy: 0.9490 Epoch 95/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1830 - accuracy: 0.9290 Epoch 96/200 32/32 [==============================] - 0s 1ms/step - loss: 0.2800 - accuracy: 0.8850 Epoch 97/200 32/32 [==============================] - 0s 1ms/step - loss: 0.2126 - accuracy: 0.9140 Epoch 98/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1983 - accuracy: 0.9290 Epoch 99/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1788 - accuracy: 0.9280 Epoch 100/200 32/32 [==============================] - 0s 2ms/step - loss: 0.1271 - accuracy: 0.9560 Epoch 101/200 32/32 [==============================] - 0s 2ms/step - loss: 0.1408 - accuracy: 0.9490 Epoch 102/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1806 - accuracy: 0.9230 Epoch 103/200 32/32 [==============================] - 0s 2ms/step - loss: 0.1923 - accuracy: 0.9320 Epoch 104/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1507 - accuracy: 0.9380 Epoch 105/200 32/32 [==============================] - 0s 1ms/step - loss: 0.2371 - accuracy: 0.9130 Epoch 106/200 32/32 [==============================] - 0s 2ms/step - loss: 0.1532 - accuracy: 0.9390 Epoch 107/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1307 - accuracy: 0.9560 Epoch 108/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1196 - accuracy: 0.9620 Epoch 109/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1223 - accuracy: 0.9560 Epoch 110/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1378 - accuracy: 0.9490 Epoch 111/200 32/32 [==============================] - 0s 1ms/step - loss: 0.2271 - accuracy: 0.9160 Epoch 112/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1593 - accuracy: 0.9370 Epoch 113/200 32/32 [==============================] - 0s 1ms/step - loss: 0.2386 - accuracy: 0.9090 Epoch 114/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1524 - accuracy: 0.9370 Epoch 115/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1195 - accuracy: 0.9580 Epoch 116/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1358 - accuracy: 0.9480 Epoch 117/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1216 - accuracy: 0.9600 Epoch 118/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1296 - accuracy: 0.9570 Epoch 119/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1384 - accuracy: 0.9480 Epoch 120/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1517 - accuracy: 0.9460 Epoch 121/200 32/32 [==============================] - 0s 4ms/step - loss: 0.2054 - accuracy: 0.9100 Epoch 122/200 32/32 [==============================] - 0s 2ms/step - loss: 0.1354 - accuracy: 0.9520 Epoch 123/200 32/32 [==============================] - 0s 2ms/step - loss: 0.1362 - accuracy: 0.9530 Epoch 124/200 32/32 [==============================] - 0s 2ms/step - loss: 0.1783 - accuracy: 0.9350 Epoch 125/200 32/32 [==============================] - 0s 2ms/step - loss: 0.2016 - accuracy: 0.9220 Epoch 126/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1583 - accuracy: 0.9360 Epoch 127/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1939 - accuracy: 0.9250 Epoch 128/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1512 - accuracy: 0.9410 Epoch 129/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1746 - accuracy: 0.9370 Epoch 130/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1922 - accuracy: 0.9250 Epoch 131/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1473 - accuracy: 0.9420 Epoch 132/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1364 - accuracy: 0.9450 Epoch 133/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1269 - accuracy: 0.9570 Epoch 134/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1167 - accuracy: 0.9560 Epoch 135/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1090 - accuracy: 0.9630 Epoch 136/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1160 - accuracy: 0.9580 Epoch 137/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1252 - accuracy: 0.9560 Epoch 138/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1380 - accuracy: 0.9520 Epoch 139/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1245 - accuracy: 0.9540 Epoch 140/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1096 - accuracy: 0.9570 Epoch 141/200 32/32 [==============================] - 0s 1ms/step - loss: 0.2639 - accuracy: 0.9070 Epoch 142/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1584 - accuracy: 0.9410 Epoch 143/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1616 - accuracy: 0.9370 Epoch 144/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1537 - accuracy: 0.9390 Epoch 145/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1405 - accuracy: 0.9440 Epoch 146/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1225 - accuracy: 0.9560 Epoch 147/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1453 - accuracy: 0.9430 Epoch 148/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1805 - accuracy: 0.9380 Epoch 149/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1191 - accuracy: 0.9590 Epoch 150/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1622 - accuracy: 0.9300 Epoch 151/200 32/32 [==============================] - 0s 1ms/step - loss: 0.0933 - accuracy: 0.9730 Epoch 152/200 32/32 [==============================] - 0s 1ms/step - loss: 0.0950 - accuracy: 0.9710 Epoch 153/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1335 - accuracy: 0.9450 Epoch 154/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1182 - accuracy: 0.9600 Epoch 155/200 32/32 [==============================] - 0s 2ms/step - loss: 0.1058 - accuracy: 0.9650 Epoch 156/200 32/32 [==============================] - 0s 2ms/step - loss: 0.0891 - accuracy: 0.9760 Epoch 157/200 32/32 [==============================] - 0s 2ms/step - loss: 0.1361 - accuracy: 0.9420 Epoch 158/200 32/32 [==============================] - 0s 2ms/step - loss: 0.1446 - accuracy: 0.9480 Epoch 159/200 32/32 [==============================] - 0s 2ms/step - loss: 0.1317 - accuracy: 0.9460 Epoch 160/200 32/32 [==============================] - 0s 2ms/step - loss: 0.1169 - accuracy: 0.9570 Epoch 161/200 32/32 [==============================] - 0s 2ms/step - loss: 0.1125 - accuracy: 0.9580 Epoch 162/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1139 - accuracy: 0.9530 Epoch 163/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1749 - accuracy: 0.9370 Epoch 164/200 32/32 [==============================] - 0s 2ms/step - loss: 0.1100 - accuracy: 0.9600 Epoch 165/200 32/32 [==============================] - 0s 2ms/step - loss: 0.1480 - accuracy: 0.9450 Epoch 166/200 32/32 [==============================] - 0s 3ms/step - loss: 0.1062 - accuracy: 0.9570 Epoch 167/200 32/32 [==============================] - 0s 2ms/step - loss: 0.1491 - accuracy: 0.9440 Epoch 168/200 32/32 [==============================] - 0s 2ms/step - loss: 0.1154 - accuracy: 0.9520 Epoch 169/200 32/32 [==============================] - 0s 2ms/step - loss: 0.1075 - accuracy: 0.9610 Epoch 170/200 32/32 [==============================] - 0s 2ms/step - loss: 0.1511 - accuracy: 0.9410 Epoch 171/200 32/32 [==============================] - 0s 2ms/step - loss: 0.1551 - accuracy: 0.9330 Epoch 172/200 32/32 [==============================] - 0s 2ms/step - loss: 0.1508 - accuracy: 0.9390 Epoch 173/200 32/32 [==============================] - 0s 2ms/step - loss: 0.0923 - accuracy: 0.9750 Epoch 174/200 32/32 [==============================] - 0s 2ms/step - loss: 0.0870 - accuracy: 0.9670 Epoch 175/200 32/32 [==============================] - 0s 2ms/step - loss: 0.1109 - accuracy: 0.9490 Epoch 176/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1041 - accuracy: 0.9570 Epoch 177/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1019 - accuracy: 0.9610 Epoch 178/200 32/32 [==============================] - 0s 1ms/step - loss: 0.0977 - accuracy: 0.9610 Epoch 179/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1207 - accuracy: 0.9470 Epoch 180/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1131 - accuracy: 0.9570 Epoch 181/200 32/32 [==============================] - 0s 1ms/step - loss: 0.0856 - accuracy: 0.9700 Epoch 182/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1192 - accuracy: 0.9570 Epoch 183/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1744 - accuracy: 0.9290 Epoch 184/200 32/32 [==============================] - 0s 1ms/step - loss: 0.2110 - accuracy: 0.9190 Epoch 185/200 32/32 [==============================] - 0s 2ms/step - loss: 0.1636 - accuracy: 0.9370 Epoch 186/200 32/32 [==============================] - 0s 2ms/step - loss: 0.1383 - accuracy: 0.9510 Epoch 187/200 32/32 [==============================] - 0s 2ms/step - loss: 0.1556 - accuracy: 0.9390 Epoch 188/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1276 - accuracy: 0.9550 Epoch 189/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1192 - accuracy: 0.9530 Epoch 190/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1707 - accuracy: 0.9300 Epoch 191/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1270 - accuracy: 0.9520 Epoch 192/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1468 - accuracy: 0.9480 Epoch 193/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1314 - accuracy: 0.9420 Epoch 194/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1442 - accuracy: 0.9500 Epoch 195/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1327 - accuracy: 0.9470 Epoch 196/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1598 - accuracy: 0.9490 Epoch 197/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1036 - accuracy: 0.9670 Epoch 198/200 32/32 [==============================] - 0s 1ms/step - loss: 0.0972 - accuracy: 0.9640 Epoch 199/200 32/32 [==============================] - 0s 1ms/step - loss: 0.1224 - accuracy: 0.9590 Epoch 200/200 32/32 [==============================] - 0s 1ms/step - loss: 0.0991 - accuracy: 0.9650
In diesem Beispiel ist X
die Designmatrix, y
der Ergebnisvektor, und das Argument epochs
gibt an, wie viele Epochen der Optimierer durchlaufen soll. Keras gibt den Fortschritt beim Optimieren an, es könnte so aussehen
Epoch 1/200
25/25 [==============================] - 0s 2ms/step - loss: 1.5984 - accuracy: 0.2438
Epoch 2/200
25/25 [==============================] - 0s 2ms/step - loss: 1.5709 - accuracy: 0.2763
Epoch 3/200
25/25 [==============================] - 0s 3ms/step - loss: 1.5550 - accuracy: 0.3013
Hierbei kann man die aktuelle Epoche, den Batch (für stochastischen Gradientenabstieg) und die aktuelle Genauigkeit der Trainingsdaten sehen. In diesem Beispiel werden alle Epochen bis zum Abschluss ausgeführt, daher sehen wir 32/32
für Batches, aber normalerweise kann man die Batch-Nummer sehen, die sich während des Trainings fortschreitet. Dieses Beispiel funktioniert sehr schnell, Keras meldet 2 ms pro Schritt (Batch) und die Gesamtzeit für die Epoche ist zu gering, um gemeldet zu werden. Aber eine einzelne Epoche kann bei komplexeren Modellen und mehr Daten viele Minuten dauern.
Die Modellqualität (hier Genauigkeit) wird für eine einzelne Batch berechnet und gibt nur eine grobe Richtlinie für die tatsächliche Modellgenauigkeit, auch auf Trainingsdaten. Nehmen Sie diese Genauigkeitsmessung nicht zu ernst!
Keras ermöglicht es Ihnen, Vorhersagen mit einem Modell zu treffen, das nicht angepasst ist (im Gegensatz zu scikit-learn, wo das einen Fehler verursacht). Die Ergebnisse werden bestenfalls mittelmäßig aussehen.
Vorhersagen und Plotten¶
Wenn die Anpassung abgeschlossen ist, können wir das Modell für Vorhersagen verwenden. Die Vorhersage funktioniert ähnlich wie in sklearn, nur dass die predict
-Methode die Wahrscheinlichkeit vorhersagt, nicht die Kategorie (analog zu sklearn's predict_proba
).
phat = model.predict(X_test)
8/8 [==============================] - 0s 743us/step
In diesem Beispiel handelt es sich um eine Matrix mit 5 Spalten, wobei jede Spalte die Wahrscheinlichkeit darstellt, dass der Datenpunkt zur entsprechenden Kategorie gehört. Beispielsweise könnten Zeilen von phat
so aussehen:
phat[:5]
array([[0.0000000e+00, 2.4446578e-15, 9.9729091e-01, 2.7083708e-03, 7.3157184e-07], [3.4020368e-02, 9.6581239e-01, 1.6727351e-04, 3.7393101e-16, 1.6382640e-31], [9.9995685e-01, 4.3128934e-05, 1.9298244e-12, 9.5705135e-26, 0.0000000e+00], [9.9996841e-01, 3.1579577e-05, 2.5123959e-15, 2.9620931e-34, 0.0000000e+00], [9.9999928e-01, 7.6248858e-07, 1.4865363e-16, 1.4017707e-32, 0.0000000e+00]], dtype=float32)
Wir sehen, dass für jedes Test-Fall eine Wahrscheinlichkeit für jede Kategorie angegeben ist. Als nächstes wollen wir mit np.argmax(phat, axis=-1)
die Spalte (Kategorie) finden, mit der höchsten Wahrscheinlichkeit. Es findet einfach die Position der größten Elemente im Array entlang der letzten Achse (axis=-1
), d.h. Spalten. Für jede Zeile finden wir also die entsprechende Spaltennummer. Beachten Sie, dass np.argmax
die Spalten ab 0 zählt, nicht ab 1:
yhat = np.argmax(phat, axis=-1)
yhat[:5]
array([2, 1, 0, 0, 0])
Endlich können wir die Verwirrungsmatrix mit pd.crosstab
berechnen und die Genauigkeit berechnen:
from sklearn.metrics import confusion_matrix
print("confusion matrix:\n", confusion_matrix(y_test, yhat))
print("Accuracy (on training data):", np.mean(y_test == yhat))
confusion matrix: [[54 0 0 0 0] [ 3 29 2 0 0] [ 0 2 67 1 0] [ 0 0 2 36 0] [ 0 0 0 0 54]] Accuracy (on training data): 0.96
In diesem Beispiel machen wir Vorhersagen auf Trainingsdaten, aber wir können natürlich auch einen anderen Datensatz für Vorhersagen auswählen. Da der vorhergesagte Wert eine Wahrscheinlichkeitsmatrix mit 5 Spalten sein wird, berechnen wir yhat
als die Spaltennummer, die die größte Wahrscheinlichkeit für jede Zeile enthält.
Wie man sehen kann, ist die Verwirrungsmatrix fast ausschließlich auf der Hauptdiagonalen besetzt, und die Genauigkeit ist hoch.
Schließlich müssen wir, wenn wir ein ähnliches Diagramm wie oben erstellen möchten, die DBPlot
-Funktion anpassen, um zu berücksichtigen, dass Keras-Modelle nur Wahrscheinlichkeiten vorhersagen.
def DBPlot(m, X, y, nGrid = 300):
x1_min, x1_max = X[:, 0].min() - 1, X[:, 0].max() + 1
x2_min, x2_max = X[:, 1].min() - 1, X[:, 1].max() + 1
xx1, xx2 = np.meshgrid(np.linspace(x1_min, x1_max, nGrid),
np.linspace(x2_min, x2_max, nGrid))
XX = np.column_stack((xx1.ravel(), xx2.ravel()))
## predict probability
phat = m.predict(XX, verbose=0)
## find the column that corresponds to the maximum probability
hatyy = np.argmax(phat, axis=-1).reshape(xx1.shape)
fig = px.imshow(hatyy, width=600, height=600)
fig.add_scatter(x=X[:,0]/(x1_max-x1_min)*nGrid+nGrid/2, y=X[:,1]/(x2_max-x2_min)*nGrid+nGrid/2, mode="markers",
marker=dict(color=[mcolors[i] for i in y]), marker_line=dict(width=.3, color="black"))
fig.update_coloraxes(showscale=False)
fig.update_layout(showlegend=False)
fig.show()
DBPlot(model, X_test, y_test)
Noch einmal, die Funktion ist fast identisch mit der sklearn Version, außer der Zeile, die np.argmax(phat, axis=-1)
enthält, die die vorhergesagten Wahrscheinlichkeiten in Kategorien umwandelt.