No description has been provided for this image

Machine
Learning

Joern Ploennigs

Künstliche Neuronale Netzwerke

Evaluation¶

Füllt bitte die Evaluation aus und helft die Vorlesung zu verbessern:

Grundlagen¶

Neuronen¶

Neuronen sind die grundlegenden Bausteine eines neuronalen Netzwerks. Ein Neuron empfängt Eingaben, verarbeitet sie und gibt eine Ausgabe weiter. Die Verarbeitung erfolgt durch eine Aktivierungsfunktion $f(\cdot)$, die den linearen Eingang in eine nichtlineare Ausgabe umwandelt. Die Grundstruktur eines Neurons besteht aus mehreren Komponenten: Eingaben (Inputs), Gewichte (Weights), Bias und der Aktivierungsfunktion.

No description has been provided for this image

Die Eingaben $x_1, x_2, ..., x_n$ sind die Signale oder Datenpunkte, die in das Neuron eingespeist werden. Gewichte $w_1, w_2, ..., w_n$ sind Faktoren, die die Bedeutung jedes Eingangs steuern. Der Bias $b$ ist ein zusätzlicher Parameter, der den Schwellenwert für die Aktivierung anpasst. Schließlich gibt es die Aktivierungsfunktion $f(\cdot)$, die den Summenwert der gewichteten Eingaben und des Bias in eine Ausgabe umwandelt. Die Ausgabe eines Neurons wird durch die folgende Formel berechnet:

$$ y = f\left(b + \sum_{i=1}^n w_i x_i\right) $$

  • Eingaben (Inputs, $x_1, x_2, ..., x_n$): Signale oder Datenpunkte, die in das Neuron eingespeist werden.
  • Gewichte (Weights, $w_1, w_2, ..., w_n$): Faktoren, die die Bedeutung jedes Eingangs steuern.
  • Bias (Bias, $b$): Ein zusätzlicher Parameter, der den Schwellenwert für die Aktivierung anpasst.
  • Aktivierungsfunktion (Activation Function, $f(\cdot)$): Eine Funktion, die den Summenwert der gewichteten Eingaben und des Bias in eine Ausgabe umwandelt.

Damit gleicht das Neuron in der gleichen Formel einem Generalisierten Linearem Modell (GLM). Bei GLM zielt die Transformationsfunktion $f(\cdot)$ darauf ab, die Verteilung der Ausgangsvariable zu verändern.

Die meisten Aktivierungsfunktionen bei KNN zielen darauf ab, das Ausgangssignal entweder klarer zu differenzieren (aktiv/inaktiv) oder nichtlinear zu transformieren , um komplexe Zusammenhänge zu lernen. Einige gängige Aktivierungsfunktionen sind:

  • Sigmoid: Diese Funktion kennen wir von den Logistischen Regression und GLM. Sie transformiert den Eingang in einen Wert zwischen 0 und 1, was sie besonders geeignet für die Ausgabe von Wahrscheinlichkeiten macht.

    $$f(x) = (1 + e^{-x})^{-1}.$$

  • ReLU (Rectified Linear Unit): Sie ist eine einfache und häufig verwendete Funktion, die den Eingang direkt zurückgibt, wenn er positiv ist, und ansonsten Null. ReLU ist bekannt dafür, neuronale Netze schneller und effizienter zu trainieren.

    $$f(x) = \max(0, x).$$

  • Tanh (Hyperbolic Tangent): Diese Funktion transformiert den Eingang in einen Wert zwischen -1 und 1 und ist oft in früheren Versionen von neuronalen Netzwerken zu finden. Sie kann in Aufgaben nützlich sein, bei denen sowohl positive als auch negative Werte relevant sind.

    $$f(x) = \tanh(x).$$

  • Softmax: Die Softmax-Funktion normalisiert die Ausgabe eines Neurons auf eine Wahrscheinlichkeitsverteilung, wobei die Summe aller Ausgänge 1 ergibt. Sie wird häufig in mehrstufigen Klassifizierungsaufgaben eingesetzt, wo sie die Wahrscheinlichkeiten aller Klassen gleichzeitig ausgibt.

    $$f(x_i) = e^{-x_i}(\sum_{j}^K e^{x_j})^{-1}.$$

Schichten¶

Die Fähigkeit komplexe Zusammenhänge zu erlernen, ergibt sich vor allem daraus, dass Neuronale Netzwerke aus mehreren Schichten von Neuronen bestehen, die in einer bestimmten Architektur angeordnet sind.

No description has been provided for this image

Trainingsprozess¶

Der Grund, weshalb Neuronale Netzwerke fast 60 Jahre lang nicht genutzt wurden, lag in Skalierbarkeit des Trainings. Das oben abgebildete Beispiel zeigt bereits, die hohe Anzahl an 25 Parametern (Gewichte und Bias) für ein kleines Netzwerk mit vier Schichten. Leistungsfähige Netze haben bis zu Milliarden an Parametern.

Aufgrund der Komplexität können die Parameter nicht direkt berechnet werden und werden deshalb normalerweise iterativ angenähert. Dieser Prozess umfasst typischerweise folgende Schritte:

  1. Zufällige Initialisierung aller Parameter $w$ und $b$ mit Zufallszahlen.
  1. Vorwärtsausbreitung (Forward Propagation): Die Eingabedaten werden durch das Netzwerk geleitet und die Ausgabe geschätzt. Jedes Neuron berechnet seine Aktivierungsfunktion basierend auf den gewichteten Eingaben und dem Bias mit Hilfe der oben angegeben Formel.
  1. Berechnung des Fehlers (Loss Calculation): Der Fehler oder Verlust wird durch eine Verlustfunktion berechnet, die die Differenz zwischen der vorhergesagten Ausgabe und der tatsächlichen Ausgabe misst. Die passende Verlustfunktionen richtet sich dabei nach dem Datentyp der Ausgangsvariable. Typische Verlustfunktionen kennen wir bereits:

    • Mean Square Error für numerische Daten (siehe Lineare Regression).

    $$E^{\text{MSE}} = \frac{1}{n} \sum_{j=1}^{n}(\hat y_j - y_j)^2$$

    • Kreuzentropie (LogLoss) für binäre oder kategorische Daten (siehe Logistische Regression).

    $$E^{\text{LL}} = -\frac{1}{n} \sum_{j=1}^{n} y_j log(\hat y_j)$$

  1. Rückwärtsausbreitung (Backpropagation): Der Fehler wird durch das Netzwerk rückwärts propagiert, um die Gradienten der Verlustfunktion bezüglich der Gewichte und Biases zu berechnen. Dabei wird im Wesentlichen der Fehler rückwärts im Netzwerk verteilt, so dass Neuronen, die einen großen Anteil an der Vorhersage haben (also hohe Gewichtung und Bias bei hoher Eingangswert), ein größerer Anteil am Fehler zugeteilt wird. Der Gradient $ \nabla {E(w_{ij})} $ des Gewichtes $w_{ij}$ kann mit der Kettenregel berechnet werden:

    $$ \nabla {E(w_{ij})} = \frac{\partial E}{\partial w_{ij}} $$ $$ \nabla {E(b_{i})} = \frac{\partial E}{\partial b_{i}} $$

    Die entsprechende partielle Ableitung richtet sich prinzipiell nach der Aktivierungsfunktion, wird aber meist numerisch bestimmt, wie z.B. bereits bei der Logistischen Regression diskutiert.

  1. Gewichtsaktualisierung (Weight Update): Die Gewichte und Biases werden mithilfe eines Optimierungsalgorithmus wie Gradient Descent oder Adam angepasst, um den Fehler zu minimieren. Beim Gradient Descent geschieht dies durch Anwendung der berechneten Gradienten auf die Gewichte und Biases mit Hilfe der Lernrate $\alpha$:

    $$w_{ij} = w_{ij} - \alpha * \nabla E(w_{ij})$$ $$b_{i} = b_{i} - \alpha * \nabla E(b_{i})$$

  1. Abbruchkriterium: Wiederholung der Schritte 2.-5. bis ein Konvergenzkriteriums erfüllt wurde oder eine maximale Anzahl an Iterationen erreicht wird.

Der Trainingsprozess wird in der Regel über mehrere Epochen wiederholt, wobei jede Epoche eine Durchführung des gesamten Trainingsdatensatzes darstellt. Dies ermöglicht es dem Netzwerk, die Gewichte iterativ zu verbessern und seine Leistung auf neuen Daten zu generalisieren. Ein entscheidender Grund für den heutigen Erfolg von Neuronalen Netzwerken ist, dass diese Berechnung der Gewichte hoch parallelisierbar ist und somit sehr gut auf modernen Graphikkarten parallelisiert werden können.

Ein häufiges Problem beim Training neuronaler Netzwerke ist Overfitting, bei dem das Netzwerk die Trainingsdaten zu gut lernt und auf neuen Daten schlecht generalisiert. Um Overfitting zu vermeiden und die Leistung des Netzwerks zu verbessern, werden verschiedene Techniken der Regularisierung eingesetzt:

  • Regularisierung (z.B. L1, L2): Hinzufügen eines Regularisierungsterms zur Verlustfunktion, um die Komplexität des Modells zu kontrollieren.
  • Dropout: Zufälliges Ausschalten von Neuronen während des Trainings, um die Abhängigkeit von bestimmten Neuronen zu reduzieren.
  • Datenaugmentation: Erweiterung des Trainingsdatensatzes durch zufällige Transformationen der Daten.

Architekturen¶

Vorwärtsgerichtete Netze¶

Die einfachsten Formen neuronaler Netzwerke sind Vorwärtsgerichtete Neuronale Netze (FNN - Feedforward Neural Networks). Bei ihnen fließen die Daten in eine Richtung von der Eingabeschicht zur Ausgabeschicht, ohne rückwärts gerichtete Datenflüsse. Sie entsprechen den oben dargestellten Netzwerken. Sie sind besonders geeignet bei einfachen Problemen, wo keine Autokorrelation oder komplexe Muster vorherrschen.

No description has been provided for this image

Rekurrente Netze¶

Rekurrente oder rückgekoppelte Neuronale Netze (RNN - Recurrent Neural Networks) sind neuronalen Netzen, die sich von Feedforward-Netzen dadurch unterscheiden, dass sie Verbindungen zwischen Neuronen einer Schicht zu Neuronen derselben oder vorheriger Schichten ermöglichen. Diese Art der Verschaltung ähnelt der bevorzugten Struktur neuronaler Netze im Gehirn, insbesondere im Neocortex. RNNs sind ideal für sequenzielle Daten wie Zeitreihen oder Text, da sie über Schleifen verfügen, die Informationen über Zeitpunkte (oder Wortfolgen/Sätze) hinweg speichern. Dadurch lässt sich z.B. gut die Autoregression in Zeitreihen oder komplette Sätze erlernen.

$$ y_j = f\left(b + \sum_{i=1}^n w_{i,j} x_{i,j} + v y_{j-1} \right) $$

No description has been provided for this image

Faltungsnetze¶

Faltungsnetze (CNN - Convolutional Neural Networks) sind besonders effektiv bei der Verarbeitung von höherdimensionalen Daten wie Bilddaten oder geospatialer Daten. Sie verwenden Faltungsoperationen, um Merkmale (Kanten, Reliefs, Muster, etc.) aus Eingabebildern zu extrahieren oder zu erlernen und gleichzeitig einen höherendimensionalen Eingang auf einen niedrigdimensionaleren Ausgang zu reduzieren, der diese Merkmale encodiert. Dadurch repräsentiert der Ausgang nur die Relevanz des extrahierten oder gelernten Merkmals und es muss nicht das Gesamtbild gelernt werden. Durch Schichtung mehrere versteckter Faltungsschichten hintereinander werden so zuerst Merkmale extrahiert und dann Muster dieser im Bild gelernt (z.B. die Form eines Hundes). Auf die Faltung und die Bildverarbeitung werden wir im Nachfolgekurs "Maschinelles Lernen und Künstliche Intelligenz" noch vertieft eingehen.

No description has been provided for this image

Neuronale Netzwerke in Python¶

Neuronale Netzwerke in sklearn¶

Wir demonstrieren neuronale Netzwerke anhand einer erweiterten Version des Yin-Yang-Beispiels aus der Klassifikation indem wir die Anzahl der Farben auf 4 Kategorien und die Verwirbelung erhöhen. Wieder besteht die Aufgabe darin, die richtige Farbe basierend auf dem Punkt vorherzusagen, also eine Klassifikationsaufgabe. Wir erstellen die Daten wie folgt:

In [1]:
import numpy as np # Import von NumPy
import pandas as pd # Import von Pandas
import plotly.express as px # Import von Plotly
from sklearn.metrics import confusion_matrix
from sklearn.model_selection import train_test_split

np.random.seed(33)
N = 1000  # Anzahl der Punkte
X1 = np.random.normal(size=N)
X2 = np.random.normal(size=N)
X = np.column_stack((X1, X2))

alpha = np.arctan2(X2, X1)
r = np.sqrt(X1**2 + X2**2)

## Teile the sum of a sin and cosine into 5 intervals
category = pd.cut(np.sin(3*alpha + 2*r) + np.cos(3*alpha + 2*r),
           bins=[-1.5, -1.1, -0.6, 0.6, 1.1, 1.5],
           labels=[0, 1, 2, 3, 4])
y = category.astype(int)

# Teile in Test und Trainings-Datensatz
X_train, X_test, y_train, y_test = train_test_split(X, y)
In [2]:
# Darstellung des Datensatzes
fig=px.scatter(x=X2, y=X1, color=y, width=600, height=600)
fig.update_traces(marker_line=dict(width=.3, color="black"))
fig.show()

Das Bild zeigt ein komplexes Muster von Spiralarmen in fünf verschiedenen Farben. Dreiarmige gelbe und blauen Arme entsprechen den größten und kleinsten Werten, während sechsarmige Arme in verschiedenen Rot- und Violetttönen den dazwischen liegenden Werten entsprechen. Diese Entscheidungsgrenzen sind sehr schwer mit einfachen Modellen wie logistischer Regression, SVM oder sogar Bäumen zu erfassen. Prüfen wir das noch einmal mit einer kleinen Visualisierungsfunktion, die wir auch in der Klassifikation genutzt haben.

Testen wir einen Random Forest, so erhalten wir zwar ein gutes Modell, dass allerdings overfittet und schlecht generalisiert.

In [4]:
from sklearn.ensemble import RandomForestClassifier

m = RandomForestClassifier()
_ = m.fit(X_train, y_train)
m.score(X_test, y_test)
Out[4]:
0.772
In [5]:
confusion_matrix(y_test, m.predict(X_test))
Out[5]:
array([[52,  0,  2,  0,  0],
       [10, 19,  5,  0,  0],
       [ 4,  7, 50,  9,  0],
       [ 0,  0, 10, 24,  4],
       [ 0,  0,  3,  3, 48]])
In [6]:
DBPlot(m, X_test, y_test)

Ein SVM mit radialem Kernel erkennt die Struktur besser, aber hat einen deutlich höheren Fehler.

In [7]:
from sklearn.svm import SVC

m = SVC(kernel="rbf", gamma=1)
_ = m.fit(X_train, y_train)
m.score(X_test, y_test)
Out[7]:
0.544
In [8]:
confusion_matrix(y_test, m.predict(X_test))
Out[8]:
array([[43,  0, 11,  0,  0],
       [19,  0, 15,  0,  0],
       [11,  0, 52,  0,  7],
       [ 1,  0, 11,  0, 26],
       [ 3,  0, 10,  0, 41]])
In [9]:
DBPlot(m, X_test, y_test)

Allerdings können neuronale Netzwerke (und k-NN) deutlich besser damit umgehen.

sklearn implementiert einfache Feed-Forward-Neuronale Netzwerke, so genannte Multi-Layer Perceptrons. Dies sind einfache dichte Feed-Forward-Netzwerke mit einer beliebigen Anzahl von versteckten Schichten. Auch wenn sie strukturell einfache neuronaler Netzwerke sind, sind sie dennoch leistungsfähig genug für viele Aufgaben.

Wie bei anderen fortgeschrittenen Modellen bietet sklearn zwei unterschiedlichen Klassen für Klassifikationsaufgaben MLPClassifier und für Regressionsaufgaben MLPRegressor. Die grundlegende Verwendung dieser Modelle ist identisch zu den anderen sklearn-Modellen.

Die wichtigsten Argumente für den MLPClassifier sind:

MLPClassifier(hidden_layer_sizes, activation, max_iter, alpha)

Von diesen ist hidden_layer_sizes der zentralste. Dies beschreibt die Anzahl der versteckten Schichten (die Größe der Eingabe- und Ausgabeschicht wird automatisch aus den Daten bestimmt). Es handelt sich um ein Tupel, das die Anzahl der Knoten für jede versteckte Schicht angibt, daher gibt die Länge des Tupels auch die Anzahl der versteckten Schichten an. Zum Beispiel bedeutet hidden_layer_sizes = (32, 16) zwei versteckte Schichten, die erste mit 32 und die folgende mit 16 Knoten. activation beschreibt die Aktivierungsfunktion. Es empfiehlt sich meist es bei der Standardfunktion relu zu lassen, außer es gibt die oben beschriebenen Gründe für andere Aktivierungsfunktionen. alpha ist der L2-Regularisierungsparameter und max_iter gibt die maximale Anzahl von Iterationen an, bevor die Optimierung stoppt.

Lassen Sie uns nun die Verwendung von MLPClassifier an den Yin-Yang Beispiel demonstrieren. Beginnen wir mit einem einfachen Perzeptron mit einer einzigen versteckten Schicht von 20 Knoten. Daher verwenden wir hidden_layer_sizes=(20,), ein Tupel mit nur einer Zahl. Das Anpassen des Modells und die Vorhersage sind größtenteils ähnlich wie bei den anderen sklearn-Funktionen, daher diskutieren wir dies hier nicht. Wir erhöhen auch die Anzahl der Iterationen, da die Standardanzahl von 200 in diesem Fall zu gering ist:

In [10]:
from sklearn.neural_network import MLPClassifier

m = MLPClassifier(hidden_layer_sizes = (20,), max_iter=10000)
_ = m.fit(X_train, y_train)
m.score(X_test, y_test)
Out[10]:
0.408
In [11]:
confusion_matrix(y_test, m.predict(X_test))
Out[11]:
array([[35,  1, 14,  0,  4],
       [16,  4, 10,  0,  4],
       [19,  1, 24,  0, 26],
       [ 2,  0, 17,  0, 19],
       [ 1,  0, 14,  0, 39]])
In [12]:
DBPlot(m, X_test, y_test)

Dieses einfache Modell hat zuerst auch nur eine niedrige Genauigkeit. Das liegt daran, dass es zu einfach ist, nur eine einzelne kleine versteckte Schicht reicht nicht aus, um das komplexe Spiralmuster gut zu modellieren. Was sich gut in der Visualisierung erkennen lässt. Wir können dort sehen, dass das Modell die Idee korrekt einfängt: Spiralen in verschiedenen Farben, aber die Form der Spiralen ist nicht genau genug.

Lassen Sie uns das Modell mit einem leistungsstärkeren Netzwerk wiederholen:

In [13]:
m = MLPClassifier(hidden_layer_sizes = (256, 128, 64), max_iter=10000)
_ = m.fit(X_train, y_train)
m.score(X_test, y_test)
Out[13]:
0.892
In [14]:
confusion_matrix(y_test, m.predict(X_test))
Out[14]:
array([[49,  3,  2,  0,  0],
       [ 5, 26,  3,  0,  0],
       [ 1,  3, 61,  5,  0],
       [ 0,  0,  2, 35,  1],
       [ 0,  0,  0,  2, 52]])
In [15]:
DBPlot(m, X_test, y_test)

Jetzt sind die Ergebnisse sehr gut mit einer Genauigkeit von ca. 95 %. Die visuelle Inspektion bestätigt, dass das leistungsstärkere neuronale Netzwerk die Gesamtstruktur des Modells gut erfassen kann.

Die angepassten Netzwerkmodelle haben verschiedene Methoden und Attribute, z.B. gibt coefs_ die Modellgewichte aus (als Liste von Gewichtsmatrizen, eine für jede Schicht), und intercepts_ gibt die Modell-Biaswerte aus (als Liste von Bias-Vektoren, einer für jede Schicht). Zum Beispiel enthält das oben angepasste Modell

In [16]:
np.sum([b.size for b in m.intercepts_])
Out[16]:
453

Bias.

Während sklearn einen einfachen Zugang zu neuronalen Netzwerkmodellen bietet, sind diese Modelle erheblich eingeschränkt. Für leistungsstärkere Netzwerke muss man andere Bibliotheken wie tensorflow oder pytorch verwenden.

Neuronale Netzwerke in Keras¶

Tensorflow and Keras¶

Tensorflow ist eine Bibliothek, die Berechnungsgraphen implementiert, die automatisch Gradienten berechnen können. Sie ermöglicht auch Berechnungen auf der GPU durchzuführen, was potenziell zu erheblichen Geschwindigkeitsverbesserungen gegenüber CPU-Berechnungen führen kann. In vielerlei Hinsicht ähnelt sie numpy, wo man Matrizen und Tensoren erstellen und manipulieren kann. Allerdings ist sie aufgrund des Berechnungsgraphen-Ansatzes und der GPU-bezogenen Überlegungen viel schwieriger zu verwenden.

Keras ist ein TensorFlow-Front-End, ein Submodul, das einen viel benutzerfreundlicheren Zugang zum Aufbau neuronaler Netzwerke bietet. Die Funktionalität umfasst eine Vielzahl von Netzwerkschichten, bei denen man die entsprechenden Parameter anpassen kann. Beim Aufbau des Netzwerks kann man einfach die Schichten hintereinander hinzufügen, die Verbindung zwischen den Schichten wird von Keras selbst übernommen. Eine gute Quelle für die Keras-Dokumentation ist die API-Referenzdokumentation.

Beispielnetzwerk in keras¶

Lassen Sie uns das Farbspiralbeispiel aus dem letzten Abschnitt von sklearn neu implementieren, diesmal jedoch mit keras. Es wird einige bemerkenswerte Unterschiede geben:

Der Aufbau des Netzwerks selbst ist in Keras anders. Keras berechnet nicht die Größe der Eingabe- und Ausgangsschichten aus den Daten. Beide müssen vom Benutzer angegeben werden. Schließlich sagt Keras nur Wahrscheinlichkeiten für alle Kategorien voraus, daher müssen wir Code hinzufügen, der die Spalte (Kategorie) mit der höchsten Wahrscheinlichkeit findet.

Das Modell erzeugen¶

Zuerst der wichtigste Schritt: Aufbau und Kompilierung des Modells. Dies unterscheidet sich sehr von der Vorgehensweise in sklearn. Lassen Sie uns ein sequentielles Modell mit dichten Schichten aufbauen, die gleiche Architektur, die wir mit sklearn erstellt haben:

In [17]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense

# sequential (not recursive) model (one input, one output)
model=Sequential()
model.add(Dense(512, activation="relu", input_shape=(2,)))
model.add(Dense(256, activation="relu"))
model.add(Dense(64, activation="relu"))
nCategories = len(np.unique(category))
model.add(Dense(nCategories, activation="softmax"))

Das richtige Festlegen der Eingabeformen und Ausgabeknoten ist eine der Hauptursachen für Frustration, wenn man anfängt, mit keras zu arbeiten. Die Fehlermeldungen sind lang und nicht besonders hilfreich, und es ist schwer zu verstehen, was das Problem ist. Hier ist eine Checkliste, die durchgearbeitet werden kann, wenn etwas nicht funktioniert:

  • Enthält die erste (und nur die erste) Schicht das Argument input_shape?
  • Stellt input_shape korrekt die Form einer einzelnen Instanz der Eingabedaten dar?
  • Haben Sie die richtige Anzahl von Knoten in der Softmax-aktivierten Ausgangsschicht?

Training des Modells¶

Die nächste Aufgabe besteht darin, das Modell zu kompilieren und anzupassen. Keras-Modelle müssen kompiliert werden - was wir bisher eingerichtet haben, ist nur eine Beschreibung des Modells, nicht das tatsächliche Modell, das für TensorFlow-Tensoren eingerichtet ist und möglicherweise für die GPU-Ausführung. Wir können das Modell wie folgt kompilieren:

In [18]:
model.compile(loss='sparse_categorical_crossentropy',
              optimizer='adam',
              metrics=['accuracy'])
print(model.summary())
Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
=================================================================
 dense (Dense)               (None, 512)               1536      
                                                                 
 dense_1 (Dense)             (None, 256)               131328    
                                                                 
 dense_2 (Dense)             (None, 64)                16448     
                                                                 
 dense_3 (Dense)             (None, 5)                 325       
                                                                 
=================================================================
Total params: 149637 (584.52 KB)
Trainable params: 149637 (584.52 KB)
Non-trainable params: 0 (0.00 Byte)
_________________________________________________________________
None

Die drei wichtigsten Argumente sind

  • loss beschreibt die Modellverlustfunktion, sparse_categorical_crossentropy, im Wesentlichen die Log-Likelihood, ist geeignet für Kategorisierungsaufgaben. Der genaue Typ hängt auch davon ab, wie das Ergebnis genau codiert ist.
  • optimizer ist der Optimierer, der für den stochastischen Gradientenabstieg verwendet werden soll. adam und rmsprop sind gute Optionen, aber es gibt auch andere Möglichkeiten.
  • metrics ist eine Metrik, die während der Optimierung ausgewertet und gedruckt wird und einige Rückmeldungen darüber bietet, wie die Auswertung verläuft.

Die letzte Zeile hier druckt die Modellzusammenfassung aus, eine praktische Übersicht darüber, was wir gemacht haben:

Model: "sequential"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
=================================================================
dense (Dense)                (None, 512)               1536      
_________________________________________________________________
dense_1 (Dense)              (None, 256)               131328    
_________________________________________________________________
dense_2 (Dense)              (None, 64)                16448     
_________________________________________________________________
dense_3 (Dense)              (None, 5)                 325       
=================================================================
Total params: 149,637
Trainable params: 149,637
Non-trainable params: 0

Dieses Netzwerk enthält fast 150.000 Parameter, von denen alle trainierbar sind.

Nach erfolgreicher Kompilierung können wir das Modell anpassen:

In [19]:
history = model.fit(X, y, epochs=200)
Epoch 1/200
32/32 [==============================] - 0s 1ms/step - loss: 1.5753 - accuracy: 0.2640
Epoch 2/200
32/32 [==============================] - 0s 1ms/step - loss: 1.5413 - accuracy: 0.3130
Epoch 3/200
32/32 [==============================] - 0s 1ms/step - loss: 1.5215 - accuracy: 0.3160
Epoch 4/200
32/32 [==============================] - 0s 1ms/step - loss: 1.5004 - accuracy: 0.3390
Epoch 5/200
32/32 [==============================] - 0s 2ms/step - loss: 1.4723 - accuracy: 0.3820
Epoch 6/200
32/32 [==============================] - 0s 2ms/step - loss: 1.4483 - accuracy: 0.3920
Epoch 7/200
32/32 [==============================] - 0s 2ms/step - loss: 1.4190 - accuracy: 0.4080
Epoch 8/200
32/32 [==============================] - 0s 2ms/step - loss: 1.3701 - accuracy: 0.4630
Epoch 9/200
32/32 [==============================] - 0s 2ms/step - loss: 1.3196 - accuracy: 0.4800
Epoch 10/200
32/32 [==============================] - 0s 1ms/step - loss: 1.2397 - accuracy: 0.5230
Epoch 11/200
32/32 [==============================] - 0s 1ms/step - loss: 1.1777 - accuracy: 0.5430
Epoch 12/200
32/32 [==============================] - 0s 2ms/step - loss: 1.0841 - accuracy: 0.6040
Epoch 13/200
32/32 [==============================] - 0s 2ms/step - loss: 1.0175 - accuracy: 0.6120
Epoch 14/200
32/32 [==============================] - 0s 2ms/step - loss: 0.9453 - accuracy: 0.6390
Epoch 15/200
32/32 [==============================] - 0s 2ms/step - loss: 0.8713 - accuracy: 0.6640
Epoch 16/200
32/32 [==============================] - 0s 2ms/step - loss: 0.8110 - accuracy: 0.6790
Epoch 17/200
32/32 [==============================] - 0s 2ms/step - loss: 0.7526 - accuracy: 0.7130
Epoch 18/200
32/32 [==============================] - 0s 2ms/step - loss: 0.7097 - accuracy: 0.7310
Epoch 19/200
32/32 [==============================] - 0s 2ms/step - loss: 0.6917 - accuracy: 0.7080
Epoch 20/200
32/32 [==============================] - 0s 1ms/step - loss: 0.6651 - accuracy: 0.7280
Epoch 21/200
32/32 [==============================] - 0s 2ms/step - loss: 0.5964 - accuracy: 0.7740
Epoch 22/200
32/32 [==============================] - 0s 2ms/step - loss: 0.5477 - accuracy: 0.8080
Epoch 23/200
32/32 [==============================] - 0s 2ms/step - loss: 0.5696 - accuracy: 0.7670
Epoch 24/200
32/32 [==============================] - 0s 2ms/step - loss: 0.5636 - accuracy: 0.7860
Epoch 25/200
32/32 [==============================] - 0s 2ms/step - loss: 0.4930 - accuracy: 0.8150
Epoch 26/200
32/32 [==============================] - 0s 1ms/step - loss: 0.4669 - accuracy: 0.8370
Epoch 27/200
32/32 [==============================] - 0s 1ms/step - loss: 0.4425 - accuracy: 0.8540
Epoch 28/200
32/32 [==============================] - 0s 2ms/step - loss: 0.4386 - accuracy: 0.8490
Epoch 29/200
32/32 [==============================] - 0s 1ms/step - loss: 0.4142 - accuracy: 0.8600
Epoch 30/200
32/32 [==============================] - 0s 2ms/step - loss: 0.4397 - accuracy: 0.8470
Epoch 31/200
32/32 [==============================] - 0s 1ms/step - loss: 0.3958 - accuracy: 0.8600
Epoch 32/200
32/32 [==============================] - 0s 1ms/step - loss: 0.3740 - accuracy: 0.8790
Epoch 33/200
32/32 [==============================] - 0s 1ms/step - loss: 0.3605 - accuracy: 0.8740
Epoch 34/200
32/32 [==============================] - 0s 1ms/step - loss: 0.3996 - accuracy: 0.8550
Epoch 35/200
32/32 [==============================] - 0s 1ms/step - loss: 0.4007 - accuracy: 0.8390
Epoch 36/200
32/32 [==============================] - 0s 1ms/step - loss: 0.3389 - accuracy: 0.8910
Epoch 37/200
32/32 [==============================] - 0s 1ms/step - loss: 0.3323 - accuracy: 0.8740
Epoch 38/200
32/32 [==============================] - 0s 2ms/step - loss: 0.3310 - accuracy: 0.8780
Epoch 39/200
32/32 [==============================] - 0s 1ms/step - loss: 0.3108 - accuracy: 0.8960
Epoch 40/200
32/32 [==============================] - 0s 1ms/step - loss: 0.3218 - accuracy: 0.8820
Epoch 41/200
32/32 [==============================] - 0s 1ms/step - loss: 0.3133 - accuracy: 0.8890
Epoch 42/200
32/32 [==============================] - 0s 1ms/step - loss: 0.2850 - accuracy: 0.9010
Epoch 43/200
32/32 [==============================] - 0s 1ms/step - loss: 0.2888 - accuracy: 0.8920
Epoch 44/200
32/32 [==============================] - 0s 1ms/step - loss: 0.3082 - accuracy: 0.8780
Epoch 45/200
32/32 [==============================] - 0s 1ms/step - loss: 0.2859 - accuracy: 0.9030
Epoch 46/200
32/32 [==============================] - 0s 2ms/step - loss: 0.2534 - accuracy: 0.9180
Epoch 47/200
32/32 [==============================] - 0s 2ms/step - loss: 0.2587 - accuracy: 0.9080
Epoch 48/200
32/32 [==============================] - 0s 1ms/step - loss: 0.2741 - accuracy: 0.8960
Epoch 49/200
32/32 [==============================] - 0s 2ms/step - loss: 0.2384 - accuracy: 0.9230
Epoch 50/200
32/32 [==============================] - 0s 2ms/step - loss: 0.2478 - accuracy: 0.9090
Epoch 51/200
32/32 [==============================] - 0s 1ms/step - loss: 0.2381 - accuracy: 0.9160
Epoch 52/200
32/32 [==============================] - 0s 1ms/step - loss: 0.2341 - accuracy: 0.9250
Epoch 53/200
32/32 [==============================] - 0s 1ms/step - loss: 0.2450 - accuracy: 0.9140
Epoch 54/200
32/32 [==============================] - 0s 1ms/step - loss: 0.2506 - accuracy: 0.9160
Epoch 55/200
32/32 [==============================] - 0s 1ms/step - loss: 0.2120 - accuracy: 0.9250
Epoch 56/200
32/32 [==============================] - 0s 1ms/step - loss: 0.2168 - accuracy: 0.9260
Epoch 57/200
32/32 [==============================] - 0s 1ms/step - loss: 0.2245 - accuracy: 0.9100
Epoch 58/200
32/32 [==============================] - 0s 1ms/step - loss: 0.2355 - accuracy: 0.9140
Epoch 59/200
32/32 [==============================] - 0s 2ms/step - loss: 0.2176 - accuracy: 0.9250
Epoch 60/200
32/32 [==============================] - 0s 1ms/step - loss: 0.2163 - accuracy: 0.9170
Epoch 61/200
32/32 [==============================] - 0s 2ms/step - loss: 0.2883 - accuracy: 0.8880
Epoch 62/200
32/32 [==============================] - 0s 2ms/step - loss: 0.2362 - accuracy: 0.9070
Epoch 63/200
32/32 [==============================] - 0s 2ms/step - loss: 0.2121 - accuracy: 0.9170
Epoch 64/200
32/32 [==============================] - 0s 2ms/step - loss: 0.2171 - accuracy: 0.9160
Epoch 65/200
32/32 [==============================] - 0s 1ms/step - loss: 0.2275 - accuracy: 0.9150
Epoch 66/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1883 - accuracy: 0.9380
Epoch 67/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1826 - accuracy: 0.9410
Epoch 68/200
32/32 [==============================] - 0s 2ms/step - loss: 0.1790 - accuracy: 0.9430
Epoch 69/200
32/32 [==============================] - 0s 2ms/step - loss: 0.2111 - accuracy: 0.9180
Epoch 70/200
32/32 [==============================] - 0s 2ms/step - loss: 0.1822 - accuracy: 0.9330
Epoch 71/200
32/32 [==============================] - 0s 2ms/step - loss: 0.1920 - accuracy: 0.9270
Epoch 72/200
32/32 [==============================] - 0s 2ms/step - loss: 0.1859 - accuracy: 0.9380
Epoch 73/200
32/32 [==============================] - 0s 1ms/step - loss: 0.2185 - accuracy: 0.9180
Epoch 74/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1775 - accuracy: 0.9380
Epoch 75/200
32/32 [==============================] - 0s 1ms/step - loss: 0.2117 - accuracy: 0.9080
Epoch 76/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1816 - accuracy: 0.9370
Epoch 77/200
32/32 [==============================] - 0s 2ms/step - loss: 0.2191 - accuracy: 0.9130
Epoch 78/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1566 - accuracy: 0.9420
Epoch 79/200
32/32 [==============================] - 0s 1ms/step - loss: 0.2621 - accuracy: 0.8940
Epoch 80/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1713 - accuracy: 0.9420
Epoch 81/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1714 - accuracy: 0.9440
Epoch 82/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1718 - accuracy: 0.9370
Epoch 83/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1605 - accuracy: 0.9430
Epoch 84/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1552 - accuracy: 0.9430
Epoch 85/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1633 - accuracy: 0.9420
Epoch 86/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1788 - accuracy: 0.9320
Epoch 87/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1957 - accuracy: 0.9270
Epoch 88/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1641 - accuracy: 0.9370
Epoch 89/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1612 - accuracy: 0.9410
Epoch 90/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1764 - accuracy: 0.9320
Epoch 91/200
32/32 [==============================] - 0s 2ms/step - loss: 0.1315 - accuracy: 0.9580
Epoch 92/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1621 - accuracy: 0.9420
Epoch 93/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1910 - accuracy: 0.9250
Epoch 94/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1467 - accuracy: 0.9490
Epoch 95/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1830 - accuracy: 0.9290
Epoch 96/200
32/32 [==============================] - 0s 1ms/step - loss: 0.2800 - accuracy: 0.8850
Epoch 97/200
32/32 [==============================] - 0s 1ms/step - loss: 0.2126 - accuracy: 0.9140
Epoch 98/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1983 - accuracy: 0.9290
Epoch 99/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1788 - accuracy: 0.9280
Epoch 100/200
32/32 [==============================] - 0s 2ms/step - loss: 0.1271 - accuracy: 0.9560
Epoch 101/200
32/32 [==============================] - 0s 2ms/step - loss: 0.1408 - accuracy: 0.9490
Epoch 102/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1806 - accuracy: 0.9230
Epoch 103/200
32/32 [==============================] - 0s 2ms/step - loss: 0.1923 - accuracy: 0.9320
Epoch 104/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1507 - accuracy: 0.9380
Epoch 105/200
32/32 [==============================] - 0s 1ms/step - loss: 0.2371 - accuracy: 0.9130
Epoch 106/200
32/32 [==============================] - 0s 2ms/step - loss: 0.1532 - accuracy: 0.9390
Epoch 107/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1307 - accuracy: 0.9560
Epoch 108/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1196 - accuracy: 0.9620
Epoch 109/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1223 - accuracy: 0.9560
Epoch 110/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1378 - accuracy: 0.9490
Epoch 111/200
32/32 [==============================] - 0s 1ms/step - loss: 0.2271 - accuracy: 0.9160
Epoch 112/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1593 - accuracy: 0.9370
Epoch 113/200
32/32 [==============================] - 0s 1ms/step - loss: 0.2386 - accuracy: 0.9090
Epoch 114/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1524 - accuracy: 0.9370
Epoch 115/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1195 - accuracy: 0.9580
Epoch 116/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1358 - accuracy: 0.9480
Epoch 117/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1216 - accuracy: 0.9600
Epoch 118/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1296 - accuracy: 0.9570
Epoch 119/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1384 - accuracy: 0.9480
Epoch 120/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1517 - accuracy: 0.9460
Epoch 121/200
32/32 [==============================] - 0s 4ms/step - loss: 0.2054 - accuracy: 0.9100
Epoch 122/200
32/32 [==============================] - 0s 2ms/step - loss: 0.1354 - accuracy: 0.9520
Epoch 123/200
32/32 [==============================] - 0s 2ms/step - loss: 0.1362 - accuracy: 0.9530
Epoch 124/200
32/32 [==============================] - 0s 2ms/step - loss: 0.1783 - accuracy: 0.9350
Epoch 125/200
32/32 [==============================] - 0s 2ms/step - loss: 0.2016 - accuracy: 0.9220
Epoch 126/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1583 - accuracy: 0.9360
Epoch 127/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1939 - accuracy: 0.9250
Epoch 128/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1512 - accuracy: 0.9410
Epoch 129/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1746 - accuracy: 0.9370
Epoch 130/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1922 - accuracy: 0.9250
Epoch 131/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1473 - accuracy: 0.9420
Epoch 132/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1364 - accuracy: 0.9450
Epoch 133/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1269 - accuracy: 0.9570
Epoch 134/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1167 - accuracy: 0.9560
Epoch 135/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1090 - accuracy: 0.9630
Epoch 136/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1160 - accuracy: 0.9580
Epoch 137/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1252 - accuracy: 0.9560
Epoch 138/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1380 - accuracy: 0.9520
Epoch 139/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1245 - accuracy: 0.9540
Epoch 140/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1096 - accuracy: 0.9570
Epoch 141/200
32/32 [==============================] - 0s 1ms/step - loss: 0.2639 - accuracy: 0.9070
Epoch 142/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1584 - accuracy: 0.9410
Epoch 143/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1616 - accuracy: 0.9370
Epoch 144/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1537 - accuracy: 0.9390
Epoch 145/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1405 - accuracy: 0.9440
Epoch 146/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1225 - accuracy: 0.9560
Epoch 147/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1453 - accuracy: 0.9430
Epoch 148/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1805 - accuracy: 0.9380
Epoch 149/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1191 - accuracy: 0.9590
Epoch 150/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1622 - accuracy: 0.9300
Epoch 151/200
32/32 [==============================] - 0s 1ms/step - loss: 0.0933 - accuracy: 0.9730
Epoch 152/200
32/32 [==============================] - 0s 1ms/step - loss: 0.0950 - accuracy: 0.9710
Epoch 153/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1335 - accuracy: 0.9450
Epoch 154/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1182 - accuracy: 0.9600
Epoch 155/200
32/32 [==============================] - 0s 2ms/step - loss: 0.1058 - accuracy: 0.9650
Epoch 156/200
32/32 [==============================] - 0s 2ms/step - loss: 0.0891 - accuracy: 0.9760
Epoch 157/200
32/32 [==============================] - 0s 2ms/step - loss: 0.1361 - accuracy: 0.9420
Epoch 158/200
32/32 [==============================] - 0s 2ms/step - loss: 0.1446 - accuracy: 0.9480
Epoch 159/200
32/32 [==============================] - 0s 2ms/step - loss: 0.1317 - accuracy: 0.9460
Epoch 160/200
32/32 [==============================] - 0s 2ms/step - loss: 0.1169 - accuracy: 0.9570
Epoch 161/200
32/32 [==============================] - 0s 2ms/step - loss: 0.1125 - accuracy: 0.9580
Epoch 162/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1139 - accuracy: 0.9530
Epoch 163/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1749 - accuracy: 0.9370
Epoch 164/200
32/32 [==============================] - 0s 2ms/step - loss: 0.1100 - accuracy: 0.9600
Epoch 165/200
32/32 [==============================] - 0s 2ms/step - loss: 0.1480 - accuracy: 0.9450
Epoch 166/200
32/32 [==============================] - 0s 3ms/step - loss: 0.1062 - accuracy: 0.9570
Epoch 167/200
32/32 [==============================] - 0s 2ms/step - loss: 0.1491 - accuracy: 0.9440
Epoch 168/200
32/32 [==============================] - 0s 2ms/step - loss: 0.1154 - accuracy: 0.9520
Epoch 169/200
32/32 [==============================] - 0s 2ms/step - loss: 0.1075 - accuracy: 0.9610
Epoch 170/200
32/32 [==============================] - 0s 2ms/step - loss: 0.1511 - accuracy: 0.9410
Epoch 171/200
32/32 [==============================] - 0s 2ms/step - loss: 0.1551 - accuracy: 0.9330
Epoch 172/200
32/32 [==============================] - 0s 2ms/step - loss: 0.1508 - accuracy: 0.9390
Epoch 173/200
32/32 [==============================] - 0s 2ms/step - loss: 0.0923 - accuracy: 0.9750
Epoch 174/200
32/32 [==============================] - 0s 2ms/step - loss: 0.0870 - accuracy: 0.9670
Epoch 175/200
32/32 [==============================] - 0s 2ms/step - loss: 0.1109 - accuracy: 0.9490
Epoch 176/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1041 - accuracy: 0.9570
Epoch 177/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1019 - accuracy: 0.9610
Epoch 178/200
32/32 [==============================] - 0s 1ms/step - loss: 0.0977 - accuracy: 0.9610
Epoch 179/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1207 - accuracy: 0.9470
Epoch 180/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1131 - accuracy: 0.9570
Epoch 181/200
32/32 [==============================] - 0s 1ms/step - loss: 0.0856 - accuracy: 0.9700
Epoch 182/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1192 - accuracy: 0.9570
Epoch 183/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1744 - accuracy: 0.9290
Epoch 184/200
32/32 [==============================] - 0s 1ms/step - loss: 0.2110 - accuracy: 0.9190
Epoch 185/200
32/32 [==============================] - 0s 2ms/step - loss: 0.1636 - accuracy: 0.9370
Epoch 186/200
32/32 [==============================] - 0s 2ms/step - loss: 0.1383 - accuracy: 0.9510
Epoch 187/200
32/32 [==============================] - 0s 2ms/step - loss: 0.1556 - accuracy: 0.9390
Epoch 188/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1276 - accuracy: 0.9550
Epoch 189/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1192 - accuracy: 0.9530
Epoch 190/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1707 - accuracy: 0.9300
Epoch 191/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1270 - accuracy: 0.9520
Epoch 192/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1468 - accuracy: 0.9480
Epoch 193/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1314 - accuracy: 0.9420
Epoch 194/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1442 - accuracy: 0.9500
Epoch 195/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1327 - accuracy: 0.9470
Epoch 196/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1598 - accuracy: 0.9490
Epoch 197/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1036 - accuracy: 0.9670
Epoch 198/200
32/32 [==============================] - 0s 1ms/step - loss: 0.0972 - accuracy: 0.9640
Epoch 199/200
32/32 [==============================] - 0s 1ms/step - loss: 0.1224 - accuracy: 0.9590
Epoch 200/200
32/32 [==============================] - 0s 1ms/step - loss: 0.0991 - accuracy: 0.9650

In diesem Beispiel ist X die Designmatrix, y der Ergebnisvektor, und das Argument epochs gibt an, wie viele Epochen der Optimierer durchlaufen soll. Keras gibt den Fortschritt beim Optimieren an, es könnte so aussehen

Epoch 1/200
25/25 [==============================] - 0s 2ms/step - loss: 1.5984 - accuracy: 0.2438
Epoch 2/200
25/25 [==============================] - 0s 2ms/step - loss: 1.5709 - accuracy: 0.2763
Epoch 3/200
25/25 [==============================] - 0s 3ms/step - loss: 1.5550 - accuracy: 0.3013

Hierbei kann man die aktuelle Epoche, den Batch (für stochastischen Gradientenabstieg) und die aktuelle Genauigkeit der Trainingsdaten sehen. In diesem Beispiel werden alle Epochen bis zum Abschluss ausgeführt, daher sehen wir 32/32 für Batches, aber normalerweise kann man die Batch-Nummer sehen, die sich während des Trainings fortschreitet. Dieses Beispiel funktioniert sehr schnell, Keras meldet 2 ms pro Schritt (Batch) und die Gesamtzeit für die Epoche ist zu gering, um gemeldet zu werden. Aber eine einzelne Epoche kann bei komplexeren Modellen und mehr Daten viele Minuten dauern.

Achtung: Batchqualität vs. Modellqualität

Die Modellqualität (hier Genauigkeit) wird für eine einzelne Batch berechnet und gibt nur eine grobe Richtlinie für die tatsächliche Modellgenauigkeit, auch auf Trainingsdaten. Nehmen Sie diese Genauigkeitsmessung nicht zu ernst!

Achtung: Modelle fertig trainieren

Keras ermöglicht es Ihnen, Vorhersagen mit einem Modell zu treffen, das nicht angepasst ist (im Gegensatz zu scikit-learn, wo das einen Fehler verursacht). Die Ergebnisse werden bestenfalls mittelmäßig aussehen.

Vorhersagen und Plotten¶

Wenn die Anpassung abgeschlossen ist, können wir das Modell für Vorhersagen verwenden. Die Vorhersage funktioniert ähnlich wie in sklearn, nur dass die predict-Methode die Wahrscheinlichkeit vorhersagt, nicht die Kategorie (analog zu sklearn's predict_proba).

In [20]:
phat = model.predict(X_test)
8/8 [==============================] - 0s 743us/step

In diesem Beispiel handelt es sich um eine Matrix mit 5 Spalten, wobei jede Spalte die Wahrscheinlichkeit darstellt, dass der Datenpunkt zur entsprechenden Kategorie gehört. Beispielsweise könnten Zeilen von phat so aussehen:

In [21]:
phat[:5]
Out[21]:
array([[0.0000000e+00, 2.4446578e-15, 9.9729091e-01, 2.7083708e-03,
        7.3157184e-07],
       [3.4020368e-02, 9.6581239e-01, 1.6727351e-04, 3.7393101e-16,
        1.6382640e-31],
       [9.9995685e-01, 4.3128934e-05, 1.9298244e-12, 9.5705135e-26,
        0.0000000e+00],
       [9.9996841e-01, 3.1579577e-05, 2.5123959e-15, 2.9620931e-34,
        0.0000000e+00],
       [9.9999928e-01, 7.6248858e-07, 1.4865363e-16, 1.4017707e-32,
        0.0000000e+00]], dtype=float32)

Wir sehen, dass für jedes Test-Fall eine Wahrscheinlichkeit für jede Kategorie angegeben ist. Als nächstes wollen wir mit np.argmax(phat, axis=-1) die Spalte (Kategorie) finden, mit der höchsten Wahrscheinlichkeit. Es findet einfach die Position der größten Elemente im Array entlang der letzten Achse (axis=-1), d.h. Spalten. Für jede Zeile finden wir also die entsprechende Spaltennummer. Beachten Sie, dass np.argmax die Spalten ab 0 zählt, nicht ab 1:

In [22]:
yhat = np.argmax(phat, axis=-1)
yhat[:5]
Out[22]:
array([2, 1, 0, 0, 0])

Endlich können wir die Verwirrungsmatrix mit pd.crosstab berechnen und die Genauigkeit berechnen:

In [23]:
from sklearn.metrics import confusion_matrix

print("confusion matrix:\n", confusion_matrix(y_test, yhat))
print("Accuracy (on training data):", np.mean(y_test == yhat))
confusion matrix:
 [[54  0  0  0  0]
 [ 3 29  2  0  0]
 [ 0  2 67  1  0]
 [ 0  0  2 36  0]
 [ 0  0  0  0 54]]
Accuracy (on training data): 0.96

In diesem Beispiel machen wir Vorhersagen auf Trainingsdaten, aber wir können natürlich auch einen anderen Datensatz für Vorhersagen auswählen. Da der vorhergesagte Wert eine Wahrscheinlichkeitsmatrix mit 5 Spalten sein wird, berechnen wir yhat als die Spaltennummer, die die größte Wahrscheinlichkeit für jede Zeile enthält.

Wie man sehen kann, ist die Verwirrungsmatrix fast ausschließlich auf der Hauptdiagonalen besetzt, und die Genauigkeit ist hoch.

Schließlich müssen wir, wenn wir ein ähnliches Diagramm wie oben erstellen möchten, die DBPlot-Funktion anpassen, um zu berücksichtigen, dass Keras-Modelle nur Wahrscheinlichkeiten vorhersagen.

In [24]:
def DBPlot(m, X, y, nGrid = 300):
    x1_min, x1_max = X[:, 0].min() - 1, X[:, 0].max() + 1
    x2_min, x2_max = X[:, 1].min() - 1, X[:, 1].max() + 1
    xx1, xx2 = np.meshgrid(np.linspace(x1_min, x1_max, nGrid), 
                           np.linspace(x2_min, x2_max, nGrid))
    XX = np.column_stack((xx1.ravel(), xx2.ravel()))
    ## predict probability
    phat = m.predict(XX, verbose=0)
    ## find the column that corresponds to the maximum probability
    hatyy = np.argmax(phat, axis=-1).reshape(xx1.shape)
    fig = px.imshow(hatyy, width=600, height=600)
    fig.add_scatter(x=X[:,0]/(x1_max-x1_min)*nGrid+nGrid/2, y=X[:,1]/(x2_max-x2_min)*nGrid+nGrid/2, mode="markers", 
                    marker=dict(color=[mcolors[i] for i in y]), marker_line=dict(width=.3, color="black"))
    fig.update_coloraxes(showscale=False)
    fig.update_layout(showlegend=False)
    fig.show()
In [25]:
DBPlot(model, X_test, y_test)

Noch einmal, die Funktion ist fast identisch mit der sklearn Version, außer der Zeile, die np.argmax(phat, axis=-1) enthält, die die vorhergesagten Wahrscheinlichkeiten in Kategorien umwandelt.

f  r  a  g  e  n  ?