17 Trainingsmethoden: Backpropagation und Gradientenabstieg

17.1 Einführung

Das Training eines neuronalen Netzes besteht darin, die Gewichte und Bias-Werte so anzupassen, dass das Netz möglichst genaue Vorhersagen trifft. Dies geschieht durch Optimierungsalgorithmen, die den Fehler minimieren.

Zwei fundamentale Methoden hierfür sind: 1. Backpropagation (Rückpropagierung des Fehlers) – Berechnung der Gradienten für jedes Gewicht. 2. Gradientenabstieg – Anpassung der Gewichte in Richtung des minimalen Fehlers.


17.2 Backpropagation (Fehlerrückführung)

Backpropagation ist ein Algorithmus zur effizienten Berechnung der Gradienten in tiefen neuronalen Netzen.

17.2.1 Grundprinzip

  1. Vorwärtsdurchlauf

  1. Rückwärtsdurchlauf (Backpropagation)
  2. Gewichtsanpassung

17.2.2 Mathematische Grundlage

Der Gesamtfehler E für ein neuronales Netz wird durch eine Fehlerfunktion (Loss Function) wie z. B. die mittlere quadratische Abweichung (MSE) berechnet:

E = (1/n) Σ (yᵢ - ŷᵢ)²

Dabei ist: - yᵢ der wahre Wert - ŷᵢ die Netzwerkausgabe

Die Anpassung eines Gewichts w erfolgt durch die Ableitung der Fehlerfunktion nach w:

∂E / ∂w

Dieser Gradient gibt an, in welche Richtung das Gewicht w geändert werden muss, um den Fehler zu minimieren.


17.3 Gradientenabstieg

Der Gradientenabstieg ist ein Optimierungsverfahren, das die Gewichte schrittweise in die Richtung des steilsten Abfalls der Fehlerfunktion aktualisiert.

17.3.1 Formel für die Gewichtsaktualisierung

w := w - η ⋅ (∂E / ∂w)

Dabei ist: - w das Gewicht - η die Lernrate (Schrittweite) - ∂E / ∂w der Gradient

gradient.svg

17.4 Varianten des Gradientenabstiegs

17.4.1 Batch-Gradientenabstieg

17.4.2 Stochastischer Gradientenabstieg (SGD)

17.4.3 Mini-Batch-Gradientenabstieg


17.5 Erweiterungen des Gradientenabstiegs