19 Rekurrente neuronale Netze (RNNs) und Long Short-Term Memory (LSTM)

19.1 Einführung

Rekurrente neuronale Netze (RNNs) sind eine spezielle Architektur neuronaler Netze, die für sequenzielle Daten entwickelt wurden. Im Gegensatz zu Feedforward-Netzen können RNNs Informationen aus vorherigen Zeitschritten speichern und somit zeitliche Abhängigkeiten in Daten erfassen. Dies macht sie besonders geeignet für Anwendungen wie Sprachverarbeitung, Zeitreihenanalyse und maschinelle Übersetzung.

19.2 Architektur eines RNN

Ein klassisches neuronales Netz verarbeitet jede Eingabe unabhängig. Ein RNN hingegen besitzt rekurrente Verbindungen, die es ermöglichen, Informationen über vorherige Zustände zu speichern.

19.2.1 Mathematische Darstellung

Ein RNN verarbeitet eine Sequenz von Eingaben xₜ und gibt einen versteckten Zustand hₜ aus:

hₜ = f(Wₕ ⋅ hₜ₋₁ + Wₓ ⋅ xₜ + b)

yₜ = g(Wᵧ ⋅ hₜ + bᵧ)

Dabei sind: - xₜ: Eingabe zum Zeitpunkt t - hₜ: Versteckter Zustand zum Zeitpunkt t - yₜ: Ausgabe des RNN - Wₓ, Wₕ, Wᵧ: Gewichtsmatrizen - b, bᵧ: Bias-Terme - f(⋅): Aktivierungsfunktion (meist tanh) - g(⋅): Ausgabeaktivierung (z. B. Softmax)

19.2.2 Probleme klassischer RNNs

Vanishing Gradient Problem
- Bei langen Sequenzen werden die Gradienten während des Trainings immer kleiner, sodass frühere Informationen kaum noch berücksichtigt werden.
Exploding Gradient Problem
- Falls die Gradienten zu groß werden, kann das Training instabil werden.
Kurzzeitgedächtnis
- Klassische RNNs haben Schwierigkeiten, Informationen über viele Zeitschritte hinweg zu speichern.

19.3 Long Short-Term Memory (LSTM)

Um das Vanishing Gradient Problem zu lösen, wurden Long Short-Term Memory (LSTM)-Netzwerke entwickelt. Sie enthalten eine verbesserte Speicherstruktur, die das Lernen langfristiger Abhängigkeiten ermöglicht.

19.3.1 Architektur eines LSTM

Ein LSTM besitzt drei Tore:

Vergessen-Tor fₜ: Entscheidet, welche Informationen verworfen werden.
fₜ = σ(W𝒻 ⋅ [hₜ₋₁, xₜ] + b𝒻)
Eingabe-Tor iₜ: Entscheidet, welche neuen Informationen gespeichert werden.
iₜ = σ(Wᵢ ⋅ [hₜ₋₁, xₜ] + bᵢ)
Ausgabe-Tor oₜ: Bestimmt, welche Informationen an den nächsten Zeitschritt weitergegeben werden.
oₜ = σ(Wₒ ⋅ [hₜ₋₁, xₜ] + bₒ)
Zellzustand Cₜ: Speichert die langfristigen Informationen.
Cₜ = fₜ ⋅ Cₜ₋₁ + iₜ ⋅ C̃ₜ
Versteckter Zustand hₜ: Die endgültige Ausgabe des LSTM für diesen Zeitschritt.
hₜ = oₜ ⋅ tanh(Cₜ)

19.3.2 Vorteile von LSTM

✅ Langzeitgedächtnis: Speichert Informationen über lange Zeiträume.
✅ Reduziert das Vanishing-Gradient-Problem: Stabileres Training für lange Sequenzen.
✅ Flexibilität: Geeignet für NLP, Zeitreihenanalysen und Musikgenerierung.

19.4 Anwendungen von RNNs und LSTMs

📌 Sprachverarbeitung (NLP) → Maschinelle Übersetzung, Chatbots
📌 Zeitreihenanalyse → Finanzmarktprognosen, Wettervorhersagen
📌 Spracherkennung → Speech-to-Text-Systeme
📌 Musik- und Textgenerierung → KI-gesteuerte kreative Prozesse