19 Rekurrente neuronale Netze (RNNs) und Long Short-Term Memory (LSTM)

19.1 Einführung

Rekurrente neuronale Netze (RNNs) sind eine spezielle Architektur neuronaler Netze, die für sequenzielle Daten entwickelt wurden. Im Gegensatz zu Feedforward-Netzen können RNNs Informationen aus vorherigen Zeitschritten speichern und somit zeitliche Abhängigkeiten in Daten erfassen. Dies macht sie besonders geeignet für Anwendungen wie Sprachverarbeitung, Zeitreihenanalyse und maschinelle Übersetzung.


19.2 Architektur eines RNN

Ein klassisches neuronales Netz verarbeitet jede Eingabe unabhängig. Ein RNN hingegen besitzt rekurrente Verbindungen, die es ermöglichen, Informationen über vorherige Zustände zu speichern.

19.2.1 Mathematische Darstellung

Ein RNN verarbeitet eine Sequenz von Eingaben xₜ und gibt einen versteckten Zustand hₜ aus:

hₜ = f(Wₕ ⋅ hₜ₋₁ + Wₓ ⋅ xₜ + b)

yₜ = g(Wᵧ ⋅ hₜ + bᵧ)

Dabei sind: - xₜ: Eingabe zum Zeitpunkt t - hₜ: Versteckter Zustand zum Zeitpunkt t - yₜ: Ausgabe des RNN - Wₓ, Wₕ, Wᵧ: Gewichtsmatrizen - b, bᵧ: Bias-Terme - f(⋅): Aktivierungsfunktion (meist tanh) - g(⋅): Ausgabeaktivierung (z. B. Softmax)

19.2.2 Probleme klassischer RNNs

  1. Vanishing Gradient Problem
  2. Exploding Gradient Problem
  3. Kurzzeitgedächtnis

19.3 Long Short-Term Memory (LSTM)

Um das Vanishing Gradient Problem zu lösen, wurden Long Short-Term Memory (LSTM)-Netzwerke entwickelt. Sie enthalten eine verbesserte Speicherstruktur, die das Lernen langfristiger Abhängigkeiten ermöglicht.

19.3.1 Architektur eines LSTM

Ein LSTM besitzt drei Tore:

  1. Vergessen-Tor fₜ: Entscheidet, welche Informationen verworfen werden.
    fₜ = σ(W𝒻 ⋅ [hₜ₋₁, xₜ] + b𝒻)

  2. Eingabe-Tor iₜ: Entscheidet, welche neuen Informationen gespeichert werden.
    iₜ = σ(Wᵢ ⋅ [hₜ₋₁, xₜ] + bᵢ)

  3. Ausgabe-Tor oₜ: Bestimmt, welche Informationen an den nächsten Zeitschritt weitergegeben werden.
    oₜ = σ(Wₒ ⋅ [hₜ₋₁, xₜ] + bₒ)

  4. Zellzustand Cₜ: Speichert die langfristigen Informationen.
    Cₜ = fₜ ⋅ Cₜ₋₁ + iₜ ⋅ C̃ₜ

  5. Versteckter Zustand hₜ: Die endgültige Ausgabe des LSTM für diesen Zeitschritt.
    hₜ = oₜ ⋅ tanh(Cₜ)

19.3.2 Vorteile von LSTM

Langzeitgedächtnis: Speichert Informationen über lange Zeiträume.
Reduziert das Vanishing-Gradient-Problem: Stabileres Training für lange Sequenzen.
Flexibilität: Geeignet für NLP, Zeitreihenanalysen und Musikgenerierung.


19.4 Anwendungen von RNNs und LSTMs

📌 Sprachverarbeitung (NLP) → Maschinelle Übersetzung, Chatbots
📌 Zeitreihenanalyse → Finanzmarktprognosen, Wettervorhersagen
📌 Spracherkennung → Speech-to-Text-Systeme
📌 Musik- und Textgenerierung → KI-gesteuerte kreative Prozesse