26 Grundlagen großer Sprachmodelle

26.1 Einführung

Large Language Models (LLMs) sind eine Klasse neuronaler Netzwerke, die auf großen Textkorpora trainiert werden, um Sprache zu verstehen, zu verarbeiten und zu generieren. Diese Modelle basieren auf der Transformer-Architektur und nutzen Self-Attention sowie tiefe neuronale Netze, um komplexe sprachliche Zusammenhänge zu erfassen.

Durch Fortschritte in Rechenleistung, Datenverfügbarkeit und Optimierungstechniken haben LLMs in den letzten Jahren erhebliche Verbesserungen erzielt und bilden die Grundlage für Anwendungen wie Chatbots, maschinelle Übersetzung und Textgenerierung.

26.2 Architektur großer Sprachmodelle

26.2.1 Transformer als Basis

Die meisten modernen LLMs basieren auf Transformern, einer Architektur, die durch das Paper „Attention Is All You Need“ (2017) eingeführt wurde.

🔹 Wichtige Komponenten eines LLMs: - Tokenisierung: Zerlegt Text in kleinere Einheiten (z. B. Wörter oder Subwörter). - Embeddings: Wandelt Token in d-dimensionale Vektoren um. - Mehrere Transformer-Schichten: Bestehen aus Self-Attention und Feedforward-Netzwerken. - Decoder- oder Encoder-Decoder-Struktur: Modelle wie GPT verwenden nur Decoder, während BERT ein Encoder-Modell ist.

📌 Beispielhafte Architektur eines LLMs (GPT-4): - Basiert auf mehreren Transformer-Decodern - Nutzt Positionsembeddings, um Sequenzinformationen zu bewahren - Optimiert durch Techniken wie Layer Normalization und Residual Connections

26.2.2 Self-Attention und Kontextverständnis

Der Self-Attention-Mechanismus ist entscheidend für die Fähigkeit von LLMs, komplexe sprachliche Abhängigkeiten zu erfassen.

Attention(Q, K, V) = softmax((QKᵀ) / √dₖ) ⋅ V

Q (Query), K (Key) und V (Value) ermöglichen eine flexible Gewichtung der Wörter im Kontext.
Ermöglicht es, langfristige Abhängigkeiten zu modellieren (z. B. Bezug von Pronomen auf frühere Substantive).
Mehrere Attention-Heads erfassen verschiedene Aspekte der Sprachstruktur.

📌 Vorteil: LLMs können globalen Kontext berücksichtigen und Sprache flexibler generieren als klassische NLP-Modelle.

26.3 Skalierung großer Sprachmodelle

26.3.1 Skalierungsgesetze (Scaling Laws)

Forschungen, insbesondere von OpenAI und DeepMind, haben gezeigt, dass LLMs mit steigender Modellgröße, Datenmenge und Rechenleistung immer leistungsfähiger werden.

🔹 Beispiele für Skalierungsparameter: - Modellgröße: Anzahl der Parameter (z. B. GPT-3 mit 175 Milliarden Parametern). - Trainingsdaten: Vielfältigkeit und Qualität der verwendeten Textkorpora. - Rechenleistung: Anzahl der FLOPs (Floating-Point Operations) während des Trainings.

📌 Schlüsselerkenntnis: - Die Leistung von LLMs wächst logarithmisch mit der Modellgröße. - Zu große Modelle übersättigen und benötigen optimierte Architekturansätze, um effizienter zu arbeiten.

26.3.2 Datenquellen und Vortraining

LLMs werden mit Milliarden von Token aus verschiedenen Quellen trainiert: - Webseiten (Common Crawl, Wikipedia) → Allgemeines Sprachverständnis - Bücher & wissenschaftliche Artikel → Hochwertiger Kontext - Code-Datenbanken (z. B. GitHub für Codex) → Programmierfähigkeiten

📌 Beispielhafte Datenmengen für GPT-3: - Trainingsset: ca. 45 Terabyte Text - Enthält mehrere hundert Milliarden Token

26.4 Typen großer Sprachmodelle

26.4.1 Autoencoder-Modelle (z. B. BERT, T5)

Ziel: Verstehen von Sprache, nicht primär Generierung.
Technik: Masked Language Modeling (MLM), bei dem zufällig maskierte Wörter rekonstruiert werden.
Anwendung: Suchmaschinen, Textklassifikation, Named Entity Recognition (NER).

📌 Beispiel:
BERT sieht den Satz:
„Die [MASK] fährt auf der Straße.“
und soll erraten: „Die Katze fährt auf der Straße.“

26.4.2 Autoregressive Modelle (z. B. GPT-Serie, LLaMA)

Ziel: Textgenerierung, indem Wörter sequentiell vorhergesagt werden.
Technik: Causal Language Modeling (CLM), bei dem nur vorherige Token genutzt werden.
Anwendung: Chatbots, kreative Textgenerierung, Programmcode-Vervollständigung.

📌 Beispiel:
Eingabe: „Die Zukunft der KI ist…“
Ausgabe: „…eine der spannendsten Entwicklungen der modernen Wissenschaft.“

26.4.3 Encoder-Decoder-Modelle (z. B. T5, BART)

Ziel: Transformation von Eingabetext in ein anderes Format.
Technik: Kombination aus Encoder (BERT-ähnlich) und Decoder (GPT-ähnlich).
Anwendung: Maschinelle Übersetzung, Textzusammenfassung, Frage-Antwort-Systeme.

📌 Beispiel:
Eingabe: „Schreibe eine Zusammenfassung dieses Artikels.“
Ausgabe: „Dieser Artikel erklärt die Grundlagen von LLMs und ihre Funktionsweise.“

26.5 Herausforderungen großer Sprachmodelle

Trotz ihrer beeindruckenden Fähigkeiten gibt es wesentliche Herausforderungen:

Hoher Rechenaufwand
- Training von GPT-4 kostete Millionen GPU-Stunden.
- Massive CO₂-Emissionen durch Rechenzentren.
Datenverzerrung (Bias)
- LLMs erben Vorurteile aus Trainingsdaten.
- Beispiel: Diskriminierende Muster in historischen Texten.
Halluzinationen
- Modelle generieren manchmal realistisch klingende, aber falsche Informationen.
- Besonders problematisch in medizinischen und rechtlichen Anwendungen.
Interpretierbarkeit
- Warum ein Modell eine bestimmte Antwort generiert, ist schwer nachzuvollziehen.
- Forschung an Explainable AI (XAI) zur besseren Transparenz.

Large Language Models (LLMs) haben die Sprachverarbeitung revolutioniert und ermöglichen leistungsfähige KI-Anwendungen in vielen Bereichen. Ihre Architektur basiert auf Transformern, die Self-Attention und tiefe neuronale Netze kombinieren, um komplexe Muster zu erfassen.

📌 Schlüsselerkenntnisse:
✅ LLMs skalieren mit Modellgröße, Daten und Rechenleistung.
✅ Sie können Texte verstehen, generieren, übersetzen und analysieren.
✅ Autoregressive Modelle (GPT), Autoencoder (BERT) und Encoder-Decoder-Modelle (T5) haben unterschiedliche Stärken.
✅ Herausforderungen sind Rechenaufwand, Bias, Halluzinationen und mangelnde Interpretierbarkeit.

➡ Die Zukunft großer Sprachmodelle liegt in effizienteren Architekturen, besseren Datenstrategien und sichereren Anwendungen.