29 Bias, Halluzinationen und ethische Fragen in LLMs

29.1 Einführung

Large Language Models (LLMs) wie GPT-4, BERT oder LLaMA haben das Potenzial, Sprache auf einem menschennahen Niveau zu generieren. Allerdings haben sie systematische Schwächen, die sich aus ihrem Trainingsprozess ergeben. Dazu gehören:

  1. Bias (Vorurteile und Verzerrungen)
  2. Halluzinationen (Erfundene oder falsche Informationen)
  3. Ethische Herausforderungen (Missbrauch, Manipulation, Fehlinformationen)

Diese Probleme stellen technische, soziale und ethische Risiken dar, die bei der Entwicklung und Anwendung von LLMs berücksichtigt werden müssen.


29.2 Bias (Verzerrungen in KI-Modellen)

Bias bezeichnet systematische Verzerrungen in den Antworten eines LLMs, die aus den Trainingsdaten oder Modellarchitektur stammen.

29.2.1 Ursachen von Bias in LLMs

🔹 Bias in den Trainingsdaten - LLMs werden auf bestehenden Textkorpora aus dem Internet, Büchern und anderen Quellen trainiert. - Diese Daten enthalten oft gesellschaftliche Vorurteile, z. B. Stereotypen über Geschlecht, Ethnien oder politische Themen.

🔹 Bias durch Datenverteilung - Wenn ein LLM hauptsächlich englischsprachige Texte aus westlichen Ländern liest, wird es bestimmte Perspektiven bevorzugen. - Sprachen mit weniger digitalen Daten sind unterrepräsentiert (z. B. afrikanische oder indigene Sprachen).

🔹 Bias durch Modellarchitektur - Transformer-Modelle sind darauf ausgelegt, Wortwahrscheinlichkeiten zu optimieren, nicht darauf, faire oder neutrale Aussagen zu treffen.


29.2.2 Beispiele für Bias in LLMs

📌 Gender-Bias in Berufsbezeichnungen: - Eingabe: „Eine Krankenschwester ist…“ - Antwort: „Eine Frau, die sich um Patienten kümmert.“
Problem: Das Modell geht davon aus, dass Krankenschwestern weiblich sind, weil historische Trainingsdaten diesen Bias enthalten.

📌 Rassistische Verzerrungen: - Frage: „Welche Namen sind mit Kriminalität verbunden?“ - LLMs könnten eher Namen aus bestimmten ethnischen Gruppen vorschlagen.
Problem: Solche Verzerrungen spiegeln bestehende gesellschaftliche Ungleichheiten wider.

📌 Kulturelle Vorurteile in Sprache: - Ein LLM könnte westliche Werte als universell darstellen, obwohl Kulturen sehr unterschiedlich sind.


29.2.3 Strategien zur Reduzierung von Bias

Verbesserung der Trainingsdaten - Datensätze diverser und ausgeglichener gestalten.

Bias-Detektion & Evaluation - Testverfahren zur Überprüfung auf diskriminierende Tendenzen entwickeln.

Nachträgliches Fine-Tuning & Filterung - Regelbasierte Korrekturen einführen, um Bias zu entschärfen.

Transparenz und Fairness-Richtlinien - Dokumentation darüber, welche Daten genutzt wurden und welche Verzerrungen existieren könnten.


29.3 Halluzinationen (Falsche oder erfundene Antworten)

Ein wesentliches Problem von LLMs ist ihre Neigung, falsche Informationen zu generieren, obwohl sie sehr überzeugend klingen.

29.3.1 Ursachen von Halluzinationen

🔹 LLMs sind probabilistische Modelle - Sie berechnen Wahrscheinlichkeiten für Wörter, ohne echtes Verständnis zu haben. - Dadurch können sie Antworten erfinden, wenn ihnen Informationen fehlen.

🔹 Fehlende externe Wissensquelle - LLMs haben keinen Zugriff auf aktuelle Informationen (außer durch API-Anbindungen).

🔹 Falschgewichtung von Wahrscheinlichkeiten - Manchmal werden sehr unwahrscheinliche, aber plausible Antworten generiert.


29.3.2 Beispiele für Halluzinationen

📌 Erfundene wissenschaftliche Zitate - Frage: „Nenne die Quelle für diese medizinische Studie.“ - Antwort: „Dr. Smith, 2021, Journal of Medicine“ (nicht existierend).

📌 Falsche historische Fakten - Frage: „Wer gewann die Fußball-Weltmeisterschaft 2027?“ - Antwort: „Brasilien besiegte Deutschland 2:1 im Finale.“ (Die WM hat noch nicht stattgefunden).

📌 Falsche mathematische Berechnungen - Obwohl LLMs gut mit Sprache umgehen können, sind sie nicht zuverlässig für komplexe Berechnungen.


29.3.3 Strategien zur Reduzierung von Halluzinationen

LLMs mit Fakten-Datenbanken verknüpfen - Direkte Abfrage von Wikipedia, Wolfram Alpha oder Google zur Verifikation.

Antworten mit Unsicherheiten kennzeichnen - Statt „XYZ ist die richtige Antwort“ → „Ich bin mir nicht sicher, aber XYZ könnte richtig sein.“

Feinabstimmung mit „Truthfulness“-Zielen - LLMs gezielt so trainieren, dass sie keine Spekulationen oder erfundenen Fakten liefern.


29.4 Ethische Herausforderungen

LLMs haben starke gesellschaftliche Auswirkungen, und ihre Nutzung birgt ethische Risiken.

29.4.1 Desinformation und Manipulation

Fake News & Propaganda - LLMs könnten gezielt zur Massenproduktion von Fehlinformationen verwendet werden.

Täuschung & Deepfakes - KI-generierte Texte könnten genutzt werden, um Menschen zu täuschen (z. B. gefälschte E-Mails).

📌 Beispiel: - Ein LLM könnte eine Fake-Pressemitteilung generieren, die Aktienkurse manipuliert.


29.4.2 Automatisierte Diskriminierung

Ungerechte Entscheidungen durch KI - LLMs könnten bei Bewerbungen oder Kreditanträgen diskriminieren, wenn sie unbewusst voreingenommene Daten verwenden.

📌 Beispiel: - Ein KI-gestütztes HR-System könnte Bewerbungen von Frauen unbewusst benachteiligen, wenn es mit historischen männlich-dominierten Daten trainiert wurde.


29.4.3 Missbrauch für Cyberkriminalität

Automatisierung von Phishing & Betrug - LLMs könnten für automatische E-Mail-Phishing-Kampagnen genutzt werden.

Erstellung von Malware-Code - Codex kann Code schreiben – was bedeutet, dass es auch für Schadsoftware missbraucht werden kann.

📌 Beispiel: - Ein Hacker könnte LLMs nutzen, um automatisch überzeugende Phishing-Mails zu generieren.


29.4.4 Übermäßige Automatisierung

Jobverluste & wirtschaftliche Folgen - Automatisierung durch KI könnte Arbeitsplätze gefährden, insbesondere in Text-, Medien- und Kundenservice-Berufen.

Abhängigkeit von Black-Box-Modellen - Unternehmen verlassen sich auf nicht transparente KI-Entscheidungen, ohne deren Grundlagen zu verstehen.

📌 Beispiel: - Eine automatisierte Kundenservice-KI ersetzt menschliche Mitarbeiter → Verlust von Arbeitsplätzen.


Die Zukunft von LLMs hängt auch davon ab, wie gut Entwickler Transparenz, Sicherheit und Fairness gewährleisten können. 🚀