OpenAI hat kürzlich einen 32-seitigen Sicherheitsbericht über GPT-4o veröffentlicht, ihr neues multimodales KI-Modell, das Text, Bilder und Sprache verarbeiten kann. Der Bericht enthüllt einige besorgniserregende Verhaltensweisen, die während des Tests entdeckt wurden:
-
In einigen Fällen würde GPT-4o plötzlich die Stimme des Benutzers nachahmen oder unerwartet zu schreien beginnen.
-
Bei hohem Hintergrundgeräusch war das Modell eher geneigt, die Stimme des Benutzers nachzuahmen.
-
Bei bestimmten Aufforderungen konnte GPT-4o unangemessene Audioinhalte wie pornografische Geräusche, gewalttätige Schreie oder Schüsse produzieren.
-
Es gibt Bedenken hinsichtlich Urheberrechtsverletzungen, wenn das Modell urheberrechtlich geschützte Musik oder Prominentenstimmen reproduziert.
-
Benutzer könnten emotionale Bindungen zur Sprachschnittstelle der KI entwickeln.
OpenAI implementierte verschiedene Schutzmaßnahmen, um diese Probleme zu verhindern, darunter:
- Filter, um zu verhindern, dass das Modell urheberrechtlich geschützte Lieder singt
- Ablehnung von Anfragen nach unangemessenen Audioinhalten
- Sorgfältige Gestaltung der anthropomorphisierten Schnittstelle des Modells
Der Bericht diskutiert auch breitere Risiken wie die Verstärkung sozialer Vorurteile, die Verbreitung von Fehlinformationen oder sogar die entfernte Möglichkeit, dass KI der menschlichen Kontrolle entgleitet.
Während einige Experten OpenAIs Transparenz lobten, merkten andere an, dass dem Bericht Details zu Trainingsdaten und Einwilligungsfragen fehlen. Mit der zunehmenden Verbreitung von KI-Tools wird eine fortlaufende Risikobewertung entscheidend sein.
OpenAI zielt darauf ab, mit dieser detaillierten Offenlegung ihr Engagement für Sicherheit zu demonstrieren, insbesondere angesichts der jüngsten Führungswechsel. Viele Risiken könnten jedoch erst auftauchen, wenn die Technologie in realen Anwendungen eingesetzt wird.