Wann ist generative KI „gut“ — und wann „gut genug“?

Das Potenzial von Werkzeugen wie ChatGPT oder Midjourney erscheint angesichts von Ergebnissen erstaunlicher Qualität unermesslich! In der Tat können wir davon ausgehen, dass (generative) künstliche Intelligenz (KI) großen Einfluss auf viele Bereiche unseres Lebens haben wird. Gleichzeitig müssen wir aber daran erinnern, dass auch diese Technologie nicht alle Probleme der Welt lösen kann. Dafür ist die bis heute nicht hinreichend präzise Erkennung KI-generierter Inhalte durch künstliche Intelligenz selbst nur ein Beispiel von vielen – und es gibt auch (noch) keine Apps, die Aktienkurse vorhersagen können.

Eine Frage des Erwartungsmanagements

Angezeigt erscheint ein realistisches Erwartungsmanagement: KI-basierte Anwendungen kann man nicht einfach als „korrekt“ oder „inkorrekt“ bezeichnen, wie das für klassische algorithmische Software der Fall ist. Das liegt u. a. daran, dass wir KI, genauer Maschinenlernen, gerade für solche Probleme verwenden, die wir nicht präzise beschreiben können: Wie beschreibt man für ein Erkennungssystem für Fußgänger explizit, was genau einen Fußgänger ausmacht? Könnten wir Probleme dieser Art präzise beschreiben, wäre Maschinenlernen in der Regel gar nicht die erste Wahl für ihre Lösung. Anstelle von kategorischen Aussagen zur Korrektheit – funktioniert oder funktioniert nicht – können wir graduelle Aussagen treffen, vereinfacht gesagt: funktioniert vermutlich in 80 Prozent der Fälle. Halluzinationen von großen Sprachmodellen sind Beispiele für die fehlenden 20 Prozent, die nicht funktionieren. Aber wann genau ist etwas eine Halluzination? Gibt es Abstufungen von problematischen und unproblematischen Halluzinationen und hängt das von dem Prompt und Anwendungskontext ab?

Wo liegt der Referenzmaßstab?

Wenn wir als Gesellschaft die Chancen der (generativen) KI nutzen wollen, müssen wir verstehen, was es bedeutet, dass eine KI – im qualitativen, nicht ethischen – Sinn „gut“ ist. Wann ist sie „gut genug“ und was ist die Referenz? Ist dieser Vergleichsmaßstab ein durchschnittlicher oder ein in seinem Fachgebiet herausragender Mensch? Wir werden uns als Gesellschaft einigen müssen, welches Kosten-Nutzen-Verhältnis angesichts zu erwartender nicht perfekter Qualität für uns in welchem Kontext akzeptabel ist. Plakativ gesagt: Ist es akzeptabel, dass ein KI-basierter Lernassistent vielleicht 15 Prozent faktisch falsche Informationen liefert? Wie oft irren Lehrende an der Schule oder Hochschule? Und wenn Lernende gar keine andere Möglichkeit haben, Fragen zum Lernstoff mit einem Menschen zu diskutieren, dürfen wir ihnen dann diese Möglichkeit auch angesichts manchmal falscher Inhalte vorenthalten? Hier sind schwierige ethische Diskussionen zu führen, die über reines Nutzendenken hinausgehen.

Forschungsschwerpunkt

Mensch und generative künstliche Intelligenz: Trust in Co-Creation


Generative KI als Assistenzwerkzeug

Als Gesellschaft verstehen wir immer besser, wo wir generative KI gewinnbringend einsetzen können. Es ist davon auszugehen, dass diese Werkzeuge auf absehbare Zeit Assistenten bleiben werden, uns also in den meisten Fällen nicht ersetzen. Die Interaktion mit der generativen KI kann als solche einen Mehrwert bieten, etwa im Fall der Lernassistenten. Hier ist der Prozess wichtiger als das Produkt. Es gibt auch den Fall, dass in der Interaktion mit der generativen KI ein Produkt entsteht, das als solches den Mehrwert darstellt. Das kann ein Newsletter sein, eine Dokumentation oder Code. Die Qualität der Prompts bzw. der Interaktion entscheidet dabei über die Qualität der Ergebnisse. Dann stellt sich die Frage, wann das Prompten und die Überprüfung der (Zwischen-)Ergebnisse weniger zeit- und/oder qualifikationsintensiv durchgeführt werden können als bei einem rein manuellen Vorgehen.

Schaffen und Überprüfen eng verzahnt

Wie Kleist in seinem Aufsatz zur allmählichen Verfertigung von Gedanken beim Reden beobachtete, benötigen manche Menschen den Prozess der Entwicklung von Gedanken oder Produkten in kleinen Schritten zur Entfaltung von Kreativität. Denn es erscheint nicht so einfach, einem Werkzeug wie ChatGPT auf einen Schlag einen umfassenden Prompt anzubieten, aus dem das gewünschte Artefakt in einem Schritt per Knopfdruck entsteht. Stattdessen entsteht der Prompt beim Denken – oder wir denken beim Prompten. Als Menschen schaffen wir also in einem kleinen Schritt einen Teil des Ergebnisses, die Maschine einen weiteren Teil, den wir überprüfen – und dann beginnen wir mit dem nächsten Schritt. In der Verzahnung von schaffenden und überprüfenden Schritten werden wir sehen, ob die direkte Erstellung des Produkts manchmal nicht doch der schnellere Weg ist. Die Beantwortung dieser Frage hängt stark vom Kontext ab, in dem die generative KI eingesetzt wird. In jedem Fall wird Urteilsfähigkeit zu einer zunehmend kritischen Qualifikation.

Wir werden lernen, was dies für Berufsbilder, für die Ausbildung, für die Erstellung und Wahrnehmung medialer Inhalte und für das Wesen der Demokratie bedeutet. Hier gestaltend tätig zu werden, liegt im Kern der Digitalisierung, liegt in der Überlappung von Technik und Gesellschaft, liegt im Kern der Aktivitäten des bidt. Wir freuen uns darauf, die digitale Transformation auch in diesem Bereich zu verstehen und Zukunft im Dialog zu gestalten!

Dieser Beitrag ist im bidt Magazin erschienen.


autor

Prof. Dr. Alexander Pretschner
Vorsitzender im bidt-Direktorium und Mitglied im Geschäftsleitenden Ausschuss | Professor für Software & Systems Engineering, Technische Universität München & Vorsitzender des wissenschaftlichen Direktoriums, fortiss


Zum Profil

Der Beitrag Wann ist generative KI „gut“ — und wann „gut genug“? erschien zuerst auf bidt DE.