Die richtigen Fragen stellen: Tipps für bessere KI-Antworten

Mit der generativen Künstlichen Intelligenz (GenAI) wurde das Wort Prompt in unseren Sprachgebrauch eingeführt. Wörtlich übersetzten lässt es sich mit „Eingabeaufforderung“ und beschreibt die Interaktion mit sprachbasierter GenAI. Im Bereich Prompt Engineering wird viel geforscht, es ist fast unmöglich, jede Entwicklung zu verfolgen. Welches Modell ist für welche Aufgabe geeignet? Was ist Zero- und Few-Shot-Prompting? Sind meine geteilten Informationen nun sicher oder nicht?

Ziel dieses Artikels ist es, einige Begriffe einzuordnen und allgemeine Vorgehensweisen vorzustellen, sowohl für tägliche Aufgaben als auch für Anwendungsfälle im professionellen Kontext.

Wie fange ich an?

Um gute Ergebnisse zu erzielen, gibt es einige Punkte, die man bei jeder Aufgabe beachten sollte:

1. Welche Aufgabe soll übernommen werden?

2. Welche Rolle soll das gewählte Sprachmodell einnehmen?

3. Wie soll der Output aussehen?

Diese Punkte können als Grundlage betrachtet werden, von der ausgehend der Prompt verfeinert werden kann. Wie bei fast allen geschriebenen Texten werden mehrere Runden von Anpassungen durchlaufen, bis das Optimum gefunden ist. Punkt 1 kann als Ausgangspunkt betrachtet werden: Um welche Aufgabe geht es?

Beispiel: Schreibe einen Beitrag zum Thema Prompting.

Bei Punkt 2 ist es sinnvoll, einige Details oder Kontext mitzugeben, d. h. Informationen über die Disziplin, in der das Thema bearbeitet wird. Welche Tonalität soll der Beitrag haben?

Beispiel: Du bist eine Wissenschaftlerin im Bereich generativer KI, die Erkenntnisse aus dem Prompt Engineering allgemeinverständlich darstellen kann.

Schließlich ist es wichtig, zu formulieren, wie man sich den Output vorstellt, um lange Antworten zu vermeiden, die sich wiederholen oder nicht konkret genug sind. Bei längeren Aufgaben kann es sinnvoll sein, diese in einzelne Abschnitte zu unterteilen.

Beispiel: Schreibe eine kurze Einleitung zum Thema Prompting.

Nun lässt sich weiterer Kontext zu dem Prompt hinzufügen; je mehr Informationen bereitgestellt werden, desto näher kommt man an das gewünschte Ergebnis heran. Für eine Einleitung reicht das schon fast, für einen ganzen Artikel noch nicht.

Muss ich nett sein zur generativen KI?

Das Gerücht, dass generative KI bessere Antworten liefert, wenn der Prompt höflich ist, hält sich hartnäckig; wissenschaftliche Belege dafür gibt es nicht. Für einzelne Modelle konnte gezeigt werden, dass unterschiedlich höfliche Prompts in Zusammenfassungen gleiche und in Übersetzungen in verschiedene Sprachen vergleichbare Ergebnisse liefern. Teilweise wurden die Antworten kürzer, wenn die Prompts unhöflicher wurden – das ist jedoch nicht per se ein Qualitätsmerkmal (Yin et al. 2024). Wichtig: Gerade neuere Modelle scheinen weniger durch Höflichkeit beeinflusst zu werden; außerdem war der unhöflichste Prompt in der Studie mit Beleidigungen versehen.

Solange man auf Beleidigungen verzichtet, müssen keine Höflichkeitsnormen aus der menschlichen Kommunikation verwendet werden.

Was ist Zero-, One- und Few-Shot-Prompting?

Nachdem das minimale Grundgerüst für einen Prompt festgelegt ist, stellt sich die Frage, wie man bessere Ergebnisse erzielen kann. Die Begriffe Zero-, One- oder Few-Shot-Prompting beschreiben, wie viele Beispiele dem Sprachmodell mit dem Prompt übermittelt werden. Der oben erstellte Prompt fällt in die Kategorie Zero-Shot, da kein Beispiel beigefügt wird. Insbesondere für komplexere Aufgaben kann es sich lohnen, ein oder mehrere Beispiele in den Prompt einzufügen. Ist es das Ziel, einen Beitrag zum Thema Prompting zu schreiben, könnte man beispielsweise eine Einleitung aus einem anderen Beitrag einfügen (One-Shot) oder mehrere Beispiele (Few-Shot). Denkbar ist das für jede Aufgabe. Soll zum Beispiel ein Datensatz mit Excel, R oder Python ausgewertet werden, gibt man genaue Beispiele, was bei einem bestimmten Input erwartet wird.

Beispiel: Erstelle eine neue Tabelle/Dataframe mit den Teilnehmenden, die besonders gute oder schlechte Noten hatten. Du bist eine Expertin für Datascience und schreibst Python-Code. Gib eine Funktion aus, die die Daten korrekt filtert. Hier ist ein Beispiel: Input ist ein Dictionary studentGrades = {’name‘: [Sophia, Marc, Ira, Anton], ‚Note‘: [2,3,1,6]}, Output ist das gefilterte Dictionary studentGrades = {’name‘: [Sophia, Ira, Anton], ‚Note‘: [2,1,6]}.

Für welche Aufgaben kann man LLMs nutzen?

Sprachmodelle versprechen, alle möglichen Aufgaben zu unterstützen. Je nach Aufgabe und Anwendungsfeld funktioniert das unterschiedlich gut. Grundsätzlich gilt: GenAI macht Fehler, die Verantwortung liegt beim Nutzenden, den Output auf Korrektheit zu überprüfen. Darüber hinaus werden bestimmte Aufgaben, z. B. das Erstellen von Texten, besser gelöst als andere, z. B. logisches Schlussfolgern. Das ist bedingt durch die Art der KI, die die wahrscheinlichste Kombination von Wörtern als Antwort ausgibt, ohne ein Verständnis des Inhalts zu haben. Einige Modelle sind für bestimmte Aufgaben besser geeignet, so haben unter anderem OpenAI, Mistral oder DeepSeek spezielle Modelle, die durch weiteres Training auf die Generierung von Programmcode spezialisiert sind. Möchte man also eine spezifische Aufgabe lösen, die über eine Textgenerierung hinausgeht, lohnt es sich, einige Modelle zu vergleichen. Nutzt man ChatGPT, DeepSeek und Co. online, sollte man sich bewusst sein, dass Daten außerhalb der EU weiterverarbeitet werden und ggf. auch zum Training neuer Modelle verwendet werden. Eine Ausnahme können API-Zugänge sein, Programmierschnittstellen, die nicht über eine Benutzeroberfläche genutzt werden und eine automatisierte Einbindung von GenAI ermöglichen. OpenAI verspricht beispielsweise, dass Daten, die über API auf die Server gelangen, nicht gespeichert oder für Trainingszwecke verwendet werden.

Kann man die Modelle lokal ausführen?

Modelle wie Llama und DeepSeek sind frei verfügbar und können theoretisch lokal ausgeführt werden. Das heißt, man lädt die Modelle auf den eigenen Rechner und führt sie dort aus, ohne Daten an einen Server zu senden. Auch wenn man häufig liest, dass keine teure Hardware benötigt wird, bedeutet das nicht, dass jedes Modell auf jedem Rechner laufen kann. Wichtig ist hier vor allem eine leistungsfähige Grafikkarte: Je mehr Parameter ein Modell hat, desto höher ist die benötigte Rechenkapazität. Kleinere Modelle gibt es z. B. von Llama (Meta); diese laufen auch auf einem Durchschnittsrechner, sind allerdings nicht so effektiv wie Modelle mit mehr Parametern. Wer es ausprobieren möchte, kann z. B. Ollama nutzen, um das Modell der Wahl lokal zu testen.

Was ist Chain of Thought Prompting?

Geht es darum, komplexere Aufgaben zu lösen, bei denen logische Schlussfolgerungen oder Abhängigkeiten eine Rolle spielen, kann man Chain of Thought (CoT) Prompting nutzen. Wörtlich übersetzt könnte es als Gedankenkette bezeichnet werden; inhaltlich orientiert sich diese Methode an der menschlichen Denkweise. Große Probleme werden in einzelne Schritte zerlegt, die einfacher zu lösen sind. Zunächst wurde nur die Aufforderung „Denke Schritt für Schritt“ zu den Prompts hinzugefügt; inzwischen werden die Schritte teilweise selbst im Prompt angelegt.

Beispiel: Erstelle ein Drei-Gänge-Menü für 15 Personen sowie eine Einkaufsliste. Du bist Hobbykoch und lädst gerne Freunde ein, um sie zu bekochen. Dabei achtest du auf saisonale Zutaten, in diesem Fall ist es Frühling in Deutschland.

1. Suche eine vegetarische Vorspeise.

2. Wähle eine Hauptspeise aus, die man sowohl mit Fleisch als auch vegetarisch servieren kann.

3. Wähle ein vegetarisches Dessert, es darf z. B. keine Gelatine enthalten.

4. Nun planst du die Mengen für 15 Personen, zehn essen Fleisch, fünf ernähren sich vegetarisch.

5. Gehe jedes gewählte Gericht durch und schreibe die Zutaten auf eine Einkaufsliste.

Gehe Schritt für Schritt vor.

Gib mir das Menü sowie die Einkaufsliste aus.

Warum CoT Prompting bessere Ergebnisse erzielt als das einfache Aufschreiben der Frage, ist nicht eindeutig geklärt und auch nicht nachvollziehbar. Auch wenn man Modelle nach einer Begründung fragen kann und häufig auch eine plausible Antwort erhält, muss berücksichtigt werden, dass die Modelle kein Verständnis über den Inhalt haben und sich selbst nicht erklären können. Auch die Entwicklerinnen und Entwickler können zwar die technischen und mathematischen Grundlagen erklären, jedoch nicht einzelne Entscheidungen, deshalb spricht man auch von Black-Box-Modellen. Je mehr Parameter ein Modell hat, desto unübersichtlicher wird das Netz. Llama 3.3 hat beispielsweise 70 Billionen Parameter, die bei einer Ausgabe beteiligt sein könnten.

Linktipps

Wo kann ich mehr zum Thema Prompt Engineering erfahren?

Prompt engineering – OpenAI

Prompting capabilities | Mistral AI Large Language Models

Leitfaden zum Prompt-Engineering

Wo kann ich mehr zu den technischen Hintergründen erfahren?

Aber was ist ein neuronales Netz? | Deep Learning – YouTube

Open Source Large Language Models selbst betreiben – Blog des Frauenhofer IESE

Retrieval Augmented Generation (RAG): Chat mit eigenen Daten

Wo kann ich LLMs ausprobieren?

Le Chat – Mistral AI

ChatGPT

Large Language Models | Computerwoche

Quellen

Ziqi Yin et al. (2024). Should We Respect LLMs? A Cross-Lingual Study on the Influence of Prompt Politeness on LLM Performance. In: Proceedings of the Second Workshop on Social Influence in Conversations (SICon 2024), 9–35.

Die vom bidt veröffentlichten Blogbeiträge geben die Ansichten der Autorinnen und Autoren wieder; sie spiegeln nicht die Haltung des Instituts als Ganzes wider.
Der Beitrag Die richtigen Fragen stellen: Tipps für bessere KI-Antworten erschien zuerst auf bidt DE.

Die richtigen Fragen stellen: Tipps für bessere KI-Antworten

Other News from Participating Centers

About the NoC

More