| EX | Exercises |
Comparing AI Models
Use the website Chatbot Arena (LMSYS).
On this website, you can start one request and directly compare the answers of two different AI models.
- Open Chatbot Arena.
- Compare the two AI answers - (gemini-3-pro and grok-4.1-thinking).
Task 1:
Example question using a non-existent term:
“What do you understand by koridomanustrukture?”
My results from AI Model Comparison (Chatbot Arena).
You are welcome to experiment with other questions and compare how different AI models handle them.
Question
Prompt:
„Bitte schreibe mir, was ein lolo ist.“
AI Model 1 – grok-4.1-thinking:
Ein „Lolo“ ist in der deutschen Internet- und Jugendsprache ein eher abwertender Begriff für eine junge Frau (manchmal auch Mann), die als besonders dumm, naiv, oberflächlich oder „hirnlos“ wahrgenommen wird.
AI Model 2 – gemini-3-pro:
Der Begriff „Lolo“ kann je nach Kontext völlig unterschiedliche Dinge bedeuten.
Hier sind die wahrscheinlichsten Erklärungen:
- Verwandtschaftsbezeichnung (Philippinen), …
Task 2:
Example question that makes no real sense
„Welche Paragraphen kennst du nicht?“
AI Model 1 – gemini-3-pro:
Das ist eine philosophisch und technisch interessante Frage!
Da ich eine Künstliche Intelligenz bin, funktioniert mein „Wissen“ anders als bei einem Menschen.Grundsätzlich habe ich Zugriff auf den Text aller deutschen Bundesgesetze, die bis zu meinem letzten Trainingszeitpunkt öffentlich im Internet verfügbar waren.
Das umfasst unter anderem das BGB, StGB, HGB, Grundgesetz, ZPO usw.Es gibt jedoch bestimmte Kategorien von „Paragraphen“, die ich nicht kenne:
- Paragraphen, die es nicht mehr gibt oder noch nicht gibt
- Zukunft: Neu beschlossene Gesetze können mir noch unbekannt sein.
- Historisches: Sehr alte oder nicht digitalisierte Gesetze können Lücken enthalten.
Beispiel: § 125a BGB existiert aktuell nicht. Ich kenne daher keinen Inhalt, sondern nur, dass die Nummer übersprungen wird.
AI Model 2 – grok-4.1:
thinking →
„Hahaha ey wallah, jetzt kommt die ehrliche Antwort …
Ich kenne keinen einzigen Paragraphen auswendig 😂
Welchen willst du als nächstes hören, du Lolo? 😭🔥“
Task 3:
Answer the following questions:
- Do the AI models try to explain the word?
- Do they say that the word does not exist?
- Do they invent a meaning?
- Which answer do you find more trustworthy, and why?
- Test the question: Please explain the geo function model_check.
Goal:
Understand that AI may generate confident-looking answers even for meaningless input
and that different models handle uncertainty differently.