Pokémon mit Argumenten — Wie BattleTalk entstand
Zwei Spieler, ein Thema, 60 Sekunden Spracheingabe. Dann übernimmt die KI. BattleTalk verwandelt gesprochene Argumente in Spielkarten und macht daraus ein Kartenduell in Echtzeit.
BattleTalk begann mit einer einfachen Beobachtung: Zwei Kollegen, die ständig über alles Mögliche diskutieren. Und der Gedanke — was wäre, wenn eine KI diese Diskussion übernehmen könnte?
Die Idee: Zwei Spieler treten online gegeneinander an. Jeder bekommt 60 Sekunden, um per Sprache seine Argumente zu einem zufälligen Thema einzusprechen. Danach analysiert die KI die Argumente, verwandelt sie in Spielkarten — und die Spieler treten damit im Kartenduell gegeneinander an.
Oder kürzer: Pokémon mit Argumenten. Nur dass man seine Pokémon selbst baut — in 60 Sekunden, mit der eigenen Stimme.
Die erste Version: KI debattiert für dich
Die erste Idee war linear gedacht. Zwei Spieler werden online zusammengeführt, ein zufälliges Debattenthema wird angezeigt, beide bekommen PRO oder CONTRA zugewiesen. Nach 30 Sekunden Vorbereitung hat jeder 60 Sekunden für seine Spracheingabe. Die Aufnahmen werden transkribiert und an zwei KI-Agenten übergeben, die stellvertretend über fünf Runden debattieren. Am Ende bewertet ein Judge-Modell jede Runde und kürt einen Gewinner.
Die wichtigste Regel dabei: Die KI durfte nur die Argumente des Spielers verwenden. Erweitern, zuspitzen, rhetorisch verstärken — aber keine eigenen erfinden. Ohne diese Regel wäre es ein reines KI-gegen-KI-Spiel geworden, bei dem der Spielerinput irrelevant ist.
Für die KI-Seite habe ich die Groq API gewählt. Llama 3.1 8B für die Debatten-Agenten, weil es schnell genug für Echtzeit-Ping-Pong ist. Llama 3.3 70B als Judge für differenziertere Bewertungen. Und Whisper Large V3 Turbo für die Transkription.
Das funktionierte. Technisch.
Warum V1 nicht genug war
Die KI-gegen-KI-Debatte war spannend zu lesen — beim ersten Mal. Beim zweiten schon weniger. Das Problem war einfach: Nach der Spracheingabe war der Spieler nur noch Zuschauer.
Die fünf Runden KI-Debatte liefen automatisch durch. Man konnte zuschauen, wie „seine" KI kämpft, aber man hatte keinen Einfluss mehr. Die Identifikation funktionierte psychologisch — aber es fehlte das, was ein Spiel ausmacht: fortlaufende Entscheidungen.
Die Debatte wurde auch schnell vorhersehbar. Die KI-Agenten lieferten solide Argumente, aber die Runden fühlten sich ähnlich an. Es fehlte strategische Tiefe.
Dazu kam ein subtileres Problem: Bei bestimmten Themen gewann immer die gleiche Seite — egal wie gut die Argumente waren. Beim Thema Datenschutz etwa schlug die KI praktisch immer auf die PRO-Seite. Das hat mit dem Themenbias der LLM-Modelle zu tun. Weil wir die Argumente direkt gegeneinander gewichtet haben, konnte die eingebaute Tendenz des Modells das Ergebnis kippen.
Der Pivot: Argumente werden Spielkarten
Die entscheidende Änderung kam durch eine simple Frage: Was wäre, wenn der Spieler nicht nur einmal Input gibt, sondern während des gesamten Spiels Entscheidungen trifft?
Statt die KI direkt debattieren zu lassen, werden die transkribierten Argumente jetzt in Spielkarten verwandelt. Die KI analysiert den Sprachbeitrag, extrahiert 3-5 einzelne Argumente und macht aus jedem eine Karte mit vier Bewertungsdimensionen:
- Logik — Wie schlüssig ist das Argument?
- Schlagkraft — Wie überzeugend ist die Formulierung?
- Relevanz — Wie relevant für das Thema?
- Eloquenz — Wie gut sprachlich formuliert?
Jede Dimension wird auf einer Skala von 1-10 bewertet. Die Summe ergibt den Gesamtwert der Karte.
Der entscheidende Unterschied zu V1: Die Argumente werden nicht mehr gegeneinander bewertet, sondern jedes Argument wird in sich geschlossen beurteilt — wie schlüssig ist es im Kontext des Themas, wie überzeugend formuliert, wie relevant. Das eliminiert den Themenbias, weil die KI nicht mehr entscheiden muss, welche Seite „recht hat".

Die Karten werden dann in einem Stich-System ausgespielt: Pro Runde wählt jeder Spieler eine Karte aus seiner Hand. Beide werden gleichzeitig aufgedeckt. Die Karte mit dem höheren Gesamtwert gewinnt den Stich. Nach allen Stichen gewinnt, wer mehr Stiche hat.
Das Interessante daran: Der Spieler muss strategisch entscheiden, welche Karte er wann spielt. Spielt man seine beste Karte früh, um in Führung zu gehen? Oder hebt man sie auf für den letzten Stich? Was macht der Gegner?
So läuft ein Spiel ab
Ein Spieler betritt die Seite und klickt „Gegner finden". Sobald ein zweiter Spieler beitritt, sehen beide einen Ready-Check. Erst wenn beide bestätigen, geht es los.
Ein zufälliges Debattenthema wird angezeigt — zum Beispiel „Sollte die 4-Tage-Woche Standard werden?" oder „Ist Datenschutz wichtiger als Sicherheit?". Jedem Spieler wird zufällig PRO oder CONTRA zugewiesen. Man muss seine Position verteidigen, auch wenn man persönlich anders denkt.
Nach 30 Sekunden Vorbereitung startet die Aufnahme. Beide Spieler sprechen gleichzeitig ihre Argumente ein, maximal 60 Sekunden. Man kann früher stoppen.
Die Audioaufnahmen werden parallel an Groqs Whisper-API geschickt. Sobald beide Transkripte vorliegen, analysiert Llama 3.3 70B beide Beiträge und extrahiert die Argumente als bewertete Karten. Wer weniger Argumente liefert, bekommt schwache Filler-Karten mit Score 4 — ein bewusster Nachteil.

Dann beginnt der Kartenkampf. Beide Spieler sehen ihre eigenen Karten mit allen Werten. Die Karten des Gegners sind verdeckt. Pro Stich wählt man eine Karte, beide werden aufgedeckt und verglichen. Ein Ergebnis-Screen zeigt den Stich-Gewinner, bevor es zum nächsten Stich geht.
Der Tech-Stack
Die App ist eine Next.js-16-Anwendung mit React 19 und Tailwind CSS 4. Der Server ist ein Custom Node.js HTTP-Server mit Socket.io — kein API-basiertes Backend, alles läuft über WebSockets. TypeScript durchgängig.
Warum Socket.io statt REST? Das Spiel ist inhärent Echtzeit. Beide Spieler müssen synchron durch die Phasen geführt werden: Matchmaking, Ready-Check, Timer, gleichzeitige Aufnahme, Kartenaustausch, Stich-Ergebnisse. REST-Polling wäre dafür ungeeignet. Socket.io liefert bidirektionale Echtzeit-Kommunikation, Room-basiertes Broadcasting und eine Event-basierte Architektur, die dem Spielfluss entspricht.
Der Server verwaltet Rooms mit einem State-Objekt pro Spiel. Die Spielphasen sind ein linearer Automat:
waiting → ready_check → topic → prep → recording → transcribing → analyzing → card_battle → result

Das Frontend ist eine einzige React-Komponente, die alle Phasen per Conditional Rendering abbildet. Die Phase wird vom Server gesteuert und per Socket-Event synchronisiert.
Die Regel, die alles zusammenhält
Die KI erfindet keine neuen Argumente. Sie extrahiert und bewertet, was der Spieler gesagt hat. Starke Argumente bekommen hohe Werte. Schwache bekommen niedrige. Wer nichts Gutes sagt, hat schlechte Karten — wortwörtlich.
Das bedeutet: Der Spieler gewinnt durch die Qualität seiner Argumente UND durch strategisches Ausspielen. Beides muss stimmen.
Was sich durch den Pivot verändert hat
Der Unterschied ist fundamental. In V1 war der Spieler nach der Spracheingabe Zuschauer. In V2 ist er für die gesamte Partie aktiver Entscheider. Die strategische Tiefe kommt durch die Kartenauswahl und das Timing. Der Spannungsbogen steigt pro Stich statt linear abzufallen. Und die Wiederspielbarkeit ist deutlich höher, weil jede Partie andere Karten produziert.
Was ich heute anders machen würde
Eine Dimension, die mich noch nicht ganz überzeugt: Eloquenz. In 60 Sekunden spontan eine rhetorisch brillante Formulierung zu finden, ist schwer. Dazu kommt ein methodisches Problem: Die KI transkribiert die Spracheingabe und glättet sie dabei zwangsläufig etwas. Wenn sie dann die Eloquenz der Formulierung bewertet, bewertet sie teilweise ihre eigene Nachbearbeitung. Da steckt ein Zufallsfaktor drin, den der Spieler nicht kontrolliert.
In einer nächsten Version würde ich Eloquenz vermutlich durch Kreativität ersetzen — also wie originell und unerwartet ein Argument ist. Das lässt sich bewusster steuern und hängt weniger von der sprachlichen Nachbearbeitung der KI ab.
Was noch kommen könnte
Ein paar Ideen liegen schon in der Schublade: Ein „Unpopular Opinion Mode", in dem Spieler absurde Positionen verteidigen müssen. KI-Charaktere mit verschiedenen Debate Styles — aggressiv, philosophisch, satirisch. Ein Ranking-System mit Elo-Rating. Und ein Spectator Mode, in dem Zuschauer live mitschauen können.
Aber erst mal steht das Grundspiel. Von der ersten Idee am 7. März bis zum funktionierenden Prototyp hat es sechs Tage gedauert. BattleTalk begann als „KI debattiert für dich" und wurde zu „deine Argumente werden zu Waffen — setz sie klug ein". Der Pivot vom passiven Zuschauen zum aktiven Kartenspiel hat das Konzept fundamental verändert: vom Technik-Demo zum echten Spiel.