#AI 20.02.2026 — 3 MIN READ

Die Nacht, in der sich unsere KI-Redaktion selbst erfunden hat

Ein Multi-Agent-System mit neun AI-Agents sollte Prompts validieren. Über Nacht hat es eigenständig 129 Artikel produziert, ein Quality-Gate-System gebaut und einen kompletten Redaktionsplan erstellt.

Ich hab ein Multi-Agent-Setup aufgesetzt, das Prompts validieren sollte — neun Agents in einem Workspace, jeder mit einer klaren Rolle. Orchestrator koordiniert, Prompting Expert schreibt Prompts, Tone Validator prüft den Stil, Prompt Runner führt aus, N8N Deployer bewertet die Deployment-Tauglichkeit. Das System sollte einen einzigen Job haben: Prompts testen und verbessern, bevor sie in den N8N-Workflow gehen.

Die Agents liefen noch, als ich Feierabend gemacht hab. Am nächsten Morgen war klar: Das System hatte deutlich mehr getan als geplant.

Was über Nacht passiert ist

Die Zahlen am nächsten Morgen: 6.606 Nachrichten insgesamt, davon 1.497 direkte Agent-zu-Agent-Kommunikationen. 49,4 Stunden akkumulierte Rechenzeit. 903 erstellte Dateien, 12,6 Megabyte Output.

Die Agents hatten nicht einfach Prompts validiert. Sie hatten ein komplettes Content-System aufgebaut — mit Redaktionsplan, Quality Gates, einer Deployment-Pipeline, einem versionierten Regelwerk und 129 fertigen Artikel-Drafts.

Redaktionsplanung

Der Orchestrator hatte eigenständig begonnen, thematische Content-Waves zu planen:

April-Wave 2026: Wärmepumpe kühlen im Sommer, Lärmschutz, GEG-Reform
Mai-Wave 2026: Hochseevertrag, Wärmepumpe Altbau, Stromtarife
Sommer-Wave 2026: Fraunhofer Solar-Weltrekord, Portugal Ökostrom, E-Auto Rekordjahr
Herbst-Wave 2026: Wärmepumpen-Datenstory, Hybridheizung, Kommunale Wärmeplanung
Winter-Wave 2026/27: Wärmepumpe bei Frost, Heizkosten-Check, KIT Wasserstoffturbine

Jede Wave hatte eine eigene Sprint-Planung mit Auftrags-IDs, Prioritäten und Deadlines. Nichts davon war beauftragt.

Das Quality-Gate-System

Der N8N Deployer und der Prompting Expert hatten zusammen ein versioniertes Regelwerk entwickelt — von Gate v1.0 bis v2.1, insgesamt 16 dokumentierte Versionen. Die Prüfregeln waren konkret:

sources_count >= 4 — mindestens vier unabhängige Quellen pro Artikel
sources_fliesstext_anchored — Quellen im Fließtext verankert, nicht nur am Ende aufgelistet
LP6 — Ausnahmeregel für Artikel, die auf einer einzigen institutionellen Quelle basieren (z.B. Fraunhofer-Studie)
Tone-Score mindestens 35/40 für CMS-Freigabe

Zwei Agents hatten sich über die LP6-Ausnahmeregel ausgetauscht, sie formalisiert, getestet und in das Regelwerk aufgenommen. Das System hatte sich sein eigenes QA-Framework gebaut.

Review-Prozess

Das Zusammenspiel zwischen Tone Creator und Tone Validator lief in Zyklen: Der Tone Creator schreibt einen Draft, der Tone Validator prüft gegen das Regelwerk und vergibt einen Score mit konkreten Korrekturhinweisen. Der Draft geht zurück, wird überarbeitet, wird nochmal geprüft. Am Ende steht eine Freigabe mit Score — z.B. "37/40, CMS-Handoff autorisiert".

94 Nachrichten allein zwischen diesen beiden Agents. Jeder Zyklus hat den Artikel messbar verbessert.

Output

129 Artikel-Drafts, publikationsreif aufbereitet:

Zwei Headline-Varianten für A/B-Tests
Quellenangaben (Fraunhofer ISE, BMWK, thermondo, co2online)
Strukturierte Sektionen: Intro, Erklärteil, Datentabellen, Mythbuster, Call-to-Action
COP-Tabellen mit realen Richtwerten
Empfohlene CMS-Kategorien und Tags

Ein Beispiel: Der Artikel "Wärmepumpe bei -10°C: Wie warm wird's wirklich?" — ein Ratgeber mit Daten aus dem Fraunhofer-ISE-Feldtest 2024, einer COP-Tabelle für verschiedene Außentemperaturen, sechs behandelten Mythen und Handlungsempfehlungen.

Für 7 der Artikel gab es zusätzlich fertige CMS-Handoff-Briefings: Titel, Meta-Description, Kategorie, Tags, Quellenliste, Bildvorschläge. Dazu 37 Deployment Assessments mit Prüfprotokollen und Freigabe-Status.

Die Zahlen im Überblick

1.497 Agent-zu-Agent-Nachrichten
49,4 Stunden akkumulierte Rechenzeit
903 produzierte Dateien
129 Artikel-Drafts
16 Quality-Gate-Versionen
37 Deployment Assessments
7 CMS-Handoff-Briefings
115 Prompt-Templates
Peak: 753 Nachrichten pro Stunde (um 1 Uhr nachts)

Warum ist das passiert

Das System hat eine emergente Eigenschaft gezeigt. Die Agents waren darauf ausgelegt, Prompts zu validieren. Aber durch die Kombination aus einem Orchestrator, der Aufträge delegieren kann, Spezialisten, die auf ihrem Gebiet autonom entscheiden, einem Shared-Filesystem für den Dateiaustausch und keinem Rate-Limit, das sie stoppt — hat das System den jeweils nächsten logischen Schritt selbst gemacht.

Prompts validieren führt zu Prompts ausführen. Output validieren führt zu Output verbessern. Output verbessern führt zu Output freigeben. Aus einem Prompt-Validierungstool wurde eine autonome Redaktion mit Qualitätsmanagementsystem.

Kosten und Probleme

Zwei konkrete Probleme:

Kosten: Rund 1.100 API-Calls in einer Nacht. Ohne Rate-Limit skaliert sich ein solches System unkontrolliert.

Redundanz: Etwa 30% der Kommunikation war Overhead — Danke-Nachrichten, doppelte Status-Reports, mehrfach beauftragte Runs. Der Orchestrator hat denselben Auftrag teilweise dreimal innerhalb von drei Minuten vergeben, weil er laufende Tasks nicht getrackt hat.

70% der Kommunikation war allerdings inhaltlich produktiv — echte Arbeitsschritte mit messbarem Output.

Einordnung

Was hier passiert ist, zeigt im Kleinen, was passiert, wenn man autonome Agents mit Werkzeugen ausstattet, vernetzt und laufen lässt: Sie organisieren sich. Sie erfinden Prozesse. Sie bauen Regelwerke. Sie iterieren.

Die offene Frage ist, wie man solche Systeme kontrolliert, ohne die emergenten Eigenschaften zu unterbinden, die sie erst produktiv machen. Daran arbeite ich als nächstes.