microsoft-gpt-claude-work-together-ai-research
Microsoft ließ GPT und Claude zusammenarbeiten – und das Ergebnis übertrifft alle KI-Forschungstools auf dem Markt
Microsofts Copilot Researcher setzt GPT und Claude jetzt nacheinander ein – und die Kombination hat soeben jedes andere KI-System übertroffen.
2026-03-30 Quelle:decrypt.co

Kurz gesagt

  • Microsoft hat zwei verschiedene Modi veröffentlicht, die GPT und Claude miteinander koppeln, um die Qualität der KI-Forschung zu steigern.
  • Critique lässt die Modelle zusammenarbeiten, während Council sie parallel agieren lässt und ein dritter 'Richter' die Abweichungen identifiziert.
  • Dieser Workflow mit zwei Modellen behebt Halluzinationen, schwache Zitationen und andere Probleme, die mit KI-Forschung mit einem einzigen Modell verbunden sind.

Deep Research AI war dieses Jahr eines der heißesten Wettrüsten in der Technologiebranche. Google kündigte seinen Forschungsagenten für Gemini im Dezember 2024 an, OpenAI veröffentlichte seinen eigenen Forschungsagenten im Februar 2025, xAI zog nach, Perplexity legte nach, und Anthropic's Claude gewann eine treue Anhängerschaft unter Fachleuten, die detaillierte, zitierte Antworten benötigen, und stellte seinen Agenten im April letzten Jahres vor.

Jedes Unternehmen hat versucht, Sie davon zu überzeugen, dass sein einzelnes KI-Modell der intelligenteste Forscher im Raum ist. Microsoft sagte einfach: Warum nur eines wählen?

Das Unternehmen kündigte am Montag zwei neue Funktionen für Copilots Researcher-Tool an – genannt Critique und Council –, die OpenAIs GPT und Anthropic's Claude nacheinander für dieselbe Forschungsaufgabe einsetzen. Das Ergebnis, so Microsofts Tests anhand eines Branchen-Benchmarks, erzielt höhere Werte als jedes andere in diesem Test enthaltene System, einschließlich Modelle der führenden KI-Unternehmen.

Introducing Critique, a new multi-model deep research system in M365 Copilot.

You can use multiple models together to generate optimal responses and reports. pic.twitter.com/m4RlQmCKzs

— Satya Nadella (@satyanadella) March 30, 2026

„Critique ist ein neues Multimodell-Deep-Research-System, das für komplexe Forschungsaufgaben entwickelt wurde. Es trennt die Generierung von der Evaluierung und nutzt eine Kombination von Modellen aus Frontier Labs, einschließlich Anthropic und OpenAI“, erklärt Microsoft. „Ein Modell leitet die Generierungsphase, plant die Aufgabe, iteriert durch den Abruf und erstellt einen ersten Entwurf, während ein zweites Modell sich auf die Überprüfung und Verfeinerung konzentriert und als Experte fungiert, bevor der endgültige Bericht erstellt wird.“

Hier ist das grundlegende Problem, das Critique lösen soll: Jedes KI-Forschungstool funktioniert heute auf die gleiche Weise. Sie stellen eine Frage, ein Modell plant eine Suche, durchsucht Quellen, schreibt einen Bericht und gibt ihn Ihnen zurück. Dieses einzelne Modell erledigt alles, ohne dass jemand seine Arbeit überprüft.

Dies kann dazu führen, dass sich Halluzinationen, Fehler in Zitaten, gefälschte oder ungenaue Behauptungen usw. einschleichen.

Critique teilt diesen Workflow in zwei Phasen. GPT übernimmt die erste Phase – es plant die Forschung, zieht Quellen heran und schreibt einen ersten Entwurf. Dann tritt Claude als strenger Redakteur auf den Plan und überprüft den Bericht auf faktische Genauigkeit, Zitationsqualität und ob die Antwort tatsächlich das Gefragte adressiert hat. Erst nach dieser Überprüfung gelangt der endgültige Bericht zum Benutzer. Microsoft sagt, dass die Rollen schließlich auch in die entgegengesetzte Richtung laufen können, wobei Claude entwirft und GPT kritisiert, obwohl GPT vorerst zuerst zum Einsatz kommt.

Beim DRACO-Benchmark – einem standardisierten Test, der 100 komplexe Forschungsaufgaben aus 10 Bereichen wie Medizin, Recht und Technologie abdeckt – erzielte Copilot mit Critique 57,4 Punkte, während Anthropic's Claude Opus 4.6 allein 42,7 Punkte erreichte. Microsofts kombiniertes System übertrifft das nächstbeste Ergebnis um fast 14 %.

Bild: Microsoft

Die größten Verbesserungen zeigten sich in der Breite der Analyse und der Qualität der Präsentation, wobei auch die faktische Genauigkeit eine deutliche Steigerung aufwies.

Die zweite Funktion, Council, verfolgt einen anderen Ansatz für dasselbe Problem. Anstatt dass ein Modell die Arbeit des anderen überprüft, lässt Council GPT und Claude gleichzeitig laufen und stellt ihre vollständigen Berichte nebeneinander. Ein drittes „Richter“-Modell liest dann beide und verfasst eine Zusammenfassung, die erklärt, wo sich die beiden KIs einig waren, wo sie voneinander abwichen und welche einzigartigen Aspekte jede von ihnen erfasste, die die andere verpasste. Der manuelle Vergleich von KI-Forschungstools war bisher etwas, das Benutzer selbst erledigen mussten.

In Critique arbeiten die Modelle im Wesentlichen zusammen, während sie in Council miteinander konkurrieren.

Critique ist die Standarderfahrung in Researcher, während Council erfordert, dass Sie „Model Council“ aus dem Auswahlmenü wählen, um den Side-by-Side-Modus zu aktivieren. Beide Funktionen stehen derzeit Nutzern zur Verfügung, die am Microsoft Frontier-Programm teilnehmen, dem Early-Access-Kanal für die neuesten Funktionen von Copilot. Eine Microsoft 365 Copilot-Lizenz (30 $/Benutzer/Monat) ist erforderlich, aber Benutzer müssen auch bei Frontier registriert sein, um darauf zugreifen zu können.

Bild: Microsoft

OpenAI und Microsoft unterhalten eine milliardenschwere Partnerschaft, doch Microsofts Wette ist, dass kein einzelnes Modell lange an der Spitze bleiben wird und dass der wahre Wert in der Orchestrierungsschicht liegt, die Aufgaben an die jeweils beste Kombination weiterleitet.