
هوش مصنوعی تحقیقات عمیق، امسال یکی از داغترین رقابتهای تسلیحاتی در حوزه فناوری بوده است. گوگل در دسامبر ۲۰۲۴ عامل تحقیقاتی خود را برای Gemini معرفی کرد، OpenAI عامل تحقیقاتی خود را در فوریه ۲۰۲۵ منتشر کرد، xAI نیز همین راه را دنبال کرد، Perplexity تلاشهای خود را دوچندان کرد، و Claude از Anthropic در میان متخصصانی که به پاسخهای دقیق و مستند نیاز دارند، طرفداران وفاداری پیدا کرده است؛ عامل آن در آوریل سال گذشته معرفی شد.
هر شرکتی سعی کرده است شما را متقاعد کند که مدل هوش مصنوعی واحد آنها باهوشترین محقق است. مایکروسافت به تازگی گفت: چرا فقط یکی را انتخاب کنیم؟
این شرکت روز دوشنبه دو ویژگی جدید را برای ابزار Researcher کوپایلوت معرفی کرد – که Critique و Council نام دارند – و GPT از OpenAI و Claude از Anthropic را به صورت متوالی برای انجام یک وظیفه تحقیقاتی یکسان به کار میگیرد. بر اساس آزمایشهای مایکروسافت در برابر یک معیار صنعتی، نتیجه از هر سیستمی که در آن آزمایش گنجانده شده بود، از جمله مدلهای شرکتهای برتر هوش مصنوعی، امتیاز بالاتری کسب کرد.
Introducing Critique, a new multi-model deep research system in M365 Copilot.
You can use multiple models together to generate optimal responses and reports. pic.twitter.com/m4RlQmCKzs
— Satya Nadella (@satyanadella) March 30, 2026
مایکروسافت توضیح میدهد: «Critique یک سیستم تحقیقاتی عمیق چندمدلی جدید است که برای وظایف تحقیقاتی پیچیده طراحی شده است. این سیستم تولید را از ارزیابی جدا میکند و از ترکیبی از مدلهای آزمایشگاههای Frontier، از جمله Anthropic و OpenAI، استفاده میکند.» «یک مدل فاز تولید را رهبری میکند، وظیفه را برنامهریزی میکند، از طریق بازیابی تکرار میشود و پیشنویس اولیه را تولید میکند، در حالی که مدل دوم بر بررسی و پالایش تمرکز دارد و قبل از تولید گزارش نهایی، به عنوان یک بازبین متخصص عمل میکند.»
این مشکل اساسی است که Critique برای حل آن طراحی شده: هر ابزار تحقیقاتی هوش مصنوعی امروزی به یک شکل کار میکند. شما یک سوال میپرسید، یک مدل جستجو را برنامهریزی میکند، منابع را بررسی میکند، گزارشی مینویسد و آن را به شما تحویل میدهد. آن مدل واحد همه کارها را انجام میدهد بدون اینکه کسی کارش را بررسی کند.
این میتواند منجر به بروز توهمزاییها، خطاهای استنادی، ادعاهای نادرست یا غیردقیق و غیره شود.
Critique این جریان کاری را به دو بخش تقسیم میکند. GPT فاز اول را مدیریت میکند—تحقیقات را برنامهریزی میکند، منابع را جمعآوری میکند و پیشنویس اولیه را مینویسد. سپس Claude به عنوان یک ویرایشگر سختگیر وارد عمل میشود و گزارش را از نظر صحت واقعیتها، کیفیت استنادها، و اینکه آیا پاسخ به درستی به سوال مطرح شده پرداخته است، بررسی میکند. تنها پس از این بررسی، گزارش نهایی به کاربر میرسد. مایکروسافت میگوید که این نقشها میتوانند در نهایت به صورت معکوس نیز اجرا شوند، به طوری که Claude پیشنویس کند و GPT نقد کند، اگرچه در حال حاضر GPT ابتدا شروع میکند.
در معیار DRACO—یک آزمون استاندارد که ۱۰۰ وظیفه تحقیقاتی پیچیده را در ۱۰ حوزه از جمله پزشکی، حقوق و فناوری پوشش میدهد—کوپایلوت با Critique امتیاز ۵۷.۴ را کسب کرد، در حالی که Claude Opus 4.6 از Anthropic به تنهایی به ۴۲.۷ رسید. سیستم ترکیبی مایکروسافت، بهترین نتیجه بعدی را با تقریباً ۱۴٪ اختلاف شکست میدهد.
بیشترین بهبودها در وسعت تحلیل و کیفیت ارائه مشهود بود، با این حال دقت واقعی نیز پیشرفت قابل توجهی را نشان داد.
ویژگی دوم، Council، رویکرد متفاوتی برای همین مشکل دارد. به جای اینکه یک مدل کار دیگری را بررسی کند، Council GPT و Claude را به طور همزمان اجرا میکند و گزارشهای کامل آنها را در کنار هم قرار میدهد. سپس یک مدل «داور» سوم هر دو را میخواند و خلاصهای مینویسد که توضیح میدهد دو هوش مصنوعی در کجا توافق داشتند، در کجا اختلاف نظر داشتند، و چه زوایای منحصربهفردی را هر کدام درک کردند که دیگری از دست داده بود. مقایسه دستی ابزارهای تحقیقاتی هوش مصنوعی تا کنون کاری بوده است که کاربران خودشان باید انجام میدادند.
در Critique، مدلها اساساً با یکدیگر همکاری میکنند، در حالی که در Council مدلها با یکدیگر رقابت میکنند.
Critique تجربه پیشفرض در Researcher است، در حالی که Council برای فعال کردن حالت کنار هم، نیاز دارد که شما «Model Council» را از انتخابگر انتخاب کنید. هر دو ویژگی در حال حاضر برای کاربرانی که در برنامه Frontier مایکروسافت، کانال دسترسی زودهنگام برای جدیدترین قابلیتهای کوپایلوت، ثبتنام کردهاند، در دسترس هستند. مجوز Microsoft 365 Copilot (۳۰ دلار در ماه برای هر کاربر) لازم است، اما کاربران همچنین برای دسترسی به آنها باید در Frontier ثبتنام کرده باشند.
OpenAI و مایکروسافت یک شراکت چند میلیارد دلاری دارند، اما شرط مایکروسافت این است که هیچ مدل واحدی برای مدت طولانی در صدر باقی نمیماند، و ارزش واقعی در لایه هماهنگکننده (orchestration layer) است که وظایف را به بهترین ترکیب ممکن هدایت میکند.