ضعف هوش مصنوعی در پاسخ به سوالات تاریخیهوش مصنوعی ممکن است در کارهای خاصی مانند کدنویسی یا تولید پادکست، عملکرد خوبی داشته باشد اما یک پژوهش جدید نشان داده است که هوش مصنوعی برای قبول شدن در یک امتحان تاریخ سطح بالا مشکل دارد. - به گزارش تابناک به نقل از ایسنا، گروهی از پژوهشگران یک معیار جدید را برای آزمایش سه مدل زبانی بزرگ چت جی پی تی-4 (GPT-4) شرکت اوپن ای آی (OpenAI)، لاما (Llama) شرکت متا (Meta) و جمینای (Gemini) گوگل درباره پرسش های تاریخی ایجاد کرده اند. این معیار موسوم به Hist-LLM ، درستی پاسخ ها را بر اساس بانک اطلاعات تاریخ جهانی سشات (Seshat) آزمایش می کند که یک پایگاه داده گسترده از دانش تاریخی است و نام ایزدبانوی خرد مصر باستان را دارد. تک کرانچ اعلام کرد، پژوهشگران مؤسسه پژوهشی Complexity Science Hub مستقر در اتریش، نتایج این بررسی را ناامیدکننده خواندند. مدل زبانی که بهترین عملکرد را داشت، GPT-4 Turbo بود، اما دقت آن فقط حدود 46 درصد تخمین زده شد که خیلی بیشتر از دقت حدس زدن تصادفی نیست. ماریا دل ریو چانونا (Maria del Rio-Chanona)، دانشیار علوم رایانه کالج دانشگاهی لندن (UCL) و از پژوهشگران این پروژه گفت: نکته اصلی پژوهش ما این است که اگرچه مدل های زبانی بزرگ، چشمگیر هستند، اما هنوز عمق لازم را برای درک تاریخ پیشرفته ندارند. برچسب ها: هوش مصنوعی - تاریخ - پژوهش - پژوهشگران - تاریخی - مصنوعی - پاسخ به سوالات |
آخرین اخبار سرویس: |