هوش مصنوعی نمی تواند پاسخ درستی را به پرسش های «تاریخی» بدهد!

هوش مصنوعی ممکن است در کارهای خاصی مانند کدنویسی یا تولید پادکست، عملکرد خوبی داشته باشد اما یک پژوهش جدید نشان داده است که هوش مصنوعی برای قبول شدن در یک امتحان تاریخ سطح بالا مشکل دارد.

- هوش مصنوعی نمی تواند پاسخ درستی را به پرسش های تاریخی بدهد! هوش مصنوعی ممکن است در کارهای خاصی مانند کدنویسی یا تولید پادکست، عملکرد خوبی داشته باشد اما یک پژوهش جدید نشان داده است که هوش مصنوعی برای قبول شدن در یک امتحان تاریخ سطح بالا مشکل دارد.

به گزارش ایسنا، گروهی از پژوهشگران یک معیار جدید را برای آزمایش سه مدل زبانی بزرگ چت جی پی تی-4 (GPT-4) شرکت اوپن ای آی (OpenAI)، لاما (Llama) شرکت متا (Meta) و جمینای (Gemini) گوگل درباره پرسش های تاریخی ایجاد کرده اند.

این معیار موسوم به Hist-LLM ، درستی پاسخ ها را بر اساس بانک اطلاعات تاریخ جهانی سشات (Seshat) آزمایش می کند که یک پایگاه داده گسترده از دانش تاریخی است و نام ایزدبانوی خرد مصر باستان را دارد.

به نقل از تک کرانچ، پژوهشگران مؤسسه پژوهشی Complexity Science Hub مستقر در اتریش، نتایج این بررسی را ناامیدکننده خواندند.

مدل زبانی که بهترین عملکرد را داشت، GPT-4 Turbo بود، اما دقت آن فقط حدود 46 درصد تخمین زده شد که خیلی بیشتر از دقت حدس زدن تصادفی نیست.