Науковці з Китайської академії наук та Південнокитайського технологічного університету в Гуанчжоу провели дослідження, яке показало, що великі мовні моделі (LLM), такі як ChatGPT і Gemini, володіють здатністю спонтанно розпізнавати і класифікувати об’єкти подібно до людей.
Дослідники прагнули зрозуміти, чи здатні LLM визначати предмети на основі їх функцій, емоційного контексту та оточення. Результати їхнього дослідження вказують на те, що штучний інтелект може відображати ключові аспекти людського мислення без попереднього навчання цій справі.
В процесі експерименту вчені використовували “нестандартні” завдання, застосовуючи текст для ChatGPT-3.5 та зображення для Gemini Pro Vision. Було отримано 4,7 мільйона відповідей щодо 1 854 природних об’єктів, таких як собаки, стільці, яблука та автомобілі.
Вчені виявили, що LLM формували 66 параметрів для упорядкування об’єктів, які перевищують прості категорії, включаючи складні характеристики, такі як текстура, емоційна значущість та придатність для дітей.
Крім того, дослідження показало, що “мислення” мультимодальних моделей, які обробляють текст та зображення одночасно, в значній мірі нагадує людське. Також, дані нейровізуалізації виявили подібність в реакції ШІ та людського мозку на різні об’єкти.
Це дослідження підтверджує, що LLM можуть “винаходити” свої соціальні норми та мову самостійно, без участі людини, а також виявляє схожість між чат-ботами на базі штучного інтелекту та людьми, які мають афазію.
