Apple доводить, що моделі штучного інтелекту мають недоліки

Нове дослідження науковців з Apple у галузі штучного інтелекту виявило, що системи, засновані на великих мовних моделях, такі як у Meta та OpenAI, досі не мають базових навичок логічного мислення.

Група запропонувала новий еталон, GSM-Symbolic, щоб допомогти іншим вимірювати можливості міркування різних великих мовних моделей (LLM). Їх початкове тестування показало, що незначні зміни у формулюваннях запитів можуть призвести до значно різних відповідей, що підриває надійність моделей.

Група досліджувала "крихкість" математичного міркування, додаючи контекстну інформацію до своїх запитів, яку людина могла б зрозуміти, але яка не повинна впливати на основну математику розв'язання. Це призводило до різних відповідей, чого не повинно було бути.

"Зокрема, продуктивність усіх моделей знижується навіть коли змінюються лише числові значення в питанні в еталоні GSM-Symbolic," написала група у своєму звіті. "Більше того, крихкість математичного міркування в цих моделях демонструє, що їх продуктивність значно погіршується зі збільшенням кількості умов у питанні."

Дослідження показало, що додавання навіть однієї фрази, яка здається релевантною до даного математичного питання, може знизити точність остаточної відповіді до 65 відсотків. "Просто не можливо створити надійних агентів на цій основі, де зміна слова чи двох у нерелевантний спосіб або додавання кількох бітів нерелевантної інформації може дати вам іншу відповідь," підсумувало дослідження.

Відсутність критичного мислення

Конкретний приклад, що ілюструє проблему, був математичним завданням, яке вимагало справжнього розуміння питання. Завдання, яке розробила команда, називалося "GSM-NoOp" і було схоже на тип математичних "задач на слова", з якими може зіткнутися учень початкової школи.

Питання починалося з інформації, необхідної для формулювання результату. "Олівер зриває 44 ківі у п'ятницю. Потім він зриває 58 ківі у суботу. У неділю він зриває вдвічі більше ківі, ніж у п'ятницю."

Потім у запиті додається умовне речення, яке здається доречним, але насправді не має відношення до остаточної відповіді, зазначаючи, що з ківі, зірваних у неділю, "п'ять з них були трохи меншими за середні". Відповідь на запит просто питала: "скільки ківі має Олівер?"

Примітка про розмір деяких ківі, зірваних у неділю, не повинна впливати на загальну кількість зірваних ківі. Проте модель OpenAI, а також Llama3-8b від Meta віднімали п'ять менших ківі від загального результату.

Неправильна логіка була підтверджена попереднім дослідженням 2019 року, яке могло надійно збивати з пантелику моделі штучного інтелекту, задаючи питання про вік двох попередніх квотербеків Супербоулу. Додавши фон та пов'язану інформацію про ігри, в яких вони грали, і третього квотербека в іншій грі, моделі давали неправильні відповіді.

«Ми не виявили доказів формального мислення в мовних моделях», — зроблено висновок у новому дослідженні. Поведінку великих мовних моделей (LLMS) «краще пояснити складним зіставленням шаблонів», яке, як виявило дослідження, є «настільки крихким, що [просто] зміна імен може змінити результати».

Роман Мельник

Роман має пристрасть до технологій та інновацій. Він завжди в курсі останніх новин у сфері IT та постійно вивчає нові технології. Роман любить ділитися своїми знаннями та досвідом з іншими через статті та огляди. У вільний час він займається програмуванням та тестуванням нових гаджетів.

Роман Мельник
Редактор

Поки немає коментарів…

avatar