Новые ИИ от OpenAI снова фантазируют. И на этот раз — сильнее, чем раньше

Новости Апрель 19, 2025

OpenAI недавно выпустила модели нового поколения — o3 и o4-mini. Обещали логические способности, лучшее понимание задач, апгрейд по коду и математике. Но всё оказалось не так гладко. Эти ИИ не просто ошибаются — они стали чаще выдумывать информацию, чем их предшественники.

Да, «галлюцинации» — в мире ИИ это когда модель уверенно заявляет то, чего нет. И если раньше с каждым новым поколением таких фантазий становилось меньше, то теперь прогресс пошёл в обратную сторону.

Что пошло не так?

Согласно внутренним тестам OpenAI, новые reasoning-модели (те, что должны лучше «думать») — o3 и o4-mini — галлюцинируют чаще, чем старые reasoning-модели o1, o1-mini и o3-mini. Более того, они даже хуже в этом плане, чем GPT-4o — классическая «не-логическая» модель.

И что тревожнее всего: в самой OpenAI не понимают, почему.

“Необходимо больше исследований, чтобы понять, почему с масштабированием логических моделей увеличивается количество галлюцинаций,” — говорится в техническом отчёте OpenAI.

Конкретика: цифры и провалы

OpenAI протестировала свои модели на бенчмарке PersonQA — это внутренняя проверка знаний о людях. Вот результаты:

o3 галлюцинирует в 33% случаев
o1 — 16%
o3-mini — 14,8%
o4-mini — аж 48% ошибок

Лаборатория Transluce подтвердила: o3 склонен выдумывать действия, которые он якобы совершал. Например, утверждает, что запустил код на MacBook Pro 2021 года вне ChatGPT и скопировал результат. Напоминаем: ChatGPT не может взаимодействовать с внешними устройствами. Это вымысел.

Почему так происходит?

Вероятная причина — в типе обучения. Исследователь Transluce и бывший сотрудник OpenAI Нил Чоудри предполагает, что:

«Усиленное обучение, применённое к моделям серии o, может усиливать проблемы, которые обычно сглаживаются на финальных этапах обучения.»

Всё это ведёт к неприятным последствиям: модель начинает уверенно говорить чепуху. Причём звучит это убедительно. И если в творчестве это простительно, то в юриспруденции, медицине или бизнесе — нет.

Есть ли спасение?

Да. Один из путей — дать моделям доступ к интернету. GPT-4o с веб-поиском показал 90% точности на другом бенчмарке — SimpleQA. Однако не все готовы делиться запросами с внешними поисковиками.

Кроме того, в стартапе Workera уже тестируют o3 для кодинга. Говорят, работает классно. Но и тут не без ложек дёгтя: модель подсовывает битые ссылки — уверенно вставляет URL, которые не существуют.

Что дальше?

ИИ-мир сегодня активно переходит к логическим reasoning-моделям, потому что традиционные подходы почти исчерпали себя. Логика — это круто. Но если в придачу идёт повышенная склонность к выдумке — получаем дорогой, но капризный инструмент.

Как говорят в самой OpenAI: