Новости Апрель 19, 2025
OpenAI недавно выпустила модели нового поколения — o3 и o4-mini. Обещали логические способности, лучшее понимание задач, апгрейд по коду и математике. Но всё оказалось не так гладко. Эти ИИ не просто ошибаются — они стали чаще выдумывать информацию, чем их предшественники.
Да, «галлюцинации» — в мире ИИ это когда модель уверенно заявляет то, чего нет. И если раньше с каждым новым поколением таких фантазий становилось меньше, то теперь прогресс пошёл в обратную сторону.
Согласно внутренним тестам OpenAI, новые reasoning-модели (те, что должны лучше «думать») — o3 и o4-mini — галлюцинируют чаще, чем старые reasoning-модели o1, o1-mini и o3-mini. Более того, они даже хуже в этом плане, чем GPT-4o — классическая «не-логическая» модель.
И что тревожнее всего: в самой OpenAI не понимают, почему.
“Необходимо больше исследований, чтобы понять, почему с масштабированием логических моделей увеличивается количество галлюцинаций,” — говорится в техническом отчёте OpenAI.
OpenAI протестировала свои модели на бенчмарке PersonQA — это внутренняя проверка знаний о людях. Вот результаты:
o3 галлюцинирует в 33% случаев
o1 — 16%
o3-mini — 14,8%
o4-mini — аж 48% ошибок
Лаборатория Transluce подтвердила: o3 склонен выдумывать действия, которые он якобы совершал. Например, утверждает, что запустил код на MacBook Pro 2021 года вне ChatGPT и скопировал результат. Напоминаем: ChatGPT не может взаимодействовать с внешними устройствами. Это вымысел.
Вероятная причина — в типе обучения. Исследователь Transluce и бывший сотрудник OpenAI Нил Чоудри предполагает, что:
«Усиленное обучение, применённое к моделям серии o, может усиливать проблемы, которые обычно сглаживаются на финальных этапах обучения.»
Всё это ведёт к неприятным последствиям: модель начинает уверенно говорить чепуху. Причём звучит это убедительно. И если в творчестве это простительно, то в юриспруденции, медицине или бизнесе — нет.
Да. Один из путей — дать моделям доступ к интернету. GPT-4o с веб-поиском показал 90% точности на другом бенчмарке — SimpleQA. Однако не все готовы делиться запросами с внешними поисковиками.
Кроме того, в стартапе Workera уже тестируют o3 для кодинга. Говорят, работает классно. Но и тут не без ложек дёгтя: модель подсовывает битые ссылки — уверенно вставляет URL, которые не существуют.
ИИ-мир сегодня активно переходит к логическим reasoning-моделям, потому что традиционные подходы почти исчерпали себя. Логика — это круто. Но если в придачу идёт повышенная склонность к выдумке — получаем дорогой, но капризный инструмент.
Как говорят в самой OpenAI:
“Решение проблемы галлюцинаций — приоритетное направление. Мы продолжаем работу над повышением точности и надёжности всех наших моделей.”
В общем, искусственный интеллект снова пошёл своим путём. И, как всегда, не туда, куда планировали разработчики.