Apple Июнь 14, 2025
Резонансная работа Apple о «иллюзии мышления» вызвала жаркую дискуссию: критики утверждают, что модели не “тупят”, а просто задыхаются от искусственных ограничений. Да и задачи Apple, мягко говоря, были не все решаемыми.
Свежая научная работа Apple с хлестким названием The Illusion of Thinking заявляет, что даже самые продвинутые большие модели рассуждения (Large Reasoning Models, или LRMs) «посыпались» на сложных задачах. Но не все согласны с таким диагнозом.
Алекс Лоусен из Open Philanthropy опубликовал подробную критику под ироничным названием The Illusion of the Illusion of Thinking. Он утверждает: многие выводы Apple — не про «пределы ИИ», а про кривой эксперимент и логику оценки. Забавно, что в соавторах у Apple значится сама модель Claude Opus от Anthropic. Возможно, стоило ещё и спросить её мнение?
Ограничения на токены не учтены вообще.
Apple пишет, что модели «ломаются» на головоломке Ханойской башни с 8+ дисками. Но в этот момент модели, вроде Claude, просто сталкиваются с лимитом вывода. Цитата из реального ответа: «Шаблон продолжается, но я остановлюсь, чтобы сэкономить токены».
Модели «завалили» задачи, которые вообще нельзя решить.
В тесте с переправой через реку были головоломки, которые математически не имеют решения (например, 6+ персонажей и лодка на 2 места). Модели за это наказывали, хотя они правильно отказывались решать абсурд.
Оценка путала «не смог подумать» с «не успел дописать».
Скрипты Apple считали провалом всё, что не было полным списком шагов. Даже если модель намеренно срезала вывод, чтобы не выйти за лимит, её считали неумехой.
Чтобы показать, как всё могло бы выглядеть, Лоусен попросил те же модели (Claude, Gemini, OpenAI o3) не перечислять шаги башни Ханой, а просто сгенерировать функцию на Lua, которая решает задачу.
Итог? Все модели без проблем написали рекурсивный код для задачи на 15 (!) дисков — хотя Apple заявляла ноль успехов уже после восьмого.
Лоусен аккуратно подводит итог: если убрать искусственные ограничения вывода, модели вполне способны решать задачи высокой сложности. По крайней мере, в смысле генерации алгоритмов.
Это спор не про вкусы академиков. Работа Apple уже цитируется как «доказательство», что LLM не могут масштабировать рассуждение. Но, как видно, проблема может быть в оценках, а не в «мышлении».
Конечно, Лоусен не говорит, что всё идеально — обобщение алгоритмов всё ещё проблема, и его эксперименты предварительные. Но он предлагает ряд шагов для будущих тестов:
Разделять мышление и ограничения вывода
Проверять, решаема ли задача, прежде чем вешать ярлыки
Использовать метрики сложности, а не только длину вывода
Принимать разные форматы решений, чтобы видеть понимание, а не просто формат
Вопрос не в том, могут ли модели рассуждать. А в том, умеем ли мы это честно проверить.