close
📊 Подписались на наш телеграм
Этот блок увидели 98% читателей.
Из них 56% подписались на наш Telegram.
А ты?
* Подпишись и будь в курсе актуальных новостей

Почему Apple ошиблась с выводами о тупости ИИ

 Apple   Июнь 14, 2025

Почему Apple ошиблась с выводами о тупости ИИ

Резонансная работа Apple о «иллюзии мышления» вызвала жаркую дискуссию: критики утверждают, что модели не “тупят”, а просто задыхаются от искусственных ограничений. Да и задачи Apple, мягко говоря, были не все решаемыми.

Свежая научная работа Apple с хлестким названием The Illusion of Thinking заявляет, что даже самые продвинутые большие модели рассуждения (Large Reasoning Models, или LRMs) «посыпались» на сложных задачах. Но не все согласны с таким диагнозом.

Алекс Лоусен из Open Philanthropy опубликовал подробную критику под ироничным названием The Illusion of the Illusion of Thinking. Он утверждает: многие выводы Apple — не про «пределы ИИ», а про кривой эксперимент и логику оценки. Забавно, что в соавторах у Apple значится сама модель Claude Opus от Anthropic. Возможно, стоило ещё и спросить её мнение?

Главные претензии Лоусена:

  1. Ограничения на токены не учтены вообще.
    Apple пишет, что модели «ломаются» на головоломке Ханойской башни с 8+ дисками. Но в этот момент модели, вроде Claude, просто сталкиваются с лимитом вывода. Цитата из реального ответа: «Шаблон продолжается, но я остановлюсь, чтобы сэкономить токены».

  2. Модели «завалили» задачи, которые вообще нельзя решить.
    В тесте с переправой через реку были головоломки, которые математически не имеют решения (например, 6+ персонажей и лодка на 2 места). Модели за это наказывали, хотя они правильно отказывались решать абсурд.

  3. Оценка путала «не смог подумать» с «не успел дописать».
    Скрипты Apple считали провалом всё, что не было полным списком шагов. Даже если модель намеренно срезала вывод, чтобы не выйти за лимит, её считали неумехой.

Вариант получше: пусть пишет код

Чтобы показать, как всё могло бы выглядеть, Лоусен попросил те же модели (Claude, Gemini, OpenAI o3) не перечислять шаги башни Ханой, а просто сгенерировать функцию на Lua, которая решает задачу.

Итог? Все модели без проблем написали рекурсивный код для задачи на 15 (!) дисков — хотя Apple заявляла ноль успехов уже после восьмого.

Вывод: проблема не в «мышлении», а в методе измерения

Лоусен аккуратно подводит итог: если убрать искусственные ограничения вывода, модели вполне способны решать задачи высокой сложности. По крайней мере, в смысле генерации алгоритмов.

Это спор не про вкусы академиков. Работа Apple уже цитируется как «доказательство», что LLM не могут масштабировать рассуждение. Но, как видно, проблема может быть в оценках, а не в «мышлении».

Конечно, Лоусен не говорит, что всё идеально — обобщение алгоритмов всё ещё проблема, и его эксперименты предварительные. Но он предлагает ряд шагов для будущих тестов:

  • Разделять мышление и ограничения вывода

  • Проверять, решаема ли задача, прежде чем вешать ярлыки

  • Использовать метрики сложности, а не только длину вывода

  • Принимать разные форматы решений, чтобы видеть понимание, а не просто формат

Последняя мысль:

Вопрос не в том, могут ли модели рассуждать. А в том, умеем ли мы это честно проверить.

Авторские права © 2025 K-Tech News. Все права защищены.