Google тестирует «спекулятивные каскады»: LLM могут стать быстрее и дешевле

Новости Сентябрь 12, 2025

Новый подход обещает ускорить работу больших языковых моделей без потери качества.

Большие языковые модели — штука классная, но прожорливая. С тех пор как ChatGPT ворвался в мир в 2022-м, стало очевидно: инференс (то есть процесс генерации ответа) жрёт кучу ресурсов и времени. Миллионы пользователей — миллионы запросов, а значит разработчикам приходится искать способ сделать LLM быстрее и дешевле.

До сих пор существовало два проверенных, но неидеальных подхода:

Каскады. Сначала отвечает маленькая модель, а если не справляется — подключается «тяжёлая артиллерия». Экономно, но долго: если малышка тупит, приходится ждать старшего брата. Плюс качество прыгает.
Speculative decoding. Модель-драфтер быстро генерирует черновик, а большая модель его проверяет. Звучит как лайфхак, но если хоть один токен не совпал — всё на свалку. И тогда никакой экономии.

Google Research решила, что пора скрестить ежа с ужом и сделала гибрид — speculative cascades. Суть в «гибком правиле отложенного решения»: система сама решает, когда принять токены маленькой модели, а когда подстраховаться большой. Это убирает тормоза каскадов и жесткую строгость спекулятивного подхода.

Главное отличие: теперь «младшая» модель может дать ответ, даже если он не полностью совпадает со «старшей». В итоге система не выбрасывает хорошие варианты, а использует их.

В экспериментах на Gemma и T5 (задачи вроде суммаризации, рассуждений и кода) оказалось, что метод работает лучше классики: дешевле, быстрее и с тем же качеством. Иногда даже быстрее, чем speculative decoding.

Пока всё это лабораторные тесты, но если технология доберётся до реальных сервисов, нас ждёт новый виток эволюции LLM: меньше лагов, меньше чеков за облачные вычисления, больше кайфа для юзеров.

Google LLM искусственный интеллект нейросети Gemma T5 машинное обучение