Новости Февраль 27, 2025
Microsoft продолжает наступление в мире компактных языковых моделей и выкатывает Phi-4-multimodal и Phi-4-mini — новые версии своего Phi-4, представленного в декабре 2024 года. Теперь нейросети не только умнеют, но и становятся компактнее, энергоэффективнее и, конечно, многозадачнее.
Phi-4-multimodal — это 5,6-миллиардная махина, которая одновременно понимает текст, голос и изображения. Microsoft заявляет, что её детище уже уделало Google Gemini 2.0 Flash и Claude 3.5 Sonnet в ряде тестов. Особенно мощно модель выступила в задачах распознавания речи и перевода, где даже WhisperV3 и SeamlessM4T-v2-Large остались позади. В рейтинге Hugging Face OpenASR Phi-4-multimodal показала лучший результат с WER 6,14% — это почти идеально с точки зрения точности распознавания слов.
Кроме разговорных навыков, Phi-4-multimodal прокачалась в математике, логике и научных рассуждениях, а также научилась разбирать документы, графики, OCR и визуальные данные на уровне топовых нейросетей.
Phi-4-mini — это более компактная версия (всего 3,8 млрд параметров), но зато с акцентом на текстовые задачи. Microsoft обещает, что она умеет решать математические задачи, писать код, анализировать инструкции и даже выполнять вызовы функций, обгоняя более крупные языковые модели.
Главный плюс — возможность развернуть обе модели прямо на устройстве. Microsoft подкрутила ONNX Runtime, чтобы Phi-4-multimodal и Phi-4-mini работали быстро, стабильно и без подключения к облаку. Это значит, что компактный ИИ можно встраивать в смартфоны, ПК и даже IoT-устройства, где критична низкая задержка и минимальное энергопотребление.
Microsoft подчёркивает, что обе модели прошли жёсткое тестирование на безопасность (и даже получили клеймо одобрения от Microsoft AI Red Team). Теперь они доступны в Azure AI Foundry, Hugging Face и NVIDIA API Catalog, так что разработчики могут уже сейчас тестировать и интегрировать их в свои проекты.
Эти модели — не про конкуренцию с гигантскими LLM, а про баланс эффективности, производительности и компактности. Phi-4-multimodal может стать основой для умных ассистентов, локального ИИ на устройствах и продвинутых чат-ботов, а Phi-4-mini отлично подойдёт для программирования, автоматизации и обработки текста.
Microsoft делает ставку на доступный, быстрый и энергоэффективный ИИ. Это не просто новый виток гонки языковых моделей — это шаг в сторону автономного ИИ, который можно запустить где угодно и когда угодно.