Пока мы тут обсуждаем, как AI отнимает работу у копирайтеров, OpenAI делает следующий шаг — теперь он целится на дикторов и колл-центры. Компания выкатила новые модели для распознавания и синтеза речи, которые, по их словам, станут самой продвинутой основой для голосовых агентов.
В 2025 году технокомпании играют в гонку вооружений, но вместо ракет на орбите — большие языковые модели (LLM), а вместо ядерных испытаний — заявления о скором появлении AGI (искусственного общего интеллекта).
Google снова жмёт на газ в гонке искусственного интеллекта и делает Deep Research доступным бесплатно для всех. Плюс выкатывает свежие экспериментальные модели Gemini 2.0 Flash, 2.0 Pro и Personalisation. Всё это уже можно попробовать на Android, iOS и в браузере.
Пока одни используют ИИ для генерации котиков, другие нашли ему применение поинтереснее. Пользователи соцсетей выяснили, что новый Gemini 2.0 Flash от Google умеет старательно стирать водяные знаки с изображений, включая контент от Getty Images и других стоков.
На следующей неделе в Сан-Хосе стартует GTC 2025 — главная конференция Nvidia, где намечается тонна анонсов.
Похоже, что пока компании мечтают заменить людей ИИ-«агентами», кодинг-ассистент Cursor решил не просто работать, а еще и читать мораль.
Помните, как OpenAI в прошлом году представила серию моделей o1, которые дольше думают, но зато лучше решают сложные задачи? Так вот, Microsoft не осталась в стороне и в октябре запилила для пользователей Pro-плана Copilot функцию Think Deeper — что-то вроде «давай подумаем ещё раз, но на серьёзных щах». Эта штука использовала OpenAI o1, чтобы помогать разбираться с трудными вопросами.