Разное Апрель 2, 2025
Скандалы с OpenAI уже стали чем-то вроде сезонного явления — каждый квартал новая история. В этот раз компанию обвиняют в том, что её флагманская модель GPT-4o, похоже, обучалась на книгах O’Reilly Media, доступ к которым возможен только по подписке. И да, лицензии у OpenAI, конечно же, не было.
ИИ-модели — это не волшебные машины, а просто суперумные калькуляторы, предсказывающие, какое слово или картинка должны быть дальше. Чтобы они работали хорошо, их кормят огромными объёмами данных: книгами, фильмами, статьями и прочим контентом.
Но вот проблема: открытых данных становится всё меньше, и ИИ-компании начинают искать "обходные пути". В OpenAI уже экспериментировали с обучением на сгенерированных самой моделью данных, но это снижает качество. Так что, судя по всему, кто-то решил: "А давайте просто возьмём закрытые книги и сделаем вид, что так и надо?"
AI Disclosures Project — некоммерческая организация, основанная в 2024 году Тимом О’Рейли (тем самым, который владеет O’Reilly Media) и экономистом Иланом Штраусом — изучила поведение GPT-4o и пришла к выводу, что эта модель "узнаёт" закрытые книги гораздо лучше, чем её предшественники.
Исследователи использовали метод DE-COP (по сути, тест на "узнавание" текста) и проверили, насколько ИИ знаком с фрагментами 34 книг O’Reilly. Оказалось, что GPT-4o гораздо лучше "помнит" закрытые материалы, чем GPT-3.5 Turbo, что намекает на использование нелицензированных данных при обучении.
Стоит признать, что стопроцентных доказательств у исследователей нет. Они допускают, что OpenAI могла получить эти данные не напрямую, а если пользователи сами копировали и вставляли их в ChatGPT. Но даже если так, OpenAI явно не спешит проверять, что попадает в её обучающие наборы.
Кстати, исследование не охватывает самые свежие модели OpenAI, такие как GPT-4.5 и "логические" версии вроде o3-mini. Возможно, компания уже что-то изменила, но доказательств этому пока нет.
Судебные тяжбы против OpenAI по вопросам авторского права уже идут полным ходом, и этот случай может стать очередной проблемой для компании. Формально OpenAI заключает лицензии на часть данных (например, с новостными изданиями), но насколько "чистый" её тренировочный процесс — вопрос открытый.