OpenAI уличили в обучении GPT-4o на закрытых книгах без разрешения

Разное Апрель 2, 2025

Время чтения: ~2 мин.

OpenAI уличили в обучении GPT-4o на закрытых книгах без разрешения

Скандалы с OpenAI уже стали чем-то вроде сезонного явления — каждый квартал новая история. В этот раз компанию обвиняют в том, что её флагманская модель GPT-4o, похоже, обучалась на книгах O’Reilly Media, доступ к которым возможен только по подписке. И да, лицензии у OpenAI, конечно же, не было.

Как ИИ оказался в закрытых книгах?

ИИ-модели — это не волшебные машины, а просто суперумные калькуляторы, предсказывающие, какое слово или картинка должны быть дальше. Чтобы они работали хорошо, их кормят огромными объёмами данных: книгами, фильмами, статьями и прочим контентом.

Но вот проблема: открытых данных становится всё меньше, и ИИ-компании начинают искать "обходные пути". В OpenAI уже экспериментировали с обучением на сгенерированных самой моделью данных, но это снижает качество. Так что, судя по всему, кто-то решил: "А давайте просто возьмём закрытые книги и сделаем вид, что так и надо?"

Что раскопали исследователи?

AI Disclosures Project — некоммерческая организация, основанная в 2024 году Тимом О’Рейли (тем самым, который владеет O’Reilly Media) и экономистом Иланом Штраусом — изучила поведение GPT-4o и пришла к выводу, что эта модель "узнаёт" закрытые книги гораздо лучше, чем её предшественники.

Исследователи использовали метод DE-COP (по сути, тест на "узнавание" текста) и проверили, насколько ИИ знаком с фрагментами 34 книг O’Reilly. Оказалось, что GPT-4o гораздо лучше "помнит" закрытые материалы, чем GPT-3.5 Turbo, что намекает на использование нелицензированных данных при обучении.

OpenAI выкрутится или нет?

Стоит признать, что стопроцентных доказательств у исследователей нет. Они допускают, что OpenAI могла получить эти данные не напрямую, а если пользователи сами копировали и вставляли их в ChatGPT. Но даже если так, OpenAI явно не спешит проверять, что попадает в её обучающие наборы.

Кстати, исследование не охватывает самые свежие модели OpenAI, такие как GPT-4.5 и "логические" версии вроде o3-mini. Возможно, компания уже что-то изменила, но доказательств этому пока нет.

Что дальше?

Судебные тяжбы против OpenAI по вопросам авторского права уже идут полным ходом, и этот случай может стать очередной проблемой для компании. Формально OpenAI заключает лицензии на часть данных (например, с новостными изданиями), но насколько "чистый" её тренировочный процесс — вопрос открытый.

OpenAI GPT-4o авторское право ИИ O’Reilly Media обучение ИИ утечка данных ИИ-скандал искусственный интеллект тренды технологий

Рекомендуем к прочтению

Обзор Huawei Pura 90s Pro Max: главный камерофон Huawei возвращается с 5G и свежим Android

Полный обзор Huawei Pura 90s Pro Max: 200-Мп телеобъектив RYYB, камера XMAGE, 5G, Android 16, EMUI 16, дисплей 6,9 дюйма, батарея 6000 мАч и цена в Беларуси.

Опубликовано ранее:

Погулял по Минску с HONOR 600 Pro и проверил его камеру. Смартфон меня приятно удивил

HONOR ROBOT PHONE собрал более 200 000 предзаказов до премьеры

OpenAI и Alibaba выпустили новые голосовые ИИ-модели. Кто лучше понимает речь и быстрее отвечает?

Huawei MateBook Pro S весом 798 граммов представят 5 августа

Xiaomi 18 может первой получить новую память LPDDR6 от SK Hynix. И это очень кстати

Huawei Pura 90s Pro и Pro Max показали на Неделе моды в Париже. Предзаказы в Беларуси уже стартовали

Обзор Huawei Pura 90s Pro Max: главный камерофон Huawei возвращается с 5G и свежим Android

Huawei готовит новый MateBook Pro с процессором Kirin XE90. Что известно о чипе