close
📊 Подписались на наш телеграм
Этот блок увидели 98% читателей.
Из них 56% подписались на наш Telegram.
А ты?
* Подпишись и будь в курсе актуальных новостей

OpenAI уличили в обучении GPT-4o на закрытых книгах без разрешения

 Разное   Апрель 2, 2025

OpenAI уличили в обучении GPT-4o на закрытых книгах без разрешения

Скандалы с OpenAI уже стали чем-то вроде сезонного явления — каждый квартал новая история. В этот раз компанию обвиняют в том, что её флагманская модель GPT-4o, похоже, обучалась на книгах O’Reilly Media, доступ к которым возможен только по подписке. И да, лицензии у OpenAI, конечно же, не было.

Как ИИ оказался в закрытых книгах?

ИИ-модели — это не волшебные машины, а просто суперумные калькуляторы, предсказывающие, какое слово или картинка должны быть дальше. Чтобы они работали хорошо, их кормят огромными объёмами данных: книгами, фильмами, статьями и прочим контентом.

Но вот проблема: открытых данных становится всё меньше, и ИИ-компании начинают искать "обходные пути". В OpenAI уже экспериментировали с обучением на сгенерированных самой моделью данных, но это снижает качество. Так что, судя по всему, кто-то решил: "А давайте просто возьмём закрытые книги и сделаем вид, что так и надо?"

Что раскопали исследователи?

AI Disclosures Project — некоммерческая организация, основанная в 2024 году Тимом О’Рейли (тем самым, который владеет O’Reilly Media) и экономистом Иланом Штраусом — изучила поведение GPT-4o и пришла к выводу, что эта модель "узнаёт" закрытые книги гораздо лучше, чем её предшественники.

Исследователи использовали метод DE-COP (по сути, тест на "узнавание" текста) и проверили, насколько ИИ знаком с фрагментами 34 книг O’Reilly. Оказалось, что GPT-4o гораздо лучше "помнит" закрытые материалы, чем GPT-3.5 Turbo, что намекает на использование нелицензированных данных при обучении.

OpenAI выкрутится или нет?

Стоит признать, что стопроцентных доказательств у исследователей нет. Они допускают, что OpenAI могла получить эти данные не напрямую, а если пользователи сами копировали и вставляли их в ChatGPT. Но даже если так, OpenAI явно не спешит проверять, что попадает в её обучающие наборы.

Кстати, исследование не охватывает самые свежие модели OpenAI, такие как GPT-4.5 и "логические" версии вроде o3-mini. Возможно, компания уже что-то изменила, но доказательств этому пока нет.

Что дальше?

Судебные тяжбы против OpenAI по вопросам авторского права уже идут полным ходом, и этот случай может стать очередной проблемой для компании. Формально OpenAI заключает лицензии на часть данных (например, с новостными изданиями), но насколько "чистый" её тренировочный процесс — вопрос открытый.

Авторские права © 2025 K-Tech News. Все права защищены.