Исследование: GPT-4 запоминает книги и статьи — OpenAI подозревают в использовании пиратского контента

Новости Апрель 5, 2025

Время чтения: ~2 мин.

Исследование: GPT-4 запоминает книги и статьи — OpenAI подозревают в использовании пиратского контента

OpenAI снова в центре сюжета — и снова не в роли героя. Новое исследование, в котором замешаны Университет Вашингтона, Стэнфорд и Копенгаген, аккуратно намекает: модели вроде GPT-4 вполне могли запоминать куски книг и новостных статей, включая те, что защищены авторским правом. А это, как бы сказать… немного не по правилам.

Пока OpenAI с пеной у рта доказывает в судах, что использование таких данных — это fair use, авторы, программисты и прочие правообладатели подают иски и говорят: ребята, вы нас, кажется, просто тупо скопировали.

Как работает фокус

В исследовании предложили метод выявления "запомненного" контента. Учёные брали тексты — книги, статьи из New York Times — и выкидывали из них редкие слова, которые выделяются на фоне остального текста. Например, если в предложении есть слово «радар», а не «двигатель» или «радио», то это "high-surprisal" — модель его вряд ли просто угадала случайно.

Затем они просили модели вроде GPT-3.5 и GPT-4 угадать, что было на месте пропущенного слова. Если угадывала — привет, память. А значит, высока вероятность, что этот кусок текста был в обучающем датасете. А это уже прямой контакт с авторским правом.

Что именно "вспомнила" GPT-4

Сюрприз: модель угадывала не просто рандомные фразы. В некоторых случаях — фрагменты из популярных книг, которые находятся в датасете BookMIA, где собраны образцы защищённых eBook-ов. Также модель узнавала фрагменты статей New York Times. Не массово, но устойчиво.

И это на фоне того, что OpenAI активно лоббирует «гибкие» правила по использованию авторского контента в обучении ИИ. Типа, мы тут не воруем, мы просто машинно вдохновляемся. И да, у них есть какие-то лицензионные соглашения и опции “opt-out”, но это скорее успокоительный сироп, чем реальное ограничение.

Почему это важно

Цитата от одной из соавторов исследования:

«Чтобы ИИ был надёжным, его нужно уметь прозрачно проверять и изучать. Мы предлагаем инструмент, но проблема глубже — нужно больше прозрачности в самой индустрии».

Простой перевод с академического на человеческий: «Мы вскрыли банку с червями. А OpenAI делала вид, что это банка с мёдом».

Вывод по-простому:
GPT-4, скорее всего, помнит целые куски книг и статей, и это не совсем то, о чём говорили в маркетинговых презентациях. OpenAI утверждает, что всё легально. Исследователи показывают: не факт. Промежуточный счёт — 1:0 в пользу скепсиса.

Хочешь прозрачности в ИИ? Получай туманные формулировки, судебные тяжбы и "угаданные" цитаты из романов. Добро пожаловать в эру генеративного интеллекта. Креатив, powered by CTRL+C.

GPT-4 OpenAI авторское право утечка данных обучение ИИ искусственный интеллект генеративные модели BookMIA fair use защита контента AI этика AI тренды технологии ИИ и закон

Рекомендуем к прочтению

Huawei Pura 90s Pro Max: мои 5 причин выбрать его вместо другого флагмана

Huawei Pura 90s Pro Max получил 200-Мп телеобъектив, антибликовый экран, EMUI 16, AI-функции для камеры и поддержку 5G. Разбираем 5 главных причин выбрать новый флагман Huawei.

Опубликовано ранее:

Погулял по Минску с HONOR 600 Pro и проверил его камеру. Смартфон меня приятно удивил

HONOR ROBOT PHONE собрал более 200 000 предзаказов до премьеры

OpenAI и Alibaba выпустили новые голосовые ИИ-модели. Кто лучше понимает речь и быстрее отвечает?

Huawei MateBook Pro S весом 798 граммов представят 5 августа

Xiaomi 18 может первой получить новую память LPDDR6 от SK Hynix. И это очень кстати

Huawei Pura 90s Pro и Pro Max показали на Неделе моды в Париже. Предзаказы в Беларуси уже стартовали

Обзор Huawei Pura 90s Pro Max: главный камерофон Huawei возвращается с 5G и свежим Android

Huawei готовит новый MateBook Pro с процессором Kirin XE90. Что известно о чипе