close
📊 Подписались на наш телеграм
Этот блок увидели 98% читателей.
Из них 56% подписались на наш Telegram.
А ты?
* Подпишись и будь в курсе актуальных новостей

Исследование: GPT-4 запоминает книги и статьи — OpenAI подозревают в использовании пиратского контента

 Новости   Апрель 5, 2025

Исследование: GPT-4 запоминает книги и статьи — OpenAI подозревают в использовании пиратского контента

OpenAI снова в центре сюжета — и снова не в роли героя. Новое исследование, в котором замешаны Университет Вашингтона, Стэнфорд и Копенгаген, аккуратно намекает: модели вроде GPT-4 вполне могли запоминать куски книг и новостных статей, включая те, что защищены авторским правом. А это, как бы сказать… немного не по правилам.

Пока OpenAI с пеной у рта доказывает в судах, что использование таких данных — это fair use, авторы, программисты и прочие правообладатели подают иски и говорят: ребята, вы нас, кажется, просто тупо скопировали.

Как работает фокус

В исследовании предложили метод выявления "запомненного" контента. Учёные брали тексты — книги, статьи из New York Times — и выкидывали из них редкие слова, которые выделяются на фоне остального текста. Например, если в предложении есть слово «радар», а не «двигатель» или «радио», то это "high-surprisal" — модель его вряд ли просто угадала случайно.

Затем они просили модели вроде GPT-3.5 и GPT-4 угадать, что было на месте пропущенного слова. Если угадывала — привет, память. А значит, высока вероятность, что этот кусок текста был в обучающем датасете. А это уже прямой контакт с авторским правом.

Что именно "вспомнила" GPT-4

Сюрприз: модель угадывала не просто рандомные фразы. В некоторых случаях — фрагменты из популярных книг, которые находятся в датасете BookMIA, где собраны образцы защищённых eBook-ов. Также модель узнавала фрагменты статей New York Times. Не массово, но устойчиво.

И это на фоне того, что OpenAI активно лоббирует «гибкие» правила по использованию авторского контента в обучении ИИ. Типа, мы тут не воруем, мы просто машинно вдохновляемся. И да, у них есть какие-то лицензионные соглашения и опции “opt-out”, но это скорее успокоительный сироп, чем реальное ограничение.

Почему это важно

Цитата от одной из соавторов исследования:

«Чтобы ИИ был надёжным, его нужно уметь прозрачно проверять и изучать. Мы предлагаем инструмент, но проблема глубже — нужно больше прозрачности в самой индустрии».

Простой перевод с академического на человеческий: «Мы вскрыли банку с червями. А OpenAI делала вид, что это банка с мёдом».

Вывод по-простому:
GPT-4, скорее всего, помнит целые куски книг и статей, и это не совсем то, о чём говорили в маркетинговых презентациях. OpenAI утверждает, что всё легально. Исследователи показывают: не факт. Промежуточный счёт — 1:0 в пользу скепсиса.

Хочешь прозрачности в ИИ? Получай туманные формулировки, судебные тяжбы и "угаданные" цитаты из романов. Добро пожаловать в эру генеративного интеллекта. Креатив, powered by CTRL+C.

Авторские права © 2025 K-Tech News. Все права защищены.