Новости Апрель 5, 2025
OpenAI снова в центре сюжета — и снова не в роли героя. Новое исследование, в котором замешаны Университет Вашингтона, Стэнфорд и Копенгаген, аккуратно намекает: модели вроде GPT-4 вполне могли запоминать куски книг и новостных статей, включая те, что защищены авторским правом. А это, как бы сказать… немного не по правилам.
Пока OpenAI с пеной у рта доказывает в судах, что использование таких данных — это fair use, авторы, программисты и прочие правообладатели подают иски и говорят: ребята, вы нас, кажется, просто тупо скопировали.
В исследовании предложили метод выявления "запомненного" контента. Учёные брали тексты — книги, статьи из New York Times — и выкидывали из них редкие слова, которые выделяются на фоне остального текста. Например, если в предложении есть слово «радар», а не «двигатель» или «радио», то это "high-surprisal" — модель его вряд ли просто угадала случайно.
Затем они просили модели вроде GPT-3.5 и GPT-4 угадать, что было на месте пропущенного слова. Если угадывала — привет, память. А значит, высока вероятность, что этот кусок текста был в обучающем датасете. А это уже прямой контакт с авторским правом.
Сюрприз: модель угадывала не просто рандомные фразы. В некоторых случаях — фрагменты из популярных книг, которые находятся в датасете BookMIA, где собраны образцы защищённых eBook-ов. Также модель узнавала фрагменты статей New York Times. Не массово, но устойчиво.
И это на фоне того, что OpenAI активно лоббирует «гибкие» правила по использованию авторского контента в обучении ИИ. Типа, мы тут не воруем, мы просто машинно вдохновляемся. И да, у них есть какие-то лицензионные соглашения и опции “opt-out”, но это скорее успокоительный сироп, чем реальное ограничение.
Цитата от одной из соавторов исследования:
«Чтобы ИИ был надёжным, его нужно уметь прозрачно проверять и изучать. Мы предлагаем инструмент, но проблема глубже — нужно больше прозрачности в самой индустрии».
Простой перевод с академического на человеческий: «Мы вскрыли банку с червями. А OpenAI делала вид, что это банка с мёдом».
Вывод по-простому:
GPT-4, скорее всего, помнит целые куски книг и статей, и это не совсем то, о чём говорили в маркетинговых презентациях. OpenAI утверждает, что всё легально. Исследователи показывают: не факт. Промежуточный счёт — 1:0 в пользу скепсиса.
Хочешь прозрачности в ИИ? Получай туманные формулировки, судебные тяжбы и "угаданные" цитаты из романов. Добро пожаловать в эру генеративного интеллекта. Креатив, powered by CTRL+C.