Блог им. Koleso

Генеративный ИИ — это чудо. Но, это чудо построено на воровстве? Чудо-технологию обвиняют в нарушении авторских прав

«Мы можем перейти в эпоху бесконечных селфи с обезьянами». Футболисты на первый взгляд выглядят реалистично, но при ближайшем рассмотрении что-то не так. 

«Мы можем перейти в эпоху бесконечных селфи с обезьянами».

Футболисты на первый взгляд выглядят реалистично, но при ближайшем рассмотрении что-то не так. Их лица перекошены, конечности сгибаются в тревожные стороны, шар имеет слегка яйцевидную форму. Самое странное: на левой ноге одного футболиста пробежал призрачный след водяного знака: Getty Images.

Генеративный искусственный интеллект (ИИ) вызвал творческий взрыв новых произведений, музыки, изображений и видео. Интернет полон контента, созданного с помощью искусственного интеллекта, а рынки бурлят от инвестиций, вдохновленных искусственным интеллектом.

Openai, которая производит, пожалуй, самые передовые модели генеративного искусственного интеллекта, оценивается почти в 90 миллиардов долларов;

Microsoft, ее партнер, стала самой дорогой компанией в мире с рыночной капитализацией в $3,2 трлн.

Но некоторые задаются вопросом, насколько креативна эта технология на самом деле и справедливо ли компенсируют те, кто наживается на ней, тем, на чьей работе обучались модели.

Chatgpt, созданный Openai, можно уговорить создать длинные газетные статьи, которые он, похоже, запомнил.

Клода, чат-бота, созданного Anthropic, можно заставить повторять тексты известных песен.

Stable Diffusion, созданный Stability ai, воспроизводит особенности чужих изображений, включая водяной знак Гетти, на архиве которого он обучался.

Для тех, кто владеет правами на эти творческие произведения, генеративный искусственный интеллект — это возмущение и, возможно, возможность.

Идет безумие судебных разбирательств и сделок, поскольку правообладатели требуют компенсации за предоставление топлива, на котором будут работать машины будущего.

Для разработчиков моделей искусственного интеллекта это тревожный период.

«Они создали удивительное здание, построенное на песчаном фундаменте».

ИА обучаются огромному количеству произведений, созданных руками человека, от романов до фотографий и песен. Эти обучающие данные разбиваются на «токены» — числовые представления битов текста, изображения или звука — и модель методом проб и ошибок учится тому, как обычно комбинируются токены.

Следуя подсказке пользователя, обученная модель может создавать свои собственные модели. Больше и лучше обучающих данных означает лучшие результаты.

Многие компании, занимающиеся искусственным интеллектом, стали уклончиво относиться к тому, на каких данных обучаются их модели, ссылаясь на конкурентную конфиденциальность (и, как подозревают их недоброжелатели, на страх перед судебными исками).

Но широко признано, что, по крайней мере на ранних стадиях, многие собирали данные, защищенные авторским правом. Прошлые раскрытия информации Openai показывают, что ее модель gpt-3 была обучена на таких источниках, как Common Crawl — анализ открытого Интернета, который включает массу данных, защищенных авторским правом. Считается, что большинство его конкурентов придерживаются аналогичного подхода.

Технологические компании утверждают, что нет ничего плохого в использовании чужих данных просто для обучения своих моделей. В конце концов, люди занимаются поглощением произведений, защищенных авторским правом, а затем созданием оригинальных.

Те, кому принадлежат права, говорят, что разница есть.

«Я проглотил всю эту невероятную музыку, а затем творю на ее основе», — говорит Харви Мейсон-младший, автор песен и исполнительный директор Академии звукозаписи, которая представляет музыкантов.

«Но разница в том, что я человек, и как человек я хочу защищать людей…

У меня нет проблем с небольшим количеством двойных стандартов».

Роджер Линч, исполнительный директор Condé Nast, которому принадлежат такие издания, как Vogue и New Yorker, заявил на слушаниях в Сенате в январе, что сегодняшние инструменты генеративного искусственного интеллекта «созданы из украденных товаров».

Компании, занимающиеся искусственным интеллектом, «тратят буквально миллиарды долларов на компьютерные чипы и энергию, но не желают вкладывать аналогичные средства в контент», жалуется Крейг Питерс, исполнительный директор Getty.

Медиа-компании сильно пострадали от ранней эры Интернета.

Доходы издателей от рекламы уходили в поисковые системы и социальные сети, а музыка звукозаписывающих компаний незаконно распространялась в таких приложениях, как Napster.

Создатели контента полны решимости не попасться снова. Издатели не позволяют автоматическим «сканерам» компаний искусственного интеллекта собирать слова с их веб-сайтов: почти половина самых популярных новостных веб-сайтов блокируют ботов Openai, согласно опросу, проведенному в десяти странах Институтом Рейтер Оксфордского университета в феврале.

Звукозаписывающие компании приказали службам потоковой передачи музыки не допускать, чтобы ИИ-компании копировали их мелодии. Широко распространено раздражение по поводу того, что технологические компании снова ищут прощения, а не разрешения.

«Оценка в 90 миллиардов долларов окупает затраты на юристов», — говорит г-н Хантер. «Это бизнес-план».

Сейчас идет адвокатская деятельность. Крупнейшие правообладатели в различных творческих отраслях возглавляют инициативу.

The New York Times, крупнейшая в мире газета по количеству подписчиков, подает в суд на Openai и Microsoft за нарушение авторских прав на 3 млн ее статей.

Крупнейшая звукозаписывающая компания Universal Music Group подала в суд на Anthropic за использование текстов ее песен без разрешения.

Getty, одна из крупнейших библиотек изображений, подает в суд на Stability ai за копирование ее изображений (а также за неправомерное использование товарного знака).

Все четыре технологические компании отрицают свои правонарушения.

В Америке технологические компании полагаются на юридическую концепцию добросовестного использования, которая предусматривает широкие исключения из жестоких законов страны об авторском праве.

У них есть обнадеживающий прецедент в виде решения по Google Книгам в 2015 году.

Затем Гильдия авторов подала в суд на поисковую компанию за сканирование книг, защищенных авторским правом, без разрешения. Но суд установил, что использование Google этого материала — предоставление книг доступного для поиска, но показывающее только небольшие отрывки — было достаточно «преобразующим», чтобы считаться добросовестным использованием. Компании, занимающиеся генеративным искусственным интеллектом, утверждают, что использование ими материалов, защищенных авторским правом, также приводит к трансформации. Тем временем правообладатели возлагают надежды на прошлогоднее решение Верховного суда, который ужесточил определение трансформации, постановив, что серия произведений Энди Уорхола, которые изменили защищенную авторскими правами фотографию поп-звезды Принса, были недостаточно преобразующие, чтобы считаться добросовестным использованием.

Не все виды средств массовой информации пользуются одинаковой защитой.

Закон об авторском праве охватывает творческое выражение, а не идеи или информацию. Это означает, что компьютерный код, например, защищен лишь слабо, поскольку он в основном функционален, а не выразителен, говорит Мэтью Саг, преподающий право в Университете Эмори в Атланте. (Группа программистов намерена проверить эту идею в суде, утверждая, что GitHub Copilot от Microsoft и CodexComputer от Openai нарушили их авторские права, обучая их работе.)

Новости может быть сложно защитить по той же причине: информация в сенсационной информации сама по себе не может быть защищена. быть защищены авторским правом. Газеты в Америке вообще не были защищены авторским правом до 1909 года, отмечает Джефф Джарвис, журналист и писатель.

До этого многие использовали «редактор-ножницы», чтобы буквально вырезать и вставлять из конкурирующих игр.

На другом конце спектра лучше защищены правообладатели изображений.

Модели искусственного интеллекта изо всех сил пытаются избежать обучения рисованию персонажей, защищенных авторским правом — «проблема Снупи», как называет ее г-н Саг, имея в виду мультяшного гончого. Создатели моделей могут попытаться остановить рисование изображений, нарушающих авторские права, путем блокировки определенных подсказок, но это часто терпит неудачу.

Музыканты также находятся в относительно прочном положении: авторские права на музыку в Америке строго соблюдаются, а артистам требуются лицензии даже для коротких семплов. Возможно, по этой причине многие компании, занимающиеся искусственным интеллектом, с осторожностью выпускают свои музыкальные модели.

За пределами Америки правовой климат для технологических компаний в большинстве случаев более суровый.

Европейский Союз, где находится Mistral, популярная французская компания в области искусственного интеллекта, имеет ограниченное исключение из авторских прав на интеллектуальный анализ данных, но не имеет широкой защиты добросовестного использования.

Примерно то же самое происходит и в Великобритании, где Getty подала иск против Stability AI, базирующейся в Лондоне (и надеявшейся оспорить иск в Америке). Некоторые юрисдикции предлагают более безопасные убежища. Например, в Израиле и Японии действуют законы об авторском праве, которые благоприятны для обучения искусственному интеллекту. Технологические компании намекают на потенциальную угрозу американскому бизнесу, если суды страны займут жесткую позицию. Openai говорит о своем споре с New York Times, что использование ею данных обучения, защищенных авторским правом, «критически важно для нашей конкурентоспособности».

Правообладателей возмущает мысль о том, что Америке следует снизить свою защиту до уровня других юрисдикций только для того, чтобы сохранить технологический бизнес. Один описывает это как неамериканское. Но это одна из причин, по которой крупные дела могут в конечном итоге решаться в пользу компаний, занимающихся искусственным интеллектом.

Суды могут постановить, что модели не должны были обучаться на определенных данных или что они слишком много запоминали, говорит г-н Саг. «Но я не верю, что какой-либо американский суд отклонит важный аргумент о добросовестном использовании.

Частично потому, что я думаю, что это хороший аргумент. И отчасти потому, что если они это сделают, мы просто отправим великую американскую промышленность в Израиль, Японию или ЕС».

Пока юристы оттачивают свои аргументы, сделки заключаются.

В некоторых случаях судебные иски используются в качестве рычага воздействия. «Судебные иски — это переговоры другими средствами», — признается одна из сторон в одном деле. Даже после обучения искусственным интеллектам необходим постоянный доступ к созданному человеком контенту, чтобы оставаться в курсе событий, и некоторые правообладатели заключили соглашения, чтобы снабжать их свежими материалами. Openai сообщает, что заключила около дюжины лицензионных сделок, и в разработке находится «много других».

В число партнеров на данный момент входят Associated Press, Аксель Спрингер (владелец Bild и Politico), Le Monde и испанская Prisa Media.

News Corp Руперта Мердока, которой среди других изданий принадлежат Wall Street Journal и Sun, заявила в феврале, что ведет «продвинутые переговоры» с неназванными технологическими фирмами.

«Ухаживание предпочтительнее судебных заседаний — мы добиваемся расположения, а не судимся», — сказал исполнительный директор компании Роберт Томпсон, похвалив Сэма Альтмана, босса Openai. Shutterstock, фотобиблиотека, предоставила лицензию на свой архив Openai и Meta, империи социальных сетей, которая вкладывает ресурсы в искусственный интеллект. Сообщается, что онлайн-форумы Reddit и Tumblr также лицензируют свой контент компаниям, занимающимся искусственным интеллектом.

Большинство правообладателей в частном порядке настроены пессимистично. Опрос руководителей СМИ в 56 странах, проведенный Институтом Reuters, показал, что 48% из них ожидали, что от сделок по лицензированию ИИ будет «очень мало» денег. Даже крупнейшие издатели не заработали состояние.

Axel Springer, выручка которой в 2022 году составила 3,9 млрд евро (4,1 млрд долларов), как сообщается, заработает «десятки миллионов евро» от трехлетнего соглашения с Openai. «Нет большой возможности лицензирования. Я не думаю, что цель [моделей искусственного интеллекта] — предоставить альтернативу новостям», — говорит Элис Эндерс из Enders Analysis, фирмы, занимающейся медиа-исследованиями. Предлагаемые лицензионные сделки «анемичны», говорит г-н Питерс из Getty.

«Когда компании… говорят: «Нам не нужно лицензировать этот контент, у нас есть полные права на его очистку», я думаю, это определенно снижает их мотивацию собраться вместе и договориться о справедливой экономике».

Поэтому некоторые владельцы материалов, защищенных авторским правом, действуют в одиночку.

В прошлом году Getty запустила собственный генеративный искусственный интеллект в партнерстве с производителем чипов Nvidia. Имиджмейкер Getty прошел обучение только на собственной библиотеке Getty, что делает ее «коммерчески безопасной» и «беспроблемной», обещает компания.

В этом году компания планирует запустить программу для создания видеороликов с использованием искусственного интеллекта на базе Nvidia и Runway, еще одной компании, занимающейся искусственным интеллектом. Помимо устранения рисков, связанных с нарушением авторских прав, Getty отсеяла все остальное, что могло бы вызвать у клиентов проблемы с юристами по вопросам интеллектуальной собственности: бренды, личности и множество менее очевидных вещей, от татуировок до фейерверков. Фирма признает, что пока лишь небольшой процент подписчиков Getty опробовал эти инструменты.

Но г-н Питерс надеется, что регулярный доход от услуги в конечном итоге превысит «единовременный гонорар» от лицензионной сделки.

Ряд новостных издателей пришли к аналогичному выводу. В прошлом году агентство Bloomberg заявило, что оно обучило искусственный интеллект своим собственным данным и тексту. Schibsted, крупный норвежский издатель, возглавляет усилия по созданию норвежскоязычной модели, используя свой контент и контент других медиа-компаний.

Другие установили чат-ботов.

В прошлом месяце Financial Times представила Ask ft, который позволяет читателям просматривать архив газеты.

Chowbot газеты San Francisco Chronicle, запущенный в феврале, позволяет читателям находить лучшие в городе тако или суп из моллюсков, основываясь на обзорах ресторанов, опубликованных в газете.

В прошлом месяце BBC заявила, что изучает возможность разработки инструментов искусственного интеллекта на основе своего 100-летнего архива «в партнерстве или в одностороннем порядке». Большинство крупных изданий, экспериментируют за кулисами.

Пока рано говорить о том, примут ли зрители такие форматы.

Специализированным инструментам искусственного интеллекта также может быть трудно конкурировать с лучшими универсальными инструментами.

Chatgpt Openai превосходит искусственный интеллект Bloomberg даже при выполнении конкретных финансовых задач, согласно прошлогоднему исследованию исследователей из Королевского университета в Канаде и банка JPMorgan Chase.

Но лицензирование контента технологическим компаниям имеет свои риски, отмечает Джеймс Гриммельманн из Корнелльского университета. Правообладателям «нужно очень серьезно задуматься о том, в какой степени это используется для обучения своих преемников».

Новые вопросы, поднятые ИИ, могут привести к появлению новых законов. «Мы расширяем действующие законы настолько, насколько это возможно, чтобы адаптироваться к этому», — говорит г-н Гриммельманн. Теннесси в прошлом месяце принял Закон об обеспечении безопасности голоса и изображений (Элвис), запрещающий несанкционированные дипфейки в штате. Но Конгресс, похоже, скорее позволит судам разобраться во всем.

Некоторые европейские политики хотят ужесточить закон в пользу правообладателей; Директива ЕС о цифровом авторском праве была принята в 2019 году, когда генеративный искусственный интеллект еще не существовал. «Европейцы ни за что не примут [такую директиву] сегодня», — говорит г-н Саг.

Другой вопрос, распространяется ли авторское право на контент, созданный искусственным интеллектом. До сих пор судьи придерживались мнения, что произведения, созданные с помощью ИИ, сами по себе не защищены авторским правом.

В августе американский федеральный суд постановил, что «авторство человека является основным требованием авторского права», отклонив просьбу ученого-компьютерщика о защите авторских прав на произведение искусства, созданное им с помощью искусственного интеллекта.

Ситуация может измениться, поскольку ИИ создают растущую долю мирового контента. Судам потребовалось несколько десятилетий фотографии, чтобы признать, что человек, сделавший снимок, может претендовать на авторские права на изображение.

Нынешний момент напоминает другое судебное дело, произошедшее ранее в этом столетии.

Фотограф дикой природы пытался заявить авторские права на фотографии, сделанные макаками с помощью камеры, которую он установил в индонезийских джунглях.

Судья постановил, что, поскольку истец не делал фотографии сам, авторские права никому не принадлежат.

(Петиция группы по защите прав животных о предоставлении прав обезьянам была отклонена.)

Генеративный искусственный интеллект обещает наполнить мир контентом, автором которого не является человек, и поэтому не имеет защиты авторских прав, говорит г-н Хантер из Королевского колледжа.

«Мы собираемся перейти в эпоху бесконечных селфи с обезьянами».

Оригинал

Другие темы:
Девальвация рубля  — самый вероятный сценарии для правительство РФ решить проблемы в экономике
Россия потеряла миллион тонн экспорта нефтепродуктов в результате ударов по крупнейшим нефтеперерабатывающим заводам
"Упущенное десятилетие": реальные доходы россиян оказались ниже уровня 2013 года.
Росстат зафиксировал восьмой год подряд вымирание населения России. Прогноз — потеря более 500 тыс. ежегодно в течение двух десятилетий

P. S. Подпишитесь на канал «Куда идем?

1 комментарий
лайкнул за много букв без ошибок- автор явно потрудился, хотя в свете поста, его, возможно, написал ИИ. Тогда понятен нездоровый оптимизм по этому поводу.
А так — выводы и акценты неверные, на мой вкус
avatar

теги блога Андрей Колесников

....все тэги



UPDONW
Новый дизайн