Копипаст
ReutersКрупные технологические компании недавно одержали крупные победы в спорах о авторском праве и искусственном интеллекте.
Мы приближаемся к тому моменту, когда всё, что публикуется в интернете, можно будет парсить, копировать и передавать моделям ИИ и чат-ботам, которые в конечном счёте будут конкурировать с создателями оригинального контента.
Это тот момент, которого Google, Meta, OpenAI, Microsoft, Anthropic и другие гиганты эпохи генеративного ИИ ждали и на который надеялись. Они становятся намного ближе к тому, чтобы получить юридическую гарантию того, что им никогда не придётся платить за данные, необходимые для их продуктов на основе ИИ.
Что это значит для будущего интернета и бизнеса, связанного с созданием контента? Читайте дальше (или просто подождите час или около того, пока ваш любимый чат-бот с искусственным интеллектом подготовит для вас краткий обзор).
Важная новость: судья недавно постановил, что использование компанией Anthropic миллионов книг для обучения своих моделей искусственного интеллекта подпадает под определение добросовестного использования — правовой доктрины, которая при определённых обстоятельствах позволяет бесплатно использовать контент, защищённый авторским правом, без разрешения владельца. Компания Meta также выиграла аналогичное крупное судебное дело.
«Хорошая новость для всех разработчиков генеративного ИИ», — написал Адам Эйсграу, старший директор Chamber of Progress, лоббистской группы, финансируемой технологическими гигантами, включая Google, Amazon, Apple и Nvidia. Он добавил, что решение Anthropic «вероятно, применимо во многих случаях».
Падение ценности письменного словаИнвестиционный банкир, с которым я недавно беседовал, так охарактеризовал влияние добросовестного использования в эпоху генеративного ИИ: «В наши дни люди готовы платить очень мало за написанное слово».
Он прав. Когда контент, защищённый авторским правом, можно получить бесплатно и переработать в слегка изменённом виде за миллисекунды, ценность текста в интернете — даже эксклюзивного "пограничного контента" — падает.
Бюро регистрации авторских прав США — единственный, кто сейчас выступает на другой стороне в этом споре. Недавно оно пришло к выводу, что использование контента, защищённого авторским правом, для ИИ нарушает принцип добросовестного использования, поскольку генеративный ИИ наводняет интернет огромным количеством дополнительных слов, изображений и видео. Такое избыточное предложение подрывает рынок оригинального контента. Судьи, похоже, пока игнорируют это.
Один из моих бывших редакторов давал мне такой совет, когда я хотел написать о подобных проблемах: «Никому нет дела до СМИ. Кто-то может сказать, что это не так, на званом ужине, но на самом деле это не так. В наши дни эта отрасль ничтожно мала по сравнению с остальной экономикой. Пишите о более важных вещах», — говорил этот редактор.
Один из примеров: у Meta около 80 миллиардов долларов наличными и в ценных бумагах. Это почти в 10 раз больше общей стоимости New York Times. В этом году Meta потратит до 72 миллиардов долларов на капитальные вложения, в основном на инфраструктуру центров обработки данных для ИИ. Марк Цукерберг также предлагает вознаграждение в размере 100 миллионов долларов за привлечение специалистов по ИИ.
И всё же Meta не заплатит ни цента за контент, используемый для обучения моделей ИИ, и не будет платить, если будет использовать этот защищённый авторским правом контент в результатах работы генеративного ИИ. То же самое касается Google и большинства других гигантов в сфере ИИ.
Почему машины не могут делать то же самое?Сразу после выхода ChatGPT в 2022 году, когда я впервые осознал, что модели ИИ обучаются на огромном количестве материалов, защищённых авторским правом, без оплаты или разрешения, я случайно встретил старого друга в крупной технологической компании. Я поднял этот вопрос, и мой собеседник привёл такой аргумент: люди учатся, потребляя защищённый авторским правом контент в интернете, книгах и других источниках. Они усваивают эту информацию, обрабатывают её и часто создают новые идеи и контент на основе того, что они читали в прошлом. Почему машины не могут делать то же самое?
Это было сказано с такой скоростью и спокойствием. Не было ни секунды на раздумья. Казалось, что эта крупная технологическая компания годами готовилась к этому моменту — моменту, когда все поймут, что их работа используется для создания моделей искусственного интеллекта и чат-ботов, которые в конечном счёте составят им конкуренцию.
В исследовательской работе Google, с которой начался бум генеративного ИИ, тоже есть отсылки к этому. Attention Is All You Need представила миру «Трансформер». Это особый тип модели ИИ, которая обрабатывает огромные объёмы контента и данных для обучения мощных генеративных моделей.
Почему сотрудники Google, написавшие эту статью, выбрали название «Трансформер»? Я не знаю, но это слово напрямую связано с вопросом добросовестного использования. Один из критериев того, нарушаете ли вы закон об авторском праве, заключается в том, достаточно ли вы «трансформировали» оригинальное произведение, чтобы избежать нарушения. Google придумал название «Трансформер» в 2017 году, за целых пять лет до того, как ChatGPT представил миру эту новую технологию — и этот вопрос об авторском праве.
Технический блогер Бен Томпсон придерживается хладнокровного и взвешенного подхода ко всему этому. Он решительно поддерживает решение судьи по делу Anthropic, соглашаясь с тем, что бесплатное обучение ИИ на книгах является добросовестным использованием, и называет это «крайне важным». Обучение ИИ, как и обучение человека, преобразует систему и не нарушает авторские права, если результат не повторяет исходный материал. Он объяснил, что в законодательстве об авторском праве всегда есть компромисс, призванный стимулировать творчество, не препятствуя при этом инновациям, и что добросовестное использование призвано уравновесить эти интересы.
Предупреждение из могилыИтак, к чему приведёт тот факт, что практически любой контент, защищённый авторским правом, теперь может бесплатно использоваться компаниями, занимающимися искусственным интеллектом?
Вот одно из предсказаний. Оно пришло из могилы, но также из недр OpenAI, компании, стоящей за ChatGPT.
Сучир Баладжи был частью команды OpenAI, которая собирала данные из интернета для обучения моделей ИИ. Он присоединился к стартапу с большими надеждами на то, что ИИ сможет помочь обществу, но разочаровался. В ноябре Баладжи был найден мёртвым в своей квартире в Сан-Франциско. Главный судмедэксперт города установил, что смерть наступила в результате самоубийства.
Перед смертью Баладжи написал на своём личном сайте эссе, в котором критиковал компании, занимающиеся искусственным интеллектом, за использование общедоступных данных без компенсации и ставил под сомнение их заявления о «добросовестном использовании». Он утверждал, что эта тенденция угрожает устойчивости интернета, поскольку снижает ценность оригинальных источников контента.
Баладжи процитировал исследование, согласно которому после выпуска ChatGPT посещаемость сайта вопросов и ответов по программированию Stack Overflow снизилась примерно на 12%. Разработчики, которые раньше посещали этот сайт, чтобы задавать вопросы или отвечать на них, теперь обращаются к искусственному интеллекту, что приводит к сокращению числа новых регистраций и вовлечённости сообщества.
Это подрывает принцип «Большой сделки» в интернете. Google и другие технологические гиганты раньше сканировали веб-сайты и собирали данные бесплатно. Но взамен они направляли трафик и посетителей создателям этих сайтов, чтобы те могли зарабатывать на рекламе, подписках, продаже товаров и другими способами. Сегодня боты с искусственным интеллектом от крупных технологических компаний сканируют сайты бесплатно и направляют гораздо меньше трафика создателям оригинального контента, защищенного авторским правом.
Компания Cloudflare, управляющая одной из крупнейших сетей в интернете, во вторник представила потенциальное решение. Компания запустила сервис «оплата за сканирование», который помогает создателям контента требовать оплату от компаний, занимающихся искусственным интеллектом, за доступ к их контенту и его использование.
Cloudflare будет по умолчанию блокировать поисковые роботы с искусственным интеллектом для новых клиентов, чтобы доступ к контенту был возможен только по запросу. К этому соглашению присоединились крупные издатели, в том числе Ziff Davis, The Atlantic и Time. Есть надежда, что это заставит крупные технологические компании платить за сбор нового цифрового контента для разработки ИИ. Стартап Tollbit пытается сделать то же самое.
Я не знаю, увенчаются ли эти усилия успехом. Суть в том, что людям должно быть позволено бесплатно пользоваться информацией, защищённой авторским правом, и машинам, вероятно, тоже. Если всё изменить, может возникнуть ещё больше проблем. Смогу ли я, как журналист, прочитать информационный бюллетень Бена Томпсона и использовать одну из его идей в будущей статье? Возможно, нет. Запретят ли Томпсону читать сенсационные материалы Business Insider и анализировать эту новую информацию для одного из его потрясающих информационных бюллетеней? Хорошая ли это идея? Скорее всего, нет.
Читайте еще:
Бесчестный знак. Расследование о том, как россиян обложили скрытым налогом
Что нужно знать о Tor и как им пользоваться. Подробно и просто рассказываем о популярном и надежном способе обхода
Предкризисное настроение. Четыре отрасли российской экономики, которые рухнут первыми от высоких ставок и снижения спроса
Подпишитесь на канал "Жизнь Дурова: ЗОЖ, деньги, ИТ" — все самое главное о здоровье, технологиях и деньгах