Блог им. Halal

ИИ. Большая битва за информацию.

Перевод статьи взятой из The Economist

 

Не так давно аналитики открыто задавались вопросом, станет ли технологии на основе работы искусственного интеллекта или  «ИИ» смертью Adobe, производителя программного обеспечения для творческих профессий. Новые инструменты, такие как dall-e 2 и Midjourney, способные создать картинку из текста , похоже, сделали продукты Adobe по редактированию изображений излишними.

ИИ. Большая битва за информацию. 
Тимофей Мартынов по версии ИИ от Midjourney

Отнюдь не. Adobe использовала свою базу данных из сотен миллионов стоковых фотографий для создания собственного набора инструментов искусственного интеллекта , получившего название Firefly. По словам Даны Рао, исполнительного директора компании, с момента выпуска в марте с помощью этого программного обеспечения было создано более миллиарда изображений. Избегая поиска изображений найденных в Интернете, как это делали ее конкуренты, Adobe не коснулись юридические споры об авторском праве , которая теперь кишит индустрия. Цена акций компании выросла на 36% с момента запуска Firefly.

Победа Adobe иллюстрирует более широкую картину борьбы за доминирование на быстро развивающемся рынке инструментов искусственного интеллекта . Сложные модели, приводящие в действие последнюю волну так называемого «генеративного» ии, требуют гигантских объемов информации. 


ИИ. Большая битва за информацию. 
smart-lab.ru по мнению ИИ Шедеврум от Яндекса
  

Дело в том, что для корректной, слаженной работы ИИ требуется генерация гигантской базы данных. Уже воспользовавшись большей частью Интернета — часто без разрешения — разработчики моделей теперь ищут новые источники данных, чтобы поддерживать безумие возрастающего спроса. Между тем, компании, уже обладающие доступом к огромному запасам материала, взвешивают, как лучше всего извлечь из этой истории прибыль. Борьба за данные идет полным ходом.

Двумя важными компонентами модели ии являются наборы данных, на которых обучается система, и вычислительная мощность, с помощью которой модель обнаруживает взаимосвязи внутри этих наборов данных и между ними. Эти два ингредиента в какой-то степени взаимозаменяемы: модель можно улучшить либо за счет приема большего количества данных, либо за счет увеличения вычислительной мощности. Последнее, однако, становится затруднительным из-за нехватки специализированных чипов ИИ , что заставляет разработчиков моделей вдвойне сосредоточиться на поиске данных.

Спрос на данные растет так быстро, что запас высококачественного текста, доступного для обучения, может быть исчерпан к 2026 году, считает исследовательская компания Epoch ai . Считается, что последние модели искусственного интеллекта от двух технологических гигантов Google и Meta, были обучены более чем 1 триллиону слов. Для сравнения, общая сумма английских слов в Википедии, составляет около 4 миллиардов.

Важен не только размер объема набора данных, но и качество. Чем лучше данные, тем лучше будет модель. Текстовые модели идеально обучаются на длинных, хорошо написанных, фактически точных текстах, отмечает Рассел Каплан из Scale ai , стартапа по обработке данных. Модели, получающие столь качественную информацию, с большей вероятностью будут давать качественный, точный результат.

ИИ. Большая битва за информацию.
https://www.cnews.ru/news/top/2023-02-01_nejroset_chatgpt_napisala_diplom

 

Точно так же работают чат-боты с искусственным интеллектом которые дают более точные ответы, когда их просят объяснить механику своей же работы шаг за шагом. Исходя из этого увеличивается спрос на учебники, специализированную информацию поскольку они позволяют «тонко настроить» модели для более узкоспециализированных приложений. Например, покупка Microsoft репозитория программного кода GitHub за 7,5 млрд долларов в 2018 году помогла ей разработать инструмент искусственного интеллекта для написания кода.

По мере роста спроса на информацию доступ к ним становится все более сложнее, и теперь создатели контента требуют компенсацию за материал, который был включен в модели ии . Ряд дел о нарушении авторских прав уже возбужден против производителей моделей в Америке. Группа авторов, в том числе комик Сара Сильверман, подали в суд на Open ai , создателя Chat gpt , чат-бота с искусственным интеллектом и Meta. Аналогичным образом группа художников подает в суд на Stability ai , и на Midjourney создающая инструменты для преобразования текста в изображение.

ИИ. Большая битва за информацию.
https://www.cnews.ru/news/top/2023-08-15_kitaj_vvodit_24_novyh_pravila


Результатом всего этого стал шквал сделок. Компании, занимающиеся искусственным интеллектом , стремятся защитить свои источники данных. В июле Open ai подписала соглашение с информационным агентством Associated Press о доступе к его архиву статей. Компания также недавно расширила соглашение с Shutterstock, поставщиком стоковых изображений, с которым у Meta также уже имеется соглашение. 8 августа стало известно, что Google ведет переговоры с Universal Music, звукозаписывающей компанией, о лицензировании голосов артистов для использования в инструменте искусственного интеллекта для написания песен . Fidelity, управляющая активами, группа заявила, что к ней обращались технические фирмы с просьбой предоставить доступ к ее финансовым данным . Ходят слухи о возможной сделке с  BBC, за доступ к ее архиву изображений и фильмов. Другой предполагаемой возможной сделкой возможна с jstor , цифровой библиотекой академических журналов.

 

Тем временем владельцы информации пользуются текущим положением вещей. Например форумы Reddit и Stack Overflow уже повысили стоимость доступа к собственным данным. Оба веб-сайта представляют особую ценность, ибо пользователи голосуют за предпочтительные ответы помогая ИИ моделям получить более актуальную информацию. Twitter (теперь известный как X), принял меры по ограничению возможности ботов к анализу сайта и теперь взимает плату с любого, кто хочет получить доступ к данным сайта. Илон Маск, планирует построить свой собственный бизнес в области ИИ, используя собственные данные.

Расширение границ

Однако есть еще один источник данных, который остается в значительной степени неиспользованным: информация, которая существует в стенах корпоративных клиентов, технологических фирм. Многие компании обладают, огромным количеством полезной информации, от расшифровок колл-центров до записей о расходах клиентов. Данная информация представляет особенную ценность, ибо ее можно использовать для точной настройки бизнес моделей для конкретных, например, помогая работникам колл-центра отвечать на запросы клиентов или бизнес-аналитикам находить способы увеличения продаж.

Однако использовать этот богатый ресурс не всегда просто. Консультант Рой Сингх из Bain отмечает, что исторически большинство фирм уделяли мало внимания типам хранения данных.  Часто они распределены по нескольким системам, скрытым на серверах компании, а не в облаке, что ограничивает доступ к ним.

Получения данной информации помогла бы другим компания удовлетворить потребности своих конечных клиентов. Amazon и Microsoft, теперь предлагают инструменты, помогающие компаниям лучше управлять своими неструктурированными наборами данных. Кристиан Кляйнерман из Snowflake «Бизнес компаний, занимающиеся базами данных — процветает, поскольку их клиенты стремятся «разрушить свои же хранилища данных». На рынке появляются новые стартапы специализирующие на базах данных и ИИ. В апреле Weaviate, привлек 50 миллионов долларов при стоимости 200 миллионов долларов. Не прошло и недели, как конкурент PineCone привлек 100 миллионов долларов при оценке в 750 миллионов долларов. Ранее в этом месяце Neon, еще один стартап по базам данных, привлек дополнительное финансирование в размере 46 млн долларов. Борьба за данные только начинается. 

Всем спасибо за внимание!



Что еще почитать? Мой ранее написанный топик 
Сланцевая революция, или как еще можно заработать на нефти

 

 



 

 

★1

теги блога Halal Ivestment | Луай Сархан

....все тэги



UPDONW
Новый дизайн