Блог им. Koleso

ИИ запускает большую борьбу за данные. Подача все более крупных моделей требует от производителей творческого подхода

ИИ запускает большую борьбу за данные. Подача все более крупных моделей требует от производителей творческого подхода 

 

Не так давно аналитики открыто задавались вопросом, станет ли искусственный интеллект (ИИ) смертью Adobe, производителя программного обеспечения для творческих людей.

Новые инструменты, такие как dall-e 2 и Midjourney, создающие картинки из текста, похоже, сделали предложения Adobe по редактированию изображений излишними. Не далее как в апреле сайт финансовых новостей Seeking Alpha опубликовал статью под заголовком «Является ли ИИ убийцей Adobe?»

Отнюдь нет.

Adobe использовала свою базу данных из сотен миллионов стоковых фотографий для создания собственного набора инструментов искусственного интеллекта, получившего название Firefly. С момента своего выпуска в марте с помощью этого программного обеспечения было создано более миллиарда изображений.

Избегая добычи изображений в Интернете, как это делали ее конкуренты, Adobe избежала углубляющегося спора об авторском праве, который теперь преследует индустрию. Цена акций фирмы выросла на 36% с момента запуска Firefly.

Победа Adobe над думстерами иллюстрирует более широкую картину борьбы за доминирование на быстроразвивающемся рынке инструментов искусственного интеллекта. Крупные модели, приводящие в действие последнюю волну так называемого «генеративного» ИИ, полагаются на гигантские объемы данных.

Уже воспользовавшись большей частью Интернета — часто без разрешения — разработчики моделей теперь ищут новые источники данных, чтобы поддерживать безумие кормления. Между тем, компании, обладающие огромными запасами этого материала, взвешивают, как лучше всего извлечь из этого прибыль.

Захват земли данных идет полным ходом.

Двумя важными компонентами модели ИИ являются наборы данных, на которых обучается система, и вычислительная мощность, с помощью которой модель обнаруживает отношения внутри этих наборов данных и между ними.

Эти два ингредиента в какой-то степени взаимозаменяемы: модель можно улучшить либо за счет приема большего количества данных, либо за счет увеличения вычислительной мощности.

Последнее, однако, становится затруднительным из-за нехватки специализированных чипов искусственного интеллекта, что заставляет разработчиков моделей вдвойне сосредоточиться на поиске данных.

Спрос на данные растет так быстро, что запас высококачественного текста, доступного для обучения, может быть исчерпан к 2026 году, считает исследовательская компания Epoch ai. Считается, что последние модели искусственного интеллекта от Google и Meta, двух технологических гигантов, были обучены более чем 1 триллиону слов. Для сравнения, общая сумма английских слов в Википедии, онлайн-энциклопедии, составляет около 4 миллиардов.

Важен не только размер наборов данных.

Чем лучше данные, тем лучше модель. Текстовые модели идеально обучаются на длинных, хорошо написанных, фактически точных текстах, отмечает Рассел Каплан из Scale ai, стартапа по обработке данных.

Модели, получающие эту информацию, с большей вероятностью будут давать такой же качественный результат. Точно так же чат-боты с искусственным интеллектом дают лучшие ответы, когда их просят объяснить их работу шаг за шагом, что увеличивает спрос на такие источники, как учебники, которые также делают это.

Специализированные информационные наборы также приветствуются, поскольку они позволяют «тонко настроить» модели для более узкоспециализированных приложений. Покупка Microsoft репозитория программного кода GitHub за 7,5 млрд долларов в 2018 году помогла ей разработать инструмент искусственного интеллекта для написания кода.

По мере роста спроса на данные доступ к ним становится все сложнее, и теперь создатели контента требуют компенсацию за материал, который был включен в модели ИИ. Ряд дел о нарушении авторских прав уже возбужден против производителей моделей в Америке.

Группа авторов, в том числе комик Сара Сильверман, подали в суд на Openai, создателя Chatgpt, чат-бота с искусственным интеллектом, и Meta. Группа художников также подает в суд на Stability ai, которая создает инструменты для преобразования текста в изображение, и на Midjourney.

Результатом всего этого стал шквал сделок, поскольку ИИ-компании стремятся защитить источники данных. В июле Openai подписала соглашение с информационным агентством Associated Press о доступе к его архиву статей.

Он также недавно расширил соглашение с Shutterstock, поставщиком стоковой фотографии, с которым у Meta тоже есть сделка. 8 августа стало известно, что Google ведет переговоры с Universal Music, звукозаписывающей компанией, о лицензировании голосов артистов для использования в инструменте для написания песен.

Fidelity, управляющая активами, заявила, что к ней обращались технические фирмы с просьбой предоставить доступ к ее финансовым данным.

Ходят слухи о том, что лаборатории искусственного интеллекта обращаются к британской общественной вещательной компании BBC за доступом к ее архиву изображений и фильмов. Другой предполагаемой целью является jstor, цифровая библиотека академических журналов.

Владельцы информации пользуются своей большей переговорной силой.

Reddit, дискуссионный форум, и Stack Overflow, сайт вопросов и ответов, популярный среди программистов, повысили стоимость доступа к их данным.

Оба веб-сайта особенно ценны, потому что пользователи «голосуют» за предпочтительные ответы, помогая моделям узнать, какие из них наиболее актуальны.

Twitter (теперь известный как X), сайт социальной сети, принял меры по ограничению возможности ботов очищать сайт и теперь взимает плату с любого, кто хочет получить доступ к его данным.

Маск, его переменчивый владелец, планирует построить свой собственный бизнес в области искусственного интеллекта, используя данные.

Как следствие, разработчики моделей усердно работают над улучшением качества исходных данных, которые у них уже есть. Многие лаборатории искусственного интеллекта используют целую армию аннотаторов данных для выполнения таких задач, как маркировка изображений и оценка ответов.

Некоторые из этих работ сложны; объявление об одной из таких вакансий ищет кандидатов со степенью магистра или доктора наук о жизни. Но многое из этого является приземленным и передается на аутсорсинг в такие места, как Кения, где рабочая сила дешева.

Фирмы, занимающиеся искусственным интеллектом, также собирают данные посредством взаимодействия пользователей с их инструментами. Многие из них имеют ту или иную форму механизма обратной связи, когда пользователи указывают, какие результаты полезны.

Генератор преобразования текста в изображение Firefly позволяет пользователям выбирать один из четырех вариантов.

Бард, чат-бот Google, также предлагает три ответа. Пользователи могут поставить Chatgpt палец вверх или вниз, когда он отвечает на запросы.

Эта информация может быть возвращена в качестве входных данных в базовую модель, формируя то, что Доуве Киела, соучредитель стартапа Contextual ai, называет «маховиком данных». Он добавляет, что еще более сильным сигналом о качестве ответов чат-бота является то, копируют ли пользователи текст и вставляют ли его в другое место. Анализ такой информации помог Google быстро улучшить свой инструмент перевода.

Расширение границ.
Однако есть один источник данных, который остается в значительной степени неиспользованным: информация, которая существует в стенах корпоративных клиентов технологических фирм. Многие предприятия обладают, часто невольно, огромным количеством полезных данных, от расшифровок колл-центров до записей о расходах клиентов.

Такая информация особенно ценна, потому что ее можно использовать для точной настройки моделей для конкретных бизнес-целей, например, помогая работникам колл-центра отвечать на запросы клиентов или бизнес-аналитикам определять способы увеличения продаж.

Однако использовать этот богатый ресурс не всегда просто.

Исторически большинство фирм уделяли мало внимания типам обширных, но неструктурированных наборов данных, которые оказались бы наиболее полезными для обучения инструментам искусственного интеллекта. Часто они распределены по нескольким системам, скрытым на серверах компании, а не в облаке.

Получение этой информации поможет компаниям настроить инструменты искусственного интеллекта для лучшего удовлетворения своих конкретных потребностей. Amazon и Microsoft, два технологических гиганта, теперь предлагают инструменты, помогающие компаниям лучше управлять своими неструктурированными наборами данных, как и Google.

Бизнес процветает, поскольку клиенты стремятся «разрушить хранилища данных».

Появляются стартапы. В апреле Weaviate, бизнес баз данных, ориентированный на искусственный интеллект, привлек 50 миллионов долларов при стоимости 200 миллионов долларов.

Не прошло и недели, как конкурент PineCone привлек 100 миллионов долларов при оценке в 750 миллионов долларов.

Ранее в этом месяце Neon, еще один стартап по базам данных, привлек дополнительное финансирование в размере 46 млн долларов.

Борьба за данные только начинается.

Оригинал

P.S. Подпишись на канал ГлавИнформ —  ГИБбон  — о том как экономика, политика и технологии влияют на нашу жизнь.

★1

теги блога Андрей Колесников

....все тэги



UPDONW
Новый дизайн