Набор данных для обучения ИИ, используемый технологическими гигантами, предположительно создан путем копирования видеороликов YouTube с нарушением условий.

17 июля 2024, 18:37
|
PrimeSci

Некоммерческая исследовательская группа по искусственному интеллекту #EleutherAI извлекла субтитры из YouTube, чтобы создать набор данных, что является нарушением условий обслуживания YouTube, сообщило издание ProofNews 16 июля .

Набор данных, называемый Pile, предположительно включает субтитры 173 536 видео YouTube с более чем 48 000 каналов. Около 12 000 удаленных видео являются частью набора данных.

Несколько ведущих технологических и ИИ-фирм, включая Anthropic, с тех пор использовали Pile для обучения. Представитель #Anthropic Дженнифер Мартинес заявила, что набор данных включает «очень небольшое подмножество субтитров YouTube», но отказалась комментировать возможные нарушения условий обслуживания #YouTube.

Компания Salesforce, занимающаяся бизнес-ПО, также использовала этот набор данных. Вице-президент Salesforce по исследованиям искусственного интеллекта Кайминг Сюн сказал, что набор данных был «общедоступным» и что Salesforce использовала его в академических и исследовательских целях. ProofNews сообщил, что Salesforce в конечном итоге опубликовала тот же набор данных.

Apple использовала Pile для обучения #OpenELM, эффективной языковой модели для искусственного интеллекта на устройстве. #Nvidia, #Bloomberg и #Databricks также использовали #Pile для обучения искусственного интеллекта.

#ProofNews сообщил, что список компаний, использовавших этот набор данных, не является исчерпывающим, поскольку компании не всегда раскрывают, какие наборы данных они используют для обучения ИИ.

t.me/TechBuIIion

#news #crypto #Techbullion

Данная публикация является личным мнением автора. Мнение владельца сайта может не совпадать с мнением автора.

спецраздел:
Акции

обсудить на форуме:
Google Alphabet

269

1 комментарий

не пойму в чем была проблема использовать порно?

ves2010

17 июля 2024, 18:45
Ответить

Читайте на SMART-LAB:

Портовый срез #7: НМТП отгружает рекордные объемы, но все боятся остановки судоходства в Черном море - смотрим на факты

Порты России вместо привычной сверхмаржи и дохода для инвесторов стали мишенью для БПЛА противника. Перестали ли из-за этого они быть...

Олег Кузьмичев

23:29

USD/CAD: ложный пробой и смена приоритетов

Валютная пара USD/CAD не реализовала сценарий с бычьим флагом и вернулась под горизонтальный уровень 1.4140. На данный момент в приоритете...

Олег Свиргун

21:20

🏦 ЦБ начнет публиковать обезличенные данные о владельцах банков

С 1 января 2027 года Банк России возобновит публикацию информации о структуре собственности финансовых организаций. Однако вместо данных о...

Market Power

13:37

Ленты

Форумы

Участники

Котировки

Акции

Календарь

Информация

Книги

Набор данных для обучения ИИ, используемый технологическими гигантами, предположительно создан путем копирования видеороликов YouTube с нарушением условий.

полезные записи за 24 часа

Лучшие записи за 24 часа

самые обсуждаемые сегодня

теги блога PrimeSci

Авторизация

Ленты

Форумы

Участники

Котировки

Акции

Календарь

Информация

Книги

Набор данных для обучения ИИ, используемый технологическими гигантами, предположительно создан путем копирования видеороликов YouTube с нарушением условий.

полезные записи за 24 часа

Лучшие записи за 24 часа

самые обсуждаемые сегодня

теги блога PrimeSci