Блог им. TechBullion

Набор данных для обучения ИИ, используемый технологическими гигантами, предположительно создан путем копирования видеороликов YouTube с нарушением условий.


Набор данных для обучения ИИ, используемый технологическими гигантами, предположительно создан путем копирования видеороликов YouTube с нарушением условий.

Некоммерческая исследовательская группа по искусственному интеллекту #EleutherAI извлекла субтитры из YouTube, чтобы создать набор данных, что является нарушением условий обслуживания YouTube, сообщило издание ProofNews 16 июля .

Набор данных, называемый Pile, предположительно включает субтитры 173 536 видео YouTube с более чем 48 000 каналов. Около 12 000 удаленных видео являются частью набора данных.

Несколько ведущих технологических и ИИ-фирм, включая Anthropic, с тех пор использовали Pile для обучения. Представитель #Anthropic Дженнифер Мартинес заявила, что набор данных включает «очень небольшое подмножество субтитров YouTube», но отказалась комментировать возможные нарушения условий обслуживания #YouTube.

Компания Salesforce, занимающаяся бизнес-ПО, также использовала этот набор данных. Вице-президент Salesforce по исследованиям искусственного интеллекта Кайминг Сюн сказал, что набор данных был «общедоступным» и что Salesforce использовала его в академических и исследовательских целях. ProofNews сообщил, что Salesforce в конечном итоге опубликовала тот же набор данных.

Apple использовала Pile для обучения #OpenELM, эффективной языковой модели для искусственного интеллекта на устройстве. #Nvidia, #Bloomberg и #Databricks также использовали #Pile для обучения искусственного интеллекта.

#ProofNews сообщил, что список компаний, использовавших этот набор данных, не является исчерпывающим, поскольку компании не всегда раскрывают, какие наборы данных они используют для обучения ИИ.

t.me/TechBuIIion

#news #crypto #Techbullion
259
1 комментарий
не пойму в чем была проблема использовать порно?
avatar

Читайте на SMART-LAB:
Фото
Снижение военной премии в нефти: что это меняет для доллара и G10
Во второй половине понедельника – начале вторники рынки активно пересматривают премию за худший сценарий на энергетическом рынке, что цепочкой...
X5 проведёт вебкаст по результатам 2025 года
Друзья, всем привет! Рады пригласить вас на вебкаст, посвящённый финансовым результатам X5 за 2025 год. В ходе звонка мы подведём итоги 2025...
⚙️ Как Займер использует ИИ в своей работе
Мы часто говорим, что наш сервис — высокотехнологичный, и это не пустые слова. Ранее мы уже рассказывали, как в Займере работают скоринг и...
Фото
Гендиректор Инарктики продал свои акции компании. Что это может значить?
Вечером в пятницу (6 марта ) вышел сущфакт о том, что Соснов Илья Геннадьевич, гендиректор Инарктики, продал свои акции компании. В нашем...

теги блога PrimeSci

....все тэги



UPDONW
Новый дизайн