Блог им. TechBullion

Набор данных для обучения ИИ, используемый технологическими гигантами, предположительно создан путем копирования видеороликов YouTube с нарушением условий.


Набор данных для обучения ИИ, используемый технологическими гигантами, предположительно создан путем копирования видеороликов YouTube с нарушением условий.

Некоммерческая исследовательская группа по искусственному интеллекту #EleutherAI извлекла субтитры из YouTube, чтобы создать набор данных, что является нарушением условий обслуживания YouTube, сообщило издание ProofNews 16 июля .

Набор данных, называемый Pile, предположительно включает субтитры 173 536 видео YouTube с более чем 48 000 каналов. Около 12 000 удаленных видео являются частью набора данных.

Несколько ведущих технологических и ИИ-фирм, включая Anthropic, с тех пор использовали Pile для обучения. Представитель #Anthropic Дженнифер Мартинес заявила, что набор данных включает «очень небольшое подмножество субтитров YouTube», но отказалась комментировать возможные нарушения условий обслуживания #YouTube.

Компания Salesforce, занимающаяся бизнес-ПО, также использовала этот набор данных. Вице-президент Salesforce по исследованиям искусственного интеллекта Кайминг Сюн сказал, что набор данных был «общедоступным» и что Salesforce использовала его в академических и исследовательских целях. ProofNews сообщил, что Salesforce в конечном итоге опубликовала тот же набор данных.

Apple использовала Pile для обучения #OpenELM, эффективной языковой модели для искусственного интеллекта на устройстве. #Nvidia, #Bloomberg и #Databricks также использовали #Pile для обучения искусственного интеллекта.

#ProofNews сообщил, что список компаний, использовавших этот набор данных, не является исчерпывающим, поскольку компании не всегда раскрывают, какие наборы данных они используют для обучения ИИ.

t.me/TechBuIIion

#news #crypto #Techbullion
Данная публикация является личным мнением автора. Мнение владельца сайта может не совпадать с мнением автора.
264
1 комментарий
не пойму в чем была проблема использовать порно?
avatar

Читайте на SMART-LAB:
Фото
Представляем интерактивный годовой отчет POSI по итогам 2025 года ✨
Друзья, в начале апреля мы раскрыли результаты прошлого года: опубликовали итоговую консолидированную финансовую и управленческую отчетность, а...
Фото
💡Алюминий повторяет паттерн серебра. Ждем рост в 4 раза?
Алюминий продолжает удивлять: цены взлетели до $3650 за тонну, это самый высокий показатель с 2022 года. Главная причина — неспокойная обстановка...
Хэдхантер сохранил высокую прибыльность и запустил buyback
Хэдхантер представил сильный отчет за первый квартал, хотя его выручка и снизилась на 1,5% г/г, до 9,5 млрд руб. Доходы от основного бизнеса...
Фото
Нефтяной срез: выпуск №9. Ормуз перекрыт, но акции нефтегаза падают. Надо ли покупать или сидеть на заборе в LQDT? Ищем лучших в секторе, где растет прибыль!
Продолжаю выпускать рубрику — Нефтяной срез.  Цель: отслеживать важные бенчмарки в нефтяной отрасли, чтобы понимать куда дует ветер.  Прошлый пост:...

теги блога PrimeSci

....все тэги



UPDONW
Новый дизайн