Блог им. TechBullion

Набор данных для обучения ИИ, используемый технологическими гигантами, предположительно создан путем копирования видеороликов YouTube с нарушением условий.


Набор данных для обучения ИИ, используемый технологическими гигантами, предположительно создан путем копирования видеороликов YouTube с нарушением условий.

Некоммерческая исследовательская группа по искусственному интеллекту #EleutherAI извлекла субтитры из YouTube, чтобы создать набор данных, что является нарушением условий обслуживания YouTube, сообщило издание ProofNews 16 июля .

Набор данных, называемый Pile, предположительно включает субтитры 173 536 видео YouTube с более чем 48 000 каналов. Около 12 000 удаленных видео являются частью набора данных.

Несколько ведущих технологических и ИИ-фирм, включая Anthropic, с тех пор использовали Pile для обучения. Представитель #Anthropic Дженнифер Мартинес заявила, что набор данных включает «очень небольшое подмножество субтитров YouTube», но отказалась комментировать возможные нарушения условий обслуживания #YouTube.

Компания Salesforce, занимающаяся бизнес-ПО, также использовала этот набор данных. Вице-президент Salesforce по исследованиям искусственного интеллекта Кайминг Сюн сказал, что набор данных был «общедоступным» и что Salesforce использовала его в академических и исследовательских целях. ProofNews сообщил, что Salesforce в конечном итоге опубликовала тот же набор данных.

Apple использовала Pile для обучения #OpenELM, эффективной языковой модели для искусственного интеллекта на устройстве. #Nvidia, #Bloomberg и #Databricks также использовали #Pile для обучения искусственного интеллекта.

#ProofNews сообщил, что список компаний, использовавших этот набор данных, не является исчерпывающим, поскольку компании не всегда раскрывают, какие наборы данных они используют для обучения ИИ.

t.me/TechBuIIion

#news #crypto #Techbullion
263
1 комментарий
не пойму в чем была проблема использовать порно?
avatar

Читайте на SMART-LAB:
Инвестиции без спешки: торгуем в выходные
Алексей Девятов Рынок часто движется импульсами, тем важнее оценивать активы без спешки, не отвлекаясь на инфошум. Для этого отлично подходят...
Фото
Ключевая ставка ожидаемо снижена, прогноз ужесточен
На опорном заседании 24 апреля Банк России в восьмой раз снизил ключевую ставку — на 50 б.п., до 14,5%. Решение совпало с нашими ожиданиями...
❓ Время Q&A – отвечаем на ваши вопросы!
Друзья, давно не общались с вами в нашей рубрике Q&A. Хотите задать вопрос команде Софтлайн? Пишите его под этим постом! 🤔 О чем спрашивать? Мы...
Фото
Обновляем стратегию 2026: год трудный, что изменилось, и в каком направлении мы движемся?
Квартальное обновление стратегии. Стратегия Mozgovik была представлена 17 января: https://smart-lab.ru/mobile/topic/1254157/ Что остается в...

теги блога PrimeSci

....все тэги



UPDONW
Новый дизайн