Разработчиков отечественных моделей искусственного интеллекта могут обязать раскрывать сведения о наборах данных, на которых обучалась и тестировалась их нейросеть. Такая инициатива обсуждается отраслевыми ассоциациями, компаниями и профильным регулятором в рамках подготовки законопроекта об ИИ, рассказали источники на рынке.
В одной из рабочих версий документа, разрабатываемого Минцифры России, предполагается, что разработчик должен будет указывать наименование датасета, дату его создания, назначение, формат, объем и происхождение. Где именно будет аккумулироваться эта информация, пока не определено. Среди вариантов — создание отдельного реестра отечественного ИИ либо реестра наборов данных.
При этом в текущей версии законопроекта норм о раскрытии обучающих данных нет. Документ носит рамочный характер, а более детальные требования могут появиться позже.
Ранее в Минцифры заявляли о планах создать реестр доверенного ИИ для использования на объектах критической инфраструктуры. Кроме того, в конце 2025 года ведомство утвердило требования к программно-аппаратным комплексам ИИ для включения в реестр отечественного ПО. Однако отдельной системы учета моделей и датасетов в России пока нет.
В правительстве подчеркивают, что регулирование ИИ должно быть гибким. В числе обсуждаемых направлений — критерии «российской» нейросети, вопросы авторского права, маркировка ИИ-контента и ответственность за использование технологии при совершении правонарушений.
Представители Альянс в сфере ИИ (в него входят Сбер, Яндекс, VK, Т-банк, МТС и другие) отмечают, что детальное описание массивов данных в реестровом формате потребует значительных ресурсов и может свестись к формальному перечислению без реальной аналитической ценности.
Эксперты видят как плюсы, так и риски инициативы. Среди преимуществ — повышение доверия к ИИ-моделям, возможность независимой оценки их качества и формирование единых стандартов отчетности. Кроме того, раскрытие информации может стимулировать более дисциплинированную работу с данными.
Однако нагрузка на разработчиков может существенно вырасти, особенно с учетом регулярных обновлений моделей. Для крупных нейросетей с миллионами источников данных раскрытие состава обучающих массивов может оказаться технически сложным и замедлить вывод продуктов на рынок.
Отдельный вопрос — как нормы будут применяться к иностранным компаниям. Если требования распространятся на публичные сервисы, работающие в России, они формально могут затронуть и зарубежных игроков, таких как OpenAI, Microsoft, DeepSeek и Perplexity AI. Неясно, готовы ли они раскрывать подобные сведения или предпочтут ограничить присутствие на рынке.
Часть экспертов считает инициативу своевременной на фоне дефицита качественных и юридически «очищенных» датасетов. В то же время слишком жесткие требования могут затронуть конкурентные преимущества разработчиков и привести к уходу отдельных сервисов с рынка.
Источник: www.vedomosti.ru/technology/articles/2026/02/25/1178770-razrabotchikov-neirosetei-mogut-obyazat-raskrivat-ishodnie-dannie?from=newsline