В России обсуждают новые требования к разработчикам искусственного интеллекта, которые могут серьёзно изменить правила работы AI-компаний. Власти и отраслевые организации рассматривают инициативу, согласно которой создатели нейросетей будут обязаны раскрывать информацию о датасетах, использованных для обучения моделей.
Речь идёт о наборах данных, на которых обучаются и тестируются отечественные AI-системы. Предполагается, что разработчики должны будут указывать происхождение информации, формат данных, объём материалов и цели их использования.
Власти хотят сделать рынок ИИ более прозрачным
По мнению авторов инициативы, раскрытие информации о датасетах поможет повысить доверие к российским AI-моделям и улучшить контроль над качеством обучения нейросетей.
Сейчас большинство компаний практически не раскрывают подробности о том, какие данные используются для обучения искусственного интеллекта. Это касается как текстовых моделей, так и систем генерации изображений, видео и аналитических AI-сервисов.
Эксперты считают, что новые правила могут стать частью более масштабного регулирования рынка искусственного интеллекта в России.
Разработчиков могут обязать публиковать характеристики датасетов
Предварительно обсуждается создание специального реестра или отдельной базы, где будут храниться сведения о датасетах.
Компании могут обязать раскрывать:
- название набора данных;
- дату создания;
- объём информации;
- источники происхождения;
- цели обучения и тестирования моделей.
При этом точные механизмы регулирования пока ещё находятся на стадии обсуждения.
IT-компании опасаются роста нагрузки
Представители технологического рынка уже выразили опасения по поводу возможного ужесточения требований. По их мнению, подготовка подробной документации по каждому датасету потребует значительных ресурсов и может замедлить развитие AI-проектов.
Кроме того, многие специалисты отмечают, что современные нейросети обучаются на огромных массивах информации, часть которых постоянно обновляется. Из-за этого полное описание всех источников данных может оказаться крайне сложной задачей.
Некоторые эксперты также считают, что подобное регулирование создаст дополнительную нагрузку именно на российские компании, тогда как зарубежные AI-разработчики продолжат работать без аналогичных ограничений.
Тема датасетов становится ключевой для AI-индустрии
Во всём мире вопрос происхождения данных для обучения искусственного интеллекта становится всё более важным. Нейросети уже сталкиваются с претензиями со стороны авторов, издателей, художников и владельцев цифрового контента.
На фоне стремительного развития генеративного ИИ государства начинают уделять всё больше внимания прозрачности обучения моделей и контролю над использованием данных.
Аналитики считают, что в ближайшие годы регулирование датасетов станет одной из центральных тем мировой AI-индустрии наряду с безопасностью нейросетей и защитой авторских прав.