第一财经

Государственное управление по данным опубликовало план реализации мероприятий по созданию высококачественных наборов данных в отраслях

原文：国家数据局印发实施方案，推进行业高质量数据集建设行动

2026-06-09 阅读原文

Краткое содержание

Государственное управление по данным разработало план, направленный на обеспечение развития искусственного интеллекта (ИИ) качественными ресурсами – высококачественными наборами данных, подготовленными для прямого использования в обучении ИИ-моделей. С помощью шести ключевых направлений действий (укрепление основ, расширение возможностей, повышение качества и эффективности, содействие применению технологий, управление данными и реализация их потенциала) к 2028 году планируется создать наборы данных, охватывающие важные сферы. Это способствует развитию соответствующих предприятий и кадров, формированию положительного цикла «данные → модели → применение → дополнительные данные», что в конечном итоге позволит данным стать движущей силой роста во всех отраслях экономики.

Подробное объяснение

1. Недостаток данных для развития ИИ: ключевая проблема

ИИ-модели подобны автомобилям, а данные – топливу: обычные (рассеянные и необработанные) данные не позволяют моделям работать эффективно; для точного функционирования требуются качественные наборы данных. Например, для обучения ИИ диагностике рака необходимо большое количество правильно маркированных медицинских записей и изображений; для развития технологий интеллектуального вождения требуются структурированные данные о дорожных сценариях и поведении транспортных средств. В настоящее время многие отрасли сталкиваются с проблемой недостатка или низкого качества данных, что мешает эффективному использованию ИИ в практических приложениях. Данный план направлен на решение этой проблемы и обеспечение широкого применения ИИ в различных сферах.

2. Сосредоточение внимания на ключевых областях

В плане определены конкретные сферы для создания наборов данных, которые делятся на две категории:

Области первостепенной важности для жизни населения: промышленное производство (данные об оборудовании), сельское хозяйство и сельские районы (данные о почве и росте культур), здравоохранение (медицинские записи и изображения), образование (учебные ресурсы), финансы (данные для оценки рисков) – применение ИИ в этих сферах напрямую влияет на качество жизни людей.
Новые технологические направления: низкокосмическая экономика (данные о дронах), интеллектуальное вождение, биотехнологии – эти области являются перспективными для развития интеллектуальной экономики. Для каждой сферы данные создаются в соответствии с конкретными потребностями: например, сельскохозяйственные наборы данных должны помогать ИИ предсказывать болезни растений, медицинские наборы – поддерживать диагностику заболеваний.

3. Улучшение процесса маркировки данных

Процесс маркировки данных включает добавление информации (аннотаций), позволяющей ИИ их понимать. Ранее это выполнялось вручную, что было медленным и ошибочным; теперь используются комбинированные подходы:

Автоматическая маркировка: сначала данные обрабатываются компьютерами, затем проверяются людьми.
Участие экспертов**: для специализированных областей (медицина, право) требуется участие профессионалов для обеспечения точности информации.
Развитие индустрии маркировки: государство сосредоточится на развитии этой отрасли в первых 7 пилотных городах, создаст дополнительные испытательные зоны и поддержит ведущие компании (например, специализирующиеся на маркировке медицинских данных), а также обучит кадры (через учебные заведения и профессиональные экзамены) – это также создаст новые рабочие места.

4. Превращение данных в рентабельный ресурс

Данные должны стать активом, приносящим доход:

Цикл использования данных: потребность в данных → создание наборов → обучение моделей → применение моделей → получение дополнительных данных → их дальнейшее улучшение.
Инновации в бизнес-моделях: данные могут продаваться на биржах, предоставляться по подписке или через API, а также использоваться в виде минимальных единиц информации (например, точных терминов из определенной области).
Превращение данных в активы: возможность залога данных для получения кредитов или участия в инвестициях.

5. Комплексный подход к реализации плана

Для успешной реализации необходимо сотрудничество государства и местных органов власти, финансовая поддержка (инвестиции финансовых институтов и промышленных фондов), а также обеспечение безопасности данных (предотвращение утечек и вмешательств).

В целом, данный план направлен на создание условий для синергетического развития ИИ и данных, что в конечном итоге приведет к появлению более точных медицинских систем, интеллектуальных производственных процессов и безопасных технологий интеллектуального вождения – всего этого не так уж далеко.