虎嗅

Анализ 151 заявки от JD.com: раскрытие тайн работы «маркеров данных»: крайние различия в условиях труда и зарплатах (разница в 30 раз), жестокие перспективы для работников этой сферы.

原文:深扒151份JD,揭秘“数据标注员”:两极分化,30倍薪水差,残酷的未来

Краткое содержание анализа

Аннотация данных является “человеческой основой” искусственного интеллекта (ИИ): ChatGPT создает стихи, системы автономного вождения распознают светофоры, голосовые помощники понимают команды — всё это возможно благодаря ручной обработке данных аннотаторами. Однако сегодня в этой отрасли наблюдается серьезное разделение: зарплаты варьируются от 2000 до 65000 юаней в месяц (разница в 30 раз), а характер работы изменился с механического выполнения простых задач на требование специализированных знаний для обучения ИИ. Крупные компании устанавливают правила, а внешние подрядчики выполняют их; к тому же автоматические системы аннотации заменяют базовые рабочие места, в то время как экспертные аннотаторы с соответствующими знаниями становятся всё более редкостью.

Подробный анализ

1. Почему зарплаты так различаются?

Структура доходов в индустрии аннотации напоминает “пирамиду”:

  • Низший уровень (2000–5000 юаней): в основном подработки и краудсорсинг; задачи повторяющиеся (например, обводка контуров светофоров на изображениях, транскрипция речи). Не требуется высшее образование или опыт; оплата производится по дням (100–200 юаней в день); заменить таких сотрудников можно легко.
  • Средний уровень (около 10000 юаней): штатные аннотаторы выполняют более сложные задачи (например, определение эмоций в речи), но работа всё ещё основана на установленных правилах; заменяемость высока.
  • Высший уровень (20000–65000 юаней): аннотаторы не просто обрабатывают данные, но и устанавливают правила для работы ИИ-моделей, оценивают ошибки в коде, контролируют качество медицинских изображений; требуется высшее образование (компьютерные науки, медицина, финансы и т. д.). Такие специалисты сложно заменить, поэтому их зарплаты выше.

Например: Baidu платит стажерам-аннотаторам 500–600 юаней в день (требуется наличие степени магистра), тогда как цена услуг краудсорсинговых аннотаторов составляет всего 185 юаней в день — разница более чем в 3 раза.

2. Аннотаторы больше не просто “обводят контуры”? Теперь им нужны знания в программировании, диалектах и медицине!

Раньше аннотаторы выполняли однообразные задачи, но сейчас требуются более профессиональные навыки:

  • Аннотация текста: в эпоху больших моделей необходимо знать программирование; компания Tencent ищет специалистов, которые могут выявлять ошибки в коде ИИ.
  • Аннотация речи: требуются знание диалектов (например, китайского языка); компания Musk ищет преподавателей, владеющих такими диалектами, как сычуаньский; для работы с французским языком требуется уровень B2.
  • Аннотация изображений/видео: в области автономного вождения необходимо понимание принципов работы датчиков; компания ищет инженеров, способных работать с 3D-данными (зарплата от 40000 до 7000 юаней в месяц).
  • Мультимодальная аннотация: необходимо одновременно обрабатывать текст, изображения, звук и видео; для тренировки ИИ требуются эстетическое восприятие изображений и логика языка; такие позиции составляют 36% от общего числа запросов.

Короче говоря, современные аннотаторы должны сочетать в себе знания конкретной области и навыки работы с ИИ.

3. Разделение труда между крупными компаниями и подрядчиками: кто что делает?

Отрасль имеет чёткую структуру:

  • Крупные компании (JD.com, Tencent, Alibaba): устанавливают правила для аннотации, нанимают высококвалифицированных специалистов (аннотаторов, оценивающих код ИИ-моделей) и контролируют качество данных.
  • Подрядчики (Haitian Ruisheng, Yunce Data): делят большие задачи на более мелкие части и распределяют их сотрудникам в третьих городах; эти сотрудники зачастую не знают, для чего используются обрабатываемые данные.

Почему подрядчики предпочитают третьи города? Потому что там рабочая сила дешевле: в Пекине за 4000 юаней найти квалифицированного специалиста сложно, а в маленьких городах на такую зарплату есть множество кандидатов.

4. Из “простых рабочих” в “специалистов по обучению ИИ”: история развития отрасли за 30 лет

Индустрия аннотации возникла не сразу; её развитие прошло четыре этапа:

  • Эпоха начального этапа (2006–2014): академические исследования; учёные создавали наборы данных (например, ImageNet); студенты считали это утомительным занятием. Позже для аннотации использовался краудсорсинг (50 000 человек из всего мира обработали 14 миллионов изображений); в то время это считалось позором.
  • Эпоха промышленного производства аннотаций (2014–2017): появились компании, занимающиеся аннотацией; сотрудники из сельских районов и мам-домохозяек получали приличную зарплату (3000–5000 юаней в месяц), но большинство не понимало суть своей работы.
  • Эпоха дифференциации и улучшения качества (2017–2020): Министерство труда включило профессию “специалист по обучению ИИ” в официальный список профессий; аннотаторы стали деляться на несколько категорий.
  • Эпоха влияния ИИ (с 2020 года): появились автоматические системы аннотации; их использование увеличило эффективность работы отрасли с 30% до более чем 60%; однако новые задачи (например, оценка достоверности ответов ИИ) требуют человеческого вмешательства.

5. Как будет развиваться отрасль в будущем? Заменит ли ИИ аннотаторов?

Базовые рабочие места исчезнут, но специализированные специалисты станут востребованнее:

  • Будут упразднены: простые задачи (обводка контуров, транскрипция текста); автоматические системы будут выполнять основную работу, а люди будут проверять и корректировать результаты.
  • Останутся: эксперты с соответствующими знаниями (компьютерные науки, медицина и т. д.) и специалисты по работе с ИИ.

В общем, отрасль аннотации быстро развивается и требует новых навыков; кто не будет следить за этими изменениями, тот останется позади.