虎嗅

【JDの151件の求人を徹底分析!「データアノテーター」の実態を暴く】 二極化が進み、給与には30倍もの差があり、過酷な未来が待っている

原文:深扒151份JD,揭秘“数据标注员”:两极分化,30倍薪水差,残酷的未来

核心内容の要約

データアノテーションはAIの背後にある「人間の基盤」であり、ChatGPTが詩を書いたり、自動運転車が信号機を認識したり、音声アシスタントが指示を理解するなど、すべてはアノテーターによる手作業に依存しています。しかし、この業界は現在深刻な分化が見られます。収入は月給2,000円から65,000円まで30倍もの差があり、仕事内容も単純な「枠を描く」作業から専門知識を要する「AIトレーニング」へと進化しています。企業のモデルは大手企業がルールを定め、外部委託会社が実際の作業を行う形になっており、AIによる自動アノテーションが基礎的な職務を置き換えつつあります。そのため、特定分野の知識を持つ専門家アノテーターの需要は高まっています。

詳細な解説

1. 收入に30倍もの差がある!なぜ同じアノテーションでもこんなに違うのか?

データアノテーションの収入は「ピラミッド」のような構造をしています:

  • 下層(2,000円~5,000円):主にアルバイトやクラウドソーシングで行われ、繰り返し作業が中心です(例:画像の信号機の枠を描いたり、音声をテキストに変換したり)。学歴や経験は問われず、日給100~200円で誰でもできる仕事です。
  • 中層(約10,000円):フルタイムのアノテーターが少し複雑な作業を行います(例:音声の感情を分析する)。しかし、ルールに従って作業を行うため代替可能性は高いです。
  • 上層(20,000円~65,000円):単なるデータのアノテーションではなく、ルールを定める役割を担います(例:大規模モデルのアノテーション基準を作成したり、AIコードのバグを評価したり、医療画像の品質を管理したり)。この層には修士号や専門的な背景が求められるため、給与も高くなります。

例:百度では自動運転アルゴリズムのアノテーションインターンに日給500~600円を支払っています(修士号が必要)。一方でクラウドソーシングのアノテーターは日給185円しかもらえず、3倍以上の差があります。

2. アノテーターはもう「枠を描く」だけではない!今ではコードや方言、さらには医学の知識も必要!

以前は単純な作業でしたが、現在ではより専門的なスキルが求められます:

  • テキストアノテーション:大規模モデル時代にはコードの知識が必要です(例:テンセントは「大規模モデルデータアノテーション・コード方向」の人材を募集しており、AIが書いたプログラムにバグがないかを判断できることが求められます。
  • 音声アノテーション:方言や感情を理解する必要があります(例:マスクのxAIは中国語のチューターを募集しており、四川弁などに精通していることが求められます)。
  • 画像/ビデオアノテーション:自動運転分野ではセンサーの知識が必要です(例:ある自動車会社は「インテリジェントドライブアノテーションエンジニア」を募集しており、3Dポイントクラウドデータを処理する)。月給は40,000~70,000円です。
  • マルチモーダルアノテーション:画像・テキスト・音声・ビデオを同時に処理する必要があります(例:AIに「画像を見て話す」ようにトレーニングさせる)。この種の仕事が最も需要が高く、全体の36%を占めています。

要するに、現在のアノテーターは「分野の専門家」と「AIアシスタント」の両方の能力を持つ必要があります。

3. 大手企業と外部委託会社の役割分担:大手がルールを定め、外部委託会社が実際の作業を行う?

業界のチェーンは明確です:

  • 大手企業(京东、腾讯、阿里など):アノテーションのルールを定めたり、高度な人材を募集したりして、データの品質を管理します。
  • 外部委託会社(海天瑞声、云测数据など):大手企業の仕事を細かいタスクに分解し、三線都市のアノテーターに任せます。これらのアノテーターは自分が処理したデータが何に使われるのかを知りません(まるで流れ作業の最終段階の労働者のようです)。

なぜ外部委託会社は三線都市を好むのか?人件費が安いからです。北京では4,000円でも人を雇えない場合がありますが、県城では2,000円で人が集まります。

4. 「単純な作業」から「AIトレーニング師」へ:30年間の業界の変遷

データアノテーションは自然発生的に生まれたわけではありません。その発展過程は以下の4段階です:

  • 初期のアノテーション時代(2006~2014年):学術界での「単純な作業」——李飛飛がImageNetデータセットを作成し、大学生に画像のアノテーションを依頼しましたが、学生たちは面倒だと感じていました。後にアマゾンのクラウドソーシングを利用して1,400万枚の画像が処理されました(世界中から5万人が参加)。当時は「恥ずべきこと」と見なされていました。
  • アノテーションファクトリー時代(2014~2017年):ビジネスとして成立し、三線都市にアノテーションファクトリーが設立され、農村出身の若者や主婦などが基礎的な作業を行いました。月収は3,000~5,000円でまずまずの収入でしたが、何をしているのかはほとんどわかりませんでした。
  • 分化と進化の時代(2017~2020年):人事部が「人工知能トレーニング師」を職業カタログに登録し、アノテーターは下層の作業者、中層の品質管理者、上層のルール定める者に分かれました(年収30万円以上)。
  • AIの反発時代(2020年~現在):自動アノテーションが登場し、GPT-3などにより大量のアノテーションの需要が減少しました。しかしRLHF(AIの評価)によって新たなニーズが生まれています(例:AIの回答の事実性を評価する)。これらの作業には人間の主観的判断が必要で、現時点では自動化されていません。

5. 未来はどうなるのか?AIはアノテーターの仕事を奪うのか?

答えは:基礎的な職務は淘汰され、専門的な職務の需要が高まる

  • 淘汰されるのは:単純な作業を行うアノテーター(例:枠を描く、テキストを転写する)。自動アノテーションと人間によるチェックが主流になり、AIが初期段階の処理を行い、人間は誤りを確認するだけの役割になります。
  • 残るのは:2種類の人材です——①特定分野の知識を持つ専門家(例:医療画像のアノテーター、金融データのアノテーター)、②管理やルール定めができる人材(例:プロジェクトリーダー、ルール設計者)。

AI企業の人事担当者は「コンピューターサイエンスの卒業生をトレーニング師として雇いたい」と言っています。なぜなら、単純な作業を行うアノテーターには専門知識や論理的思考が欠けているからです。

最後に:データアノテーションは依然としてAIの「基盤」ですが、「低いハードル」の代名詞ではなく、「専門人材の入り口」となっています。医療やコーディング、デザインなどの分野で学んだ人でも、代替不可能な能力を持てばチャンスがあります。

一言でまとめる

データアノテーション業界は急速に変化しており、専門的なスキルが求められています。今後もこの傾向が続くでしょう。