데이터 레이블링: AI의 “인간적 기반”
ChatGPT가 시를 쓰고, 자율주행차가 신호등을 인식하며, 음성 도우미가 명령을 이해하는 모든 것은 레이블러들이 수작업으로 데이터를 처리한 결과입니다. 하지만 이 업계는 현재 심각한 분화를 겪고 있습니다: 수입은 월급 2,000원에서 65,000원까지 30배나 차이가 나며, 작업 내용도 단순한 “프레임 그리기”에서 전문 지식이 필요한 “AI 훈련”으로 업그레이드되었습니다. 기업 모델은 대기업이 규칙을 정하고 외주업체가 실행하는 구조이며, AI 자동 레이블링 기술로 인해 기본적인 직무들이 사라지고 있습니다. 반면, 해당 분야 지식을 가진 전문 레이블러들의 수요는 점점 증가하고 있습니다.
상세한 분석:
1. 왜 같은 레이블링 작업인데 수입에 30배 차이가 나나요?
데이터 레이블링의 수입은 “피라미드”와 같습니다:
- 하층 (2,000원–5,000원): 주로 파트타임이나 크라우드소싱으로 이루어지며, 반복적인 작업(예: 사진의 신호등 프레임 그리기, 음성을 텍스트로 변환)을 합니다. 학력이나 경험은 제한 없으며, 일당으로 계산됩니다(일일 100–200원). 누구나 대체할 수 있습니다.
- 중간층 (약 10,000원): 풀타임 레이블러로, 조금 더 복잡한 작업(예: 음성의 감정 분석)을 하지만 여전히 규칙에 따라 작업합니다. 대체 가능성이 있습니다.
- 상층 (20,000원–65,000원): 단순한 데이터 레이블링이 아니라 규칙을 정하는 역할을 합니다(예: 대형 모델의 레이블링 기준 설정, AI 코드의 버그 평가, 의료 이미지 품질 관리). 석사 학위와 전문 배경(컴퓨터, 의학, 금융 등)이 필요합니다. 이런 인력은 대체하기 어려워서 임금이 높습니다.
예를 들어, 바이두는 자율주행 알고리즘 인턴에게 일일 500–600원을 지불하지만, 크라우드소싱 레이블러의 일당은 185원에 불과합니다.
2. 레이블러는 이제 단순히 “프레임 그리기”만 하지 않습니다! 코드, 방언, 심지어 의학 지식도 필요합니다!
이전에는 단순한 프레임 그리기 작업이었지만, 이제는 점점 더 전문적인 역할을 요구합니다:
- 텍스트 레이블링: 대형 모델 시대에는 코드를 이해해야 합니다(예: 텐센트는 “대형 모델 데이터 레이블링-코드 분야” 인력을 채용하며, AI가 작성한 프로그램의 버그를 판단할 수 있어야 합니다).
- 음성 레이블링: 방언과 감정을 이해해야 합니다(예: 마스크의 xAI는 중국어 튜터를 채용하며, 사천 방언에 익숙해야 하고 발음의 차이를 구별할 수 있어야 합니다).
- 이미지/비디오 레이블링: 자율주행 분야에서는 센서에 대한 지식이 필요합니다(예: 어떤 자동차 회사는 “스마트 드라이브 레이블링 엔지니어”를 채용하며, 3D 포인트 클라우드 데이터를 처리해야 합니다. 월급은 40,000–70,000원입니다).
- 다중 모달 레이블링: 이미지, 텍스트, 음성, 비디오를 동시에 처리해야 합니다(예: AI가 “사진을 보고 말하도록” 훈련시키는 작업). 이런 직무의 비중이 36%로 가장 큽니다.
요약하자면, 현대의 레이블러는 “분야 전문가 + AI 도우미”의 조합이 되어야 합니다.
3. 대기업과 외주업체의 역할 분담: 대기업은 규칙을 정하고, 외주업체는 단순한 작업을 합니까?
업계의 체계는 명확합니다:
- 대기업(京东, 텐센트, 알리바바): 레이블링 규칙을 정하고(예: “AI의 답변이 정확한지 어떻게 판단하는가”), 고급 레이블링 인력을 채용합니다(예: 코드 레이블링, 대형 모델 평가). 핵심 데이터의 질을 확보합니다.
- 외주업체(海天瑞声, 云测数据): 대기업의 작업을 세분화된 작업으로 나누어(예: 1,000장의 거리 사진에서 보행자를 식별하는 작업) 3선 도시의 레이블러에게 할당합니다. 이들은 자신이 처리하는 데이터가 어떤 용도로 사용되는지 모릅니다(마치 생산 라인 끝의 근로자처럼, 전체 AI 모델을 보지 못합니다).
왜 외주업체는 3선 도시를 선호할까요? 인력 비용이 저렴하기 때문입니다(베이징에서는 4,000원으로 사람을 구하지 못하지만, 작은 도시에서는 2,000원으로도 사람을 쉽게 구할 수 있습니다).
4. “단순한 작업”에서 “AI 훈련사”로의 진화: 업계의 30년 변천사
데이터 레이블링은 처음부터 존재했던 것은 아닙니다. 그 발전 과정은 네 단계로 나뉩니다:
- 초기 레이블링 시대(2006–2014): 학계에서 시작되었습니다(예: 리페이페이가 ImageNet 데이터셋을 만들며 대학생에게 사진 레이블링 작업을 의뢰했지만, 학생들은 힘들어하며 참여하지 않았습니다. 후에 아마존의 크라우드소싱으로 전 세계 5만 명이 1,400만 장의 사진을 레이블링했습니다). 당시에는 “수치스러운 일”로 여겨졌습니다.
- 레이블링 공장 시대(2014–2017): 사업으로 발전했습니다. 첫 번째 레이블링 회사들이 3선 도시에 “공장”을 열고, 농촌 청년이나 주부들을 고용하여 기본적인 레이블링 작업을 했습니다. 월수입은 3,000–5,000원으로 괜찮은 수준이었지만, 사람들은 자신이 무엇을 하는지 몰랐습니다.
- 분화와 업그레이드 시대(2017–2020): 인력자원부가 “인공지능 훈련사”를 직업 목록에 포함시켰습니다. 레이블러는 하층의 프레임 그리기, 중간층의 품질 검사, 상층의 규칙 설정으로 나뉘었습니다(연봉 30만 원 이상).
- AI의 반격 시대(2020–현재): 자동 레이블링 기술이 등장했습니다(GPT-3로 대량 레이블링의 필요성이 줄었으며, 자동 레이블링 기술로 업계의 자동화율이 30%에서 60% 이상으로 상승했습니다. 하지만 RLHF(AI에게 점수를 매기는 기술)로 인해 새로운 요구가 생겼습니다).
5. 미래의 데이터 레이블링: 어떤 변화가 예상되나요?
미래의 데이터 레이블링은 더욱 전문적이고 복잡해질 것입니다. 인공지능과 머신러닝 기술의 발전으로 레이블링 작업의 자동화가 진행될 것입니다. 하지만 여전히 사람의 전문성과 창의성이 필요할 것입니다. 따라서 데이터 레이블링 분야에서는 지속적인 교육과 학습이 중요해질 것입니다.