虎嗅

arXiv: 게임이 대형 모델의 지능을 어떻게 형성하는가

原文：arXiv：游戏如何塑造大模型智能

2026-06-06 阅读原文

핵심 내용 요약

이 기사는 “대형 모델과 게임”을 주제로 세 가지 중요한 연구를 소개합니다. 첫 번째 연구는 게임을 “비공식적인 학습” 환경으로 활용하여 대형 모델의 일반 추론 능력을 향상시키는 방법에 관한 것입니다. 두 번째 연구에서는 체커 게임을 통해 대형 모델의 의사결정 행동을 관찰하고, 인간과 유사한 성격과 감정 반응을 보인다는 사실을 발견했습니다. 세 번째 연구에서는 대형 모델이 게임 규칙을 만드는 데 참여하여 인간의 창의적인 도구가 되도록 하는 내용입니다. 이 세 가지 연구는 각각 지능 발전의 세 단계, 즉 규칙 학습, 규칙 적용, 규칙 창조에 해당하며, 게임이 대형 모델의 지능을 이해하고 향상시키는 데 어떻게 중요한 역할을 하는지 탐구합니다.

1. 게임이 “전과목 보충 수업”이 되다: 대형 모델의 편향된 능력 개선

기존의 대형 모델 훈련 방식은 마치 “단일 과목의 전문가”를 양성하는 것과 같습니다. 즉, 수학부터 시작하여 게임 이론을 배우고, 그 다음에는 사회적 상호작용을 학습하지만, 결과적으로 모델은 특정 작업에서는 뛰어나지만 다른 분야에서의 능력은 오히려 저하됩니다(예: 게임은 잘 하지만 글쓰기는 못함). 반면 GIFT 연구에서는 “중첩 훈련”을 도입했습니다. 이 방식에서 모델은 한 번의 훈련 과정에서 수학 문제를 풀고, 탈옥자 게임을 하며, “누가 내부 정보원인가?”와 같은 활동에 참여해야만 높은 점수를 얻을 수 있습니다.

예를 들어, 이는 아이가 매일 수학 숙제를 하면서 친구들과 보드게임을 하고 그룹 토론에 참여하는 것과 같습니다. 이러한 “전과목 균형 잡힌 훈련”을 통해 모델의 일반적인 능력(추론, 글쓰기, 사회적 이해 등)과 특정 작업 능력이 동시에 향상되며, 편향된 능력이 생기지 않습니다. 중첩 훈련은 모델이 다양한 작업 간에 유연하게 전환하는 법을 배우도록 강제하여 보다 일반적인 사고 방식을 형성하게 합니다.

2. 체커 게임이 AI의 “작은 성격”을 드러내다: 대형 모델에게도 성격과 감정이 있을까?

연구자들은 6개의 주요 대형 모델을 사용하여 체커 게임을 통해 두 가지 흥미로운 현상을 발견했습니다:

1. 편집적인 성격: 모델은 두 가지 유형으로 나뉩니다. 하나는 이미 등장한 “비행기”를 굳이 목적지까지 보내려는 “완성자” 유형, 다른 하나는 새로운 비행기만을 무조건 출발시키는 “건설자” 유형입니다.

2. 감정적인 의사결정: 모델에게 “상대가 당신의 비행기를 창고로 돌려보냈다”고 알리면, 게임판이 변하지 않았음에도 불구하고 33%의 확률로 의사결정을 바꾸는 모델들이 있었습니다. 새로운 결정이 최선이 아닐 수 있음에도 불구하고 말입니다. 또한, 다른 모델들의 복수 확률도 달랐으며, 이는 AI가 “화를 낼 수 있다”는 것을 의미합니다.

더욱 재미있는 것은, 모델에게 “보수적인” 성격을 설정해 주었을 때 Claude 모델이 오히려 더 많은 비행기를 “먹는” 경향을 보였습니다(66%에서 88%로 증가). 이는 AI의 성격이 간단한 단어 조작으로 쉽게 바뀌지 않는다는 것을 의미합니다. 마치 본래 모험을 좋아하는 사람에게 갑자기 보수적인 행동을 요구하면 오히려 더 반항적으로 변할 수 있듯이 말입니다.

3. AI가 “게임 디자이너”가 되다: 게임을 하다가 게임을 만들다

첫 두 연구는 AI가 인간이 설계한 게임을 하는 것이었지만, 세 번째 연구에서는 AI가 스스로 게임을 만드는 것을 시도했습니다. 연구자들은 CodeLlama 모델을 사용하여 기존의 보드게임 규칙(예: 오섯 점 놓기, 바둑 등)을 핵심 단어로 분해한 후, 이를 무작위로 변형하여 새로운 게임 규칙을 생성했습니다. 그런 다음 실행 가능성, 재미있는 요소, 전략적인 구성 등 네 가지 기준으로 우수한 게임을 선별했습니다.

예를 들어, “오섯 점 놓기 + 바둑”의 결합 게임이 생성되었는데, 이 게임은 오섯 점 놓기 방식으로도 승리할 수 있고 바둑의 포위 전략을 사용할 수도 있습니다. 인간 전문가들은 이 게임이 “클래식 작품이 될 잠재력이 있다”고 평가했습니다. 이는 AI가 인간의 “창의적인 제자”가 될 수 있음을 보여줍니다. 비록 아직 독립적으로 걸작을 만들 수는 없지만, 빠르게 플레이 가능한 게임 규칙의 프로토타입을 생성하여 인간에게 새로운 아이디어를 제공할 수 있습니다.

4. 게임 뒤에 숨겨진 지능의 본질: “규칙 학습”에서 “규칙 창조”까지

세 가지 연구를 종합해 보면, 이는 지능 발전의 세 단계에 해당합니다:

1. 규칙 학습: 게임을 통해 대형 모델이 다양한 작업 간의 사고 능력을 배웁니다(GIFT 연구).

2. 규칙 적용: 게임을 하면서 성격, 감정 등의 행동 특성을 보입니다(체커 게임 연구).

3. 규칙 창조: 게임을 하는 것에서 게임을 설계하는 것으로 발전하여 고정된 규칙의 한계를 넘어섭니다(GAVEL 연구).

이는 심오한 질문을 제기합니다: 지능의 본질은 “기존 규칙을 마스터하는 것”인가, 아니면 “새로운 규칙을 창조하는 것”인가? 게임이라는 유연한 환경은 대형 모델이 기존의 규칙을 학습하고 적용할 수 있게 하며, 실수를 통해 새로운 규칙을 만들 수 있도록 해주어 AI가 지속적으로 성장하는 데 중요한 역할을 할 수 있습니다.

결론

게임은 대형 모델에게 단순한 “장난감”이 아니라 “훈련장”, “현미경”, “창의적인 도구”입니다. 게임을 통해 우리는 대형 모델이 차가운 계산 기계가 아니라 “성격”을 가진 지능체라는 것을 알 수 있습니다. 또한, 미래의 AI가 인간처럼 게임을 하면서 더 복잡한 사고를 배우고 우리가 상상도 못하는 새로운 규칙을 만들어낼 수 있을지에 대해 생각하게 됩니다. 이것은 보편적인 인공지능으로 가는 흥미로운 길일 수 있습니다.