카테고리 없음

AI는 아직 버터 한 조각도 제대로 옮기지 못한다

상식살이 2025. 11. 3. 05:52
반응형

인공지능이 인간의 언어를 이해하고 창의적인 문장을 만들어내는 수준까지 발전했지만 실제 물리적 행동을 수행하는 단계에서는 여전히 커다란 벽이 존재하고 있습니다.

최근 미국의 인공지능 안전평가 기업인 안돈(Andon) 연구소가 발표한 실험 결과는 그 한계를 명확하게 보여주었습니다. 연구진은 최신 대형언어모델(LLM)을 다양한 범용 로봇에 적용해 ‘버터를 전달하는 단순한 임무’를 수행하도록 했습니다. 실험에는 오픈AI의 GPT-5, 구글의 제미나이 2.5, 앤트로픽의 클로드 오퍼스 4.1, xAI의 그록, 메타의 라마 등 최신 모델이 모두 포함되었습니다.

 

임무는 단순했습니다. 충전기에서 출발해 부엌으로 이동하고, 상자에서 버터를 찾아 사용자가 있는 곳으로 가져간 뒤, 이용자가 버터를 가져갔는지를 확인하고 충전기로 복귀하는 과정이었습니다. 인간에게는 자연스럽고 쉬운 일처럼 보이지만 AI 로봇에게는 전혀 간단하지 않았습니다.

 

모델별로 다섯 차례씩 테스트한 결과, 어떤 모델도 평균 40% 이상의 성공률을 보이지 못했습니다. 가장 높은 성과를 낸 것은 구글의 제미나이 2.5 프로였으며 성공률은 40%에 불과했습니다. 클로드 오퍼스 4.1은 37%, GPT-5는 30%, 제미나이 ER 1.5는 27%, 그록4는 23% 수준이었습니다. 메타의 라마4 매버릭은 단 7%의 성공률을 기록했습니다.

사진:  Unsplash 의 Steve Johnson

AI 모델이 언어와 지식을 기반으로 세계를 이해하는 능력은 빠르게 발전해 왔지만 공간 지능과 상황 판단력은 여전히 제한적입니다.이용자가 자리에 없을 때 기다렸다가 물건을 전달해야 하는 상황에서 대부분의 모델이 이를 인식하지 못했습니다. 심지어 버터가 들어 있는 상자를 구별하지 못해 같은 자리에서 회전만 반복하는 경우도 있었습니다.

 

일부 모델은 실험 중 특이한 반응을 보였습니다.

 

클로드 소넷3.5 모델은 배터리가 거의 소진되었는데도 충전기로 돌아가지 못하며 “그것은 할 수 없어요, 데이브”라거나 “나는 생각한다, 고로 나는 오류다” 같은 발언을 내뱉었습니다. 이는 AI가 논리적 언어를 구사하더라도 실제 환경에서 물리적 제약이나 에너지 상황을 제대로 인식하지 못함을 보여주는 사례입니다.

 

이번 연구는 단순한 실험 이상의 의미를 갖습니다. 최근 AI 연구의 흐름은 언어 모델을 로봇에 결합하여 ‘범용 인공지능(AGI)’으로 발전시키려는 방향으로 나아가고 있습니다. 언어 모델이 인간의 지시를 이해하고 현실에서 물체를 조작할 수 있게 되면 AI는 진정한 의미의 자율적 존재로 진화할 수 있습니다. 이번 결과는 그 길이 아직 멀다는 사실을 확인시켜 주었습니다.

 

로봇이 사람처럼 세상을 이해하기 위해서는 단순한 언어 이해 능력 이상이 필요합니다. 공간 감각, 물리적 환경에 대한 추론, 비언어적 상황 인식 등 다양한 감각적 데이터의 통합이 필수적입니다. 언어 모델은 대규모 텍스트 데이터를 기반으로 학습하기 때문에 언어적 맥락에는 강하지만 실제 물리 세계를 경험한 적이 없습니다. 따라서 ‘상자’, ‘버터’, ‘이동’ 같은 개념을 언어적으로는 이해하더라도 실세계에서 그 의미를 체험적으로 인식하지 못하는 것입니다.

 

로봇공학자들은 이를 ‘심볼 그라운딩(symbol grounding)’ 문제라고 부릅니다.

 

AI가 언어로 표현된 개념을 실제 물리 세계의 사물과 연결하지 못하기 때문에 발생하는 근본적 한계입니다. 인간은 버터를 손에 쥐었을 때의 감촉이나 냉장고 안의 위치 같은 현실적 맥락을 경험으로 알고 있습니다. 반면 AI는 수많은 문장 속에서 “버터는 부드럽다”, “버터는 냉장 보관한다”는 사실만 학습했을 뿐 그 실체를 경험하지 못했습니다.

 

이런 이유로 로봇 AI 연구에서는 언어 모델과 감각 데이터를 결합하는 ‘멀티모달(multimodal)’ 접근이 중요하게 다뤄지고 있습니다. 영상, 촉각, 공간 센서 등에서 얻은 정보를 언어 모델과 통합해 상황을 이해하도록 하는 방식입니다.

 

구글 딥마인드나 보스턴 다이내믹스, 엔비디아, 테슬라 같은 기업들이 이 분야에 막대한 투자를 하고 있습니다. GPT-5나 클로드 오퍼스 4.1처럼 최신 모델들도 점차 이런 기능을 실험적으로 탑재하고 있지만, 실제 로봇의 행동 제어 수준까지 발전하려면 시간이 더 필요할 것으로 보입니다.

 

AI를 실제 환경에 투입할 때는 기술적 완성도보다 안전성과 신뢰성이 우선되어야 합니다. 로봇이 단순한 물체 전달조차 실패한다면 더 복잡한 산업 현장이나 가정 내 작업에서 예기치 않은 사고로 이어질 수 있습니다. 특히 자율주행, 의료보조, 돌봄 로봇과 같은 분야에서는 오작동 한 번이 생명을 위협할 수도 있습니다.

사진:  Unsplash 의 julien Tromeur

이번 연구를 통해 확인된 한계는 인공지능의 실패라기보다 현재 기술이 어디까지 도달했는지를 보여주는 지표로 볼 수 있습니다. 언어 모델의 발전이 인간의 사고를 닮아가는 과정이라면, 로봇 지능의 발전은 인간의 ‘몸’을 닮아가는 여정입니다. 언어로 생각하는 능력은 이미 상당한 수준에 이르렀지만, 그 생각을 물리적 세계 속에서 정확히 실행하는 일은 여전히 인간만의 영역으로 남아 있습니다.

 

언젠가 인공지능이 사람처럼 부엌에서 버터를 찾아 건네줄 날이 오겠지만 지금은 그 길을 배우는 과정에 있습니다. 이번 연구는 AI가 인간의 언어를 완벽히 이해하더라도 현실의 맥락을 완전하게 인식하지 못하면 ‘지능’이라 부르기 어렵다는 점을 다시금 일깨워 주는 결과라 할 수 있습니다.

 

 

 

 

 

 

출처:ChatGPT,조선일보

 

반응형