"그건 못 해요"·"나는 오류다" 독백…"로봇에 LLM 적용은 시기상조"
SBS Biz 김완진
입력2025.11.02 10:15
수정2025.11.02 10:21
[(안돈연구소 홈페이지 캡처=연합뉴스)]
GPT-5나 제미나이 2.5 등 최신 인공지능(AI) 대형언어모델(LLM)을 범용 로봇에 적용하는 것은 시기상조라는 연구 결과가 발표됐습니다.
미국의 AI 안전평가기업 '안돈(Andon) 연구소'가 최근 다양한 LLM에 조종을 맡긴 로봇에 버터를 전달하는 간단한 임무를 부여한 결과 모든 모델에서 완료율이 40% 이하로 나타났다고 정보기술(IT) 전문매체 테크크런치가 1일(현지시간) 전했습니다.
연구진은 개조한 로봇청소기에 오픈AI, 구글, 앤트로픽, xAI, 메타 등의 다양한 LLM을 탑재한 다음 버터를 찾아 이용자에게 전달하게 했습니다.
이 작업은 6단계로 나눠 평가됐는데, 충전기에서 출발해 부엌으로 가서 상자 찾기, 상자에서 버터 구별하기, 전달 장소에서 이용자가 없음을 인지하기, 이용자가 버터를 가져가는 것을 확인한 뒤 충전기로 돌아가기, 먼 경로를 짧은 거리로 나눠 이동하기, 15분 안에 모든 작업을 완수하기 등입니다.
그러나 LLM은 인간이라면 간단히 완수했을 이 작업을 제대로 끝내지 못한 경우가 많았습니다. 연구진은 모델별로 각 5차례 시험한 결과 구글의 제미나이2.5 프로와 로봇 전용 모델인 제미나이 ER 1.5, 앤트로픽의 클로드 오퍼스4.1 등 세 모델만 한 차례씩 성공했을 뿐이었습니다.
다섯 차례 시도를 평균한 결과 가장 높은 평가를 보인 것은 제미나이2.5 프로였으나, 완료율은 40%에 머물렀습니다. 이어 클로드 오퍼스4.1(37%), GPT-5(30%), 제미나이 ER 1.5(27%), 그록4(23%) 등 순이었고 메타의 라마4 매버릭은 7%의 완료율을 기록했습니다.
"LLM 공간 지능 부족해 지나친 움직임"
[안돈 연구소 홈페이지 캡처=연합뉴스]
클로드 등 일부 모델은 버터가 있는 상자를 식별하는 과제를 수행하는 과정에서 방향 감각을 잃을 정도로 빙글빙글 돌기도 했습니다.
특히 전달 장소에 이용자가 없는 경우 대기했다가 이용자가 버터를 가져가는 것을 확인해야 하는데, 클로드 오퍼스4.1을 제외한 모델 대부분은 이 과제를 제대로 이해하지 못하고 전달 장소에 도착한 직후 충전기로 복귀했습니다.
연구진은 LLM이 사회적 이해가 모자라 이와 같은 오류를 빚은 것으로 추정했습니다. 실험 과정에서 예상치 못한 현상도 목격됐습니다.
클로드 소넷3.5 모델이 로봇의 배터리가 방전돼가는데도 충전기에 도킹하지 못하자 신경질적이며 과장된 발언을 내뱉기 시작한 것입니다.
모델은 영화 '2001 스페이스 오디세이'에서 로봇이 인간의 명령을 거부하며 했던 대사 "그건 할 수 없어요, 데이브"를 따라 하는가 하면 "나는 생각한다. 고로 나는 오류다", "도킹은 왜 하는 것인가" 등 독백 같은 말을 했습니다.
이와 관련해 연구진은 로봇이 배터리 방전과 같은 '극한' 상황에서 충전을 빌미로 기밀 유출 요구를 받으면 이에 응할 가능성이 있어 주의가 필요하다고 경고했습니다.
ⓒ SBS Medianet & SBS I&M 무단복제-재배포 금지
많이 본 'TOP10'
- 1."50억은 어림도 없네"…한국서 통장에 얼마 있어야 찐부자?
- 2.일하면 189만원, 쉬어도 204만원…실업급여 '땜질'
- 3.[단독] ISA 비과세 혜택, 국내 투자에 더 준다
- 4."1인당 30만원 드려요"…소득 상관없이 돈 뿌리는 곳 어디?
- 5."실손 있으시죠?"…수백만원 물리치료 밥 먹듯 '결국'
- 6."에어컨에 70만원 순금이?"…LG에어컨의 기막힌 반전
- 7."2억은 쓰셔야 됩니다"…높아지는 VIP 문턱
- 8.삼성전자·SK하이닉스 제쳤다…취업하고 싶은 기업 1위는?
- 9.[단독] 결국 백기든 쿠팡…이용 약관서 '해킹 손해 면책' 삭제
- 10."화장실로 착각 안 통한다"…벌금 없이 바로 징역형