SBS Biz

어떤 문제길래?…AI도 '절절' 맨다 '인류 마지막 시험'

SBS Biz 송태희
입력2026.01.29 10:14
수정2026.01.29 10:16

[AI (인공지능) (PG) (사진=연합뉴스)]

전 세계 최신 인공지능(AI)들이 고개를 떨군 초고난도 벤치마크(AI 성능 비교 시험) '인류의 마지막 시험'(Humanity's Last Exam, HLE)이 29일 국제학술지 '네이처'에 공개됐습니다. 



전 세계 전문가들이 모여 다양한 학문 분야 2천500문항으로 만든 AI 학술 시험으로 한국 연구자들도 문제 출제에 참여한 것으로 나타났습니다. 

HLE는 지난해 1월 미국 비영리단체 AI안전센터(CAIS)와 스타트업 스케일AI가 공개했는데, 약 1년만에 공식 논문으로 출시됐습니다. 

HLE는 수학, 물리학, 화학, 생물학, 공학, 컴퓨터과학, 인문학 등 100여 개 세부 학문 분야를 총망라하며, 일부 문항은 글과 이미지를 함께 이해해야 풀 수 있는 멀티모달 문제로 구성됐습니다. 

AI가 빠르게 성장하며 각종 벤치마크에서 90점 이상 높은 점수를 받는 등 무력화하자 인류의 마지막 보루 격인 시험을 만들기 위해 마련된 프로젝트로, 50개국 500여 기관 교수와 연구자 약 1천여명이 출제에 참여했습니다. 



각 문항은 출제 당시 최고 성능의 AI 모델들도 풀지 못한 문제들로 엄선해 추려졌으며, 이들 문제에 대해 분야별 전문가가 점수를 매겨 높은 점수를 얻은 문제만 최후의 문제로 남았습니다. 

수학 문제가 41%로 가장 많으며 묘비에서 발견된 로마 비문 일부를 번역하거나 벌새의 종자골이 몇 쌍의 힘줄을 지지하는지 등 분야별 전문성을 요구하는 문제가 다수 출제됐습니다. 

이렇게 인류가 심혈을 기울여 만든 문제에 AI들도 아직 맥을 못 추고 있습니다.. 

AI안전센터가 공개한 데이터에 따르면 구글 제미나이 3 프로가 정확도 38.3점(%)으로 가장 높은 성적을 거뒀으며 오픈AI의 GPT-5.2가 29.9점, 오푸스 4.5가 25.8점, 딥시크 3.2가 21.8점을 기록했습니다. 

정부의 독자 파운데이션 모델 경쟁에 참여 중인 국내 AI 모델들도 아직은 낮은 점수를 기록하고 있습니다. 

HLE 문제 중 텍스트만 추린 평가에서 LG AI연구원의 'K-엑사원'(EXAONE)은 13.6점을 기록했으며 업스테이지의 '솔라 오픈'은 10.5점, SK텔레콤의 '에이닷엑스 케이원'(A.X K1)은 7.6점을 받았습니다. 

 

ⓒ SBS Medianet & SBSi 무단복제-재배포 금지

송태희다른기사
양대노총, 공공기관 주말 통근버스 중단에 "정책 실패 떠넘겨"
얼마 만에 '영상기온이야'…주말에 긴 추위 끝