텍스트·이미지·음성 한번에 이해…네이버 '옴니모달' AI 개발
SBS Biz 지웅배
입력2025.12.19 06:43
수정2025.12.19 06:45
네이버가 텍스트와 이미지, 음성을 처음부터 한꺼번에 이해하고 생성해 내는 차세대 AI '옴니모달'(omni-modal) 모델 개발을 사실상 마친 것으로 확인됐습니다.
네이버는 자사의 기존 AI 플랫폼 '하이퍼클로바X'의 기능을 더욱 확장한 이 모델을 조만간 일반에 공개할 것으로 예상됩니다.
오늘(19일) 정보통신기술(ICT) 업계에 따르면 네이버는 이르면 이달 말 신규 생성형 AI 모델인 옴니모달을 공개할 예정입니다. 이 모델은 네이버의 자체 AI 모델인 하이퍼클로바X를 '옴니모달' 형태로 고도화한 것이 특징입니다.
네이버가 독자 기술 확보에 나선 옴니모달은 기존의 '멀티모달'(multi-modal)보다 훨씬 확장된 개념의 차세대 AI 기술로 평가받습니다. 여기서 모달은 '모달리티'(modality)의 약자로, AI가 처리하는 다양한 정보의 형태를 말합니다.
가령 멀티모달은 글로 표기된 단어만 이해하는 AI가 이미지나 음성을 나중에 접하고 이를 단어와 연결해 가면서 세상을 이해하는 방식이라면, 옴니모달은 그 이해의 속도와 폭을 대폭 향상한 개념입니다. 그렇기에 옴니모달을 적용하면 처음부터 글, 이미지, 음성을 한꺼번에 학습해 주어진 정보을 통합적으로 이해하고 추론하는 것은 물론 상황과 맥락, 환경까지 종합 판단할 수 있는 식입니다.
특히, 옴니모달은 서로 다른 모달리티 간 입·출력이 자유롭게 변환되는 것이 특징입니다. 사용자는 상황에 따라 텍스트, 이미지, 음성 중 어떤 방식으로도 질문할 수 있고, 신규 모델은 여러 형태 정보를 자유롭게 활용해 답변을 내놓을 수 있습니다. 설령 정보 형태가 달라지더라도 현실 세계의 복잡한 맥락이나 사용자 의도를 더 일관된 정확도로 파악할 수 있습니다.
이와 함께 여러 모델들을 덧붙인 구조가 아닌 하나로 통합된 구조여서 필요에 따라 모델 규모를 확대해 성능을 높이기에도 기술적으로 훨씬 용이합니다.
옴니모달이 '일반인공지능'(AGI)으로 향하는 핵심 기술이자 AI 차세대 기술로 주목받는 이유이기도 합니다. 네이버는 우선 대규모·중량화가 아닌 경량화 규모의 옴니모달 모델을 먼저 선보일 계획입니다.
옴니모달이라는 새로운 개발 방법론을 검증하는 차원으로, 신규 모델명은 아직 확정되지 않은 것으로 알려졌습니다.
네이버는 '스케일업'이 용이한 옴니모델의 특징을 활용해 상대적으로 작은 규모의 모델을 안정적으로 개발한 뒤 이를 토대로 그래픽처리장치(GPU)와 데이터를 투입해 모델 규모를 키우겠다는 전략입니다. 네이버는 그간 멀티모달 분야에서도 경쟁력을 갖춘 만큼 옴니모달에서도 우월한 기술력을 확보할 수 있을 것으로 보고 있습니다.
앞서 네이버클라우드는 지난 8월 과학기술정보통신부가 추진하는 '독자 AI 파운데이션 모델' 프로젝트의 5개 주관 사업자 중 하나로 선정된 뒤 이종 데이터를 통합 이해·생성하는 '옴니 파운데이션 모델'을 개발하겠다고 밝힌 바 있습니다.
ⓒ SBS Medianet & SBSi 무단복제-재배포 금지
많이 본 'TOP10'
- 1.[단독] ISA 비과세 혜택, 국내 투자에 더 준다
- 2.일하면 189만원, 쉬어도 204만원…실업급여 '땜질'
- 3."1인당 30만원 드려요"…소득 상관없이 돈 뿌리는 곳 어디?
- 4.[단독] 결국 백기든 쿠팡…이용 약관서 '해킹 손해 면책' 삭제
- 5."실손 있으시죠?"…수백만원 물리치료 밥 먹듯 '결국'
- 6."에어컨에 70만원 순금이?"…LG에어컨의 기막힌 반전
- 7."2억은 쓰셔야 됩니다"…높아지는 VIP 문턱
- 8."화장실로 착각 안 통한다"…벌금 없이 바로 징역형
- 9.[단독] 카카오, 내년부터 이용패턴·기록 강제수집 검토
- 10.몰라서 매년 토해냈다…연말정산 세금 이렇게 아낀다