'절치부심' MS, 음성·이미지 AI 모델 출시…"내년엔 최첨단 기반모델 공개"

SBS Biz 임선우

입력2026.04.03 04:39

수정2026.04.03 06:47

마이크로소프트(MS)가 음성 전사(받아쓰기)와 음성 생성, 이미지 생성 특화 모델 3종을 개발자용으로 한꺼번에 선보였습니다.

사티아 나델라 MS 최고경영자(CEO)는 2일(현지시간) 링크트인을 통해 "모든 개발자에게 성장하는 MAI(MS AI) 모델 제품군을 제공하게 됐다"며 음성 전사 모델 'MAI-트랜스크라이브-1', 음성 생성 모델 'MAI-보이스-1', 이미지 생성 모델 'MAI-이미지-2' 등을 소개했습니다.

MAI-트랜스크라이브-1은 영어와 한국어를 포함한 25개 언어를 인식할 수 있으며, 업계 표준 성능지표(벤치마크)인 '플뢰르'에서 오픈AI·구글 등의 모델을 제치고 가장 낮은 오류율을 보였습니다

MS는 이 모델이 다국어로 진행되는 회의장이나 시끄러운 카페·콘서트 현장 등에서도 음성을 또렷하게 인식할 수 있다고 강조했습니다.

MAI-보이스-1은 몇 초 길이의 음성 데이터만으로도 맞춤형 음성을 생성할 수 있고, 60초 분량의 오디오를 단 1초만에 만들어낼 수 있습니다.

또 MAI-이미지-2는 성능지표 최상위권의 이미지를 낮은 가격에 만들 수 있는 가격 대비 성능비를 강점으로 내세웠습니다.

MS는 지난해부터 딥마인드 공동창업자 출신인 무스타파 술레이만 MAI 부문 CEO에게 인간을 능가하는 '초지능'(Superintelligence) 연구·개발을 맡겼지만, 아직 경쟁사 수준의 범용 기반 모델(파운데이션 모델)을 완성하지는 못한 상황입니다.

이와 관련해 술레이만 CEO는 이날 블룸버그 통신에 "우리는 절대적인 최첨단 기술을 내놔야 한다"며 "확실히 2027년까지는 최고 수준에 도달하는 것이 목표"라고 설명했습니다.

그는 지난해 엔비디아의 최신 AI 칩을 비롯한 컴퓨팅 자원을 확대했다고 밝히면서 "이를 바탕으로 앞으로 12∼18개월간 발전을 거듭해 최첨단 수준 연산 성능에 도달할 것"이라고 덧붙였습니다.

나델라 CEO도 최근 사내 개발자 모임에서 3∼5년 내 최첨단 AI 자립의 중요성을 강조했다고 그는 전했습니다.

MS가 다른 AI 스타트업이나 거대 기술기업보다 기반 모델 개발이 늦어진 것은 오픈AI와의 초기 계약 관계 때문이었습니다.

오픈AI 초기 투자사였던 MS는 오픈AI가 자사 클라우드를 우선하여 사용하도록 하고 GPT 모델의 사용권을 얻는 대신 직접 범용 기반 모델 개발에는 나서지 않겠다는 계약을 맺었으나, 지난해 오픈AI의 기업 구조 개편 과정에서 계약을 갱신하면서 이 같은 제약이 사라졌습니다.

임선우다른기사

[외신 헤드라인] "배럴당 1달러씩"…호르무즈 '통행료' 현실로

[글로벌 비즈 브리핑] "배럴당 1달러씩"…호르무즈 '통행료' 현실화하나 外

원문 기사 보기

SBS Biz

'절치부심' MS, 음성·이미지 AI 모델 출시…"내년엔 최첨단 기반모델 공개"

부제 있으면 여기에 들어갑니다. 부제가 여기에 들어갑니다. 없으면 부제 태그 자체를 빼주세요.

추천영상

많이 본 'TOP10'

최신 '영상/포토'

스포츠