'절치부심' MS, 음성·이미지 AI 모델 출시…"내년엔 최첨단 기반모델 공개"
마이크로소프트(MS)가 음성 전사(받아쓰기)와 음성 생성, 이미지 생성 특화 모델 3종을 개발자용으로 한꺼번에 선보였습니다.
사티아 나델라 MS 최고경영자(CEO)는 2일(현지시간) 링크트인을 통해 "모든 개발자에게 성장하는 MAI(MS AI) 모델 제품군을 제공하게 됐다"며 음성 전사 모델 'MAI-트랜스크라이브-1', 음성 생성 모델 'MAI-보이스-1', 이미지 생성 모델 'MAI-이미지-2' 등을 소개했습니다.
MAI-트랜스크라이브-1은 영어와 한국어를 포함한 25개 언어를 인식할 수 있으며, 업계 표준 성능지표(벤치마크)인 '플뢰르'에서 오픈AI·구글 등의 모델을 제치고 가장 낮은 오류율을 보였습니다
MS는 이 모델이 다국어로 진행되는 회의장이나 시끄러운 카페·콘서트 현장 등에서도 음성을 또렷하게 인식할 수 있다고 강조했습니다.
MAI-보이스-1은 몇 초 길이의 음성 데이터만으로도 맞춤형 음성을 생성할 수 있고, 60초 분량의 오디오를 단 1초만에 만들어낼 수 있습니다.
또 MAI-이미지-2는 성능지표 최상위권의 이미지를 낮은 가격에 만들 수 있는 가격 대비 성능비를 강점으로 내세웠습니다.
MS는 지난해부터 딥마인드 공동창업자 출신인 무스타파 술레이만 MAI 부문 CEO에게 인간을 능가하는 '초지능'(Superintelligence) 연구·개발을 맡겼지만, 아직 경쟁사 수준의 범용 기반 모델(파운데이션 모델)을 완성하지는 못한 상황입니다.
이와 관련해 술레이만 CEO는 이날 블룸버그 통신에 "우리는 절대적인 최첨단 기술을 내놔야 한다"며 "확실히 2027년까지는 최고 수준에 도달하는 것이 목표"라고 설명했습니다.
그는 지난해 엔비디아의 최신 AI 칩을 비롯한 컴퓨팅 자원을 확대했다고 밝히면서 "이를 바탕으로 앞으로 12∼18개월간 발전을 거듭해 최첨단 수준 연산 성능에 도달할 것"이라고 덧붙였습니다.
나델라 CEO도 최근 사내 개발자 모임에서 3∼5년 내 최첨단 AI 자립의 중요성을 강조했다고 그는 전했습니다.
MS가 다른 AI 스타트업이나 거대 기술기업보다 기반 모델 개발이 늦어진 것은 오픈AI와의 초기 계약 관계 때문이었습니다.
오픈AI 초기 투자사였던 MS는 오픈AI가 자사 클라우드를 우선하여 사용하도록 하고 GPT 모델의 사용권을 얻는 대신 직접 범용 기반 모델 개발에는 나서지 않겠다는 계약을 맺었으나, 지난해 오픈AI의 기업 구조 개편 과정에서 계약을 갱신하면서 이 같은 제약이 사라졌습니다.
ⓒ SBS Medianet & SBSi 무단복제-재배포 금지
많이 본 'TOP10'
- 1.부부월급 630만원 이하면 받는다…이르면 내달까지 지급
- 2.'이러다 유령 나올라'…불꺼진 새 아파트 수두룩
- 3."1인 월 소득 385만원 이하면 지원금 받는다"
- 4."엄마, 우리도 쟁여둬야 하는 거 아냐?"…마트 갔다가 깜짝
- 5.'차량 2부제' 18년에 부활…0일 공공부터
- 6.항공권 오늘 끊으세요…내일부터 3배 오른다
- 7.이틀 새 37% 폭락 삼천당제약…황제주냐 모래성이냐
- 8.윤석열, 구치소서 돈방석?…대통령 연봉 4.6배 받았다
- 9.10억 짜리 서울 집, 2억 만 내면 '바로 내집' 된다?
- 10.전쟁보다 '이자'가 더 무서워…영끌족 발동동