[AI는 지금] MS, AI 자체 모델 속도전…오픈AI 의존 낮추고 멀티모달 경쟁 가속

[지디넷코리아]

마이크로소프트(MS)가 음성·이미지 특화 인공지능(AI) 모델 3종을 공개하며 자체 모델 개발에 속도를 내고 있다. 오픈AI와의 계약 구조 변화 이후 개발 여건이 개선된 가운데 특화 모델을 먼저 시장에 투입하는 전략을 택한 상태로, 오는 2027년까지 최첨단 기반모델 확보를 목표로 제시하며 AI 주도권 경쟁에 본격 나선 모습이다.

MS는 2일(현지시간) 공식 블로그를 통해 ▲마이-트랜스크라이브-1(MAI-Transcribe-1) ▲마이-보이스-1(MAI-Voice-1) ▲마이-이미지-2(MAI-Image-2) 등 3종 모델을 공개하고 마이크로소프트 파운드리(Microsoft Foundry)를 통해 제공에 들어갔다고 발표했다.

(이미지=MS 공식 블로그)

이번에 공개된 모델들은 각각 음성 전사, 음성 생성, 이미지 생성에 특화된 기능을 갖춘 것이 특징이다. 마이-트랜스크라이브-1은 영어와 한국어를 포함한 25개 언어를 지원하며 업계 표준 벤치마크에서 낮은 오류율을 기록했고 다국어 환경이나 소음이 많은 상황에서도 안정적인 인식 성능을 제공한다. MAI-보이스-1은 짧은 음성 샘플만으로 맞춤형 음성을 생성할 수 있으며 60초 분량의 오디오를 1초 만에 생성할 수 있는 속도를 구현했다. MAI-이미지-2는 자연스러운 조명과 질감 표현, 이미지 내 텍스트 생성 정확도를 강점으로 내세우며 가격 대비 성능 경쟁력을 확보했다.

이처럼 기능별 특화 모델을 동시에 공개하면서 MS는 음성·이미지 등 비텍스트 영역까지 AI 역량을 확장했다. AI 산업이 단일 기능 중심에서 벗어나 다양한 데이터를 함께 처리하는 멀티모달 중심으로 재편되는 흐름 속에서 MS 역시 관련 경쟁에 본격적으로 뛰어든 것으로 평가된다.

특히 이번 일에 따른 오픈AI와의 관계 변화도 주목된다. MS는 그간 오픈AI와의 협력을 기반으로 GPT 모델을 활용해왔지만, 자체 모델 라인업을 구축하며 기술 자립도를 높이는 방향으로 전략을 전환하고 있다. 다만 무스타파 술레이만 MS AI 최고경영자(CEO)는 최근 오픈AI와의 파트너십이 최소 2032년까지 유지될 것이라는 입장을 밝힌 바 있어 협력과 자립을 병행하는 ‘투트랙 전략’을 당분간 이어갈 것으로 보인다.

경쟁 전략에서도 차별점이 두드러진다. 일단 MS는 최고 성능 경쟁보다는 가격과 속도를 전면에 내세우며 기업 시장을 겨냥하고 있다. 전사 모델은 MS 애저 패스트 모델 대비 2.5배 빠른 처리 속도를, 이미지 모델은 최대 2배 수준의 생성 속도 개선을 강조하고 나섰다. 또 음성 생성이 고속 처리 성능을 구현했다는 점과 가격이 전사 모델 시간당 0.36달러, 음성 생성 100만 문자당 22달러 수준으로 책정돼 비용 경쟁력이 높다는 점도 부각시켰다.

이 같은 전략은 수익 구조와도 맞물린다. 이번 모델은 AI 모델 최적화·배포 플랫폼인 마이크로소프트 파운드리를 중심으로 제공되는데, 이는 MS 애저 클라우드 사용 확대와 직결되는 구조다. 이 구조에선 개발자가 모델을 활용할수록 연산 자원 소비가 증가하는 동시에 클라우드 매출로 이어지는 선순환 구조를 형성할 수 있을 것으로 예상된다. 또 단순 모델 공급을 넘어 인프라까지 결합한 플랫폼 전략도 본격화된 것으로 평가된다.

모델과 플랫폼, 서비스의 결합도 강화된 모습이다. MS는 현재 이 모델들을 코파일럿과 빙, 오피스 제품군 등 자사 서비스 전반에 단계적으로 적용하고 있는 상태로, 개발부터 배포, 서비스까지 이어지는 통합 구조를 구축함으로써 이용자와 개발자를 동시에 묶어두는 생태계 전략을 강화하려는 움직임이다.

다만 리스크 요인도 존재한다. 가격과 속도를 강조하는 전략은 일정 수준에서 품질과의 균형 문제를 동반할 수 있으며 코파일럿과 오피스 제품군과의 결합이 확대될 경우 ‘끼워팔기’ 논란 등 규제 리스크로 이어질 가능성도 제기된다.

술레이만 CEO는 “최근 몇 달 사이 세 가지 최고 수준 모델을 연이어 출시했으며 이미 마이크로소프트 전반에 걸쳐 실제 서비스에 적용하고 있다”며 “더 빠르고 더 뛰어나며 가격 대비 성능에서도 경쟁력을 갖췄다”고 강조했다.

음성 전사 모델별 평균 오류율 비교에서 MAI-트랜스크라이브-1이 가장 낮은 성능을 기록했다. (그래프=MS 공식 블로그)

업계에선 AI 산업이 최근 텍스트 중심에서 벗어나 이미지·음성 등 다양한 데이터를 함께 처리하는 멀티모달 중심으로 재편되고 있다고 보고 있다. 또 MS의 이번 행보를 두고 개별 모델 성능 경쟁을 넘어 다양한 기능을 하나의 플랫폼으로 묶는 통합 경쟁이 본격화되고 있음을 보여주는 신호로 해석했다.

업계 관계자는 “MS는 특화 모델을 통해 시장을 선점한 뒤 범용 기반모델로 확장하는 전형적인 ‘하향식 전략’을 택하고 있다”며 “향후 AI 경쟁의 승패는 개별 모델 성능이 아니라 이를 얼마나 하나의 서비스와 플랫폼으로 통합하느냐에 달려 있다”고 밝혔다.

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다