AI 뉴스 브리핑

샤오미 MiMo-V2.5 공개, 오픈 모델 경쟁이 코딩 에이전트와 1M 컨텍스트로 이동했다

AI 뉴스 브리핑

샤오미 MiMo-V2.5 공개, 오픈 모델 경쟁이 코딩 에이전트와 1M 컨텍스트로 이동했다

샤오미 MiMo 팀이 MiMo-V2.5-Pro와 MiMo-V2.5를 공개했다. 1.02T MoE Pro, 310B 멀티모달 모델, MIT 라이선스, 1M-token 컨텍스트, SGLang·vLLM 배포 흐름이 개발팀에 주는 의미를 정리한다.

콘텐츠 형식

AI 뉴스 브리핑

핵심 주제

Open Model Agent

샤오미 MiMo-V2.5 공개가 던진 신호

샤오미 MiMo 팀이 MiMo-V2.5-Pro와 MiMo-V2.5를 공개했다. 표면적으로는 새로운 오픈 모델 발표이지만, 실제 의미는 조금 더 크다. 이번 발표는 중국 빅테크가 대형 오픈 모델을 단순 연구 결과물이 아니라, 개발자 생태계·상용 API·추론 엔진·모델 저장소까지 묶은 제품형 인프라로 내놓는 흐름을 보여준다.

Threads에서 공유된 핵심 주장처럼, 가장 눈에 띄는 요소는 세 가지다. 첫째, MiMo-V2.5-Pro는 1.02T 총 파라미터와 42B active 파라미터를 가진 MoE 언어 모델로 공개됐다. 둘째, MiMo-V2.5는 310B 총 파라미터와 15B active 파라미터의 네이티브 옴니모달 모델로, 텍스트·이미지·비디오·오디오 이해를 하나의 구조로 다룬다고 설명된다. 셋째, 두 모델 모두 공개 자료 기준으로 최대 1M-token 컨텍스트를 지원하며 Hugging Face 모델 카드에 MIT 라이선스가 표시되어 있다.

다만 이 발표를 “폐쇄형 최상위 모델을 곧바로 대체한다”는 식으로 읽으면 과장이다. 샤오미가 공개한 수치는 강력하지만, 벤치마크 상당 부분은 자체 평가나 특정 harness 환경에 의존한다. 실무자가 봐야 할 핵심은 점수 그 자체보다 “오픈 가중치 모델이 점점 더 긴 작업, 더 긴 컨텍스트, 더 많은 도구 호출, 더 다양한 입력 양식으로 이동하고 있다”는 방향성이다.

확정된 모델 스펙: Pro는 장기 에이전트, V2.5는 멀티모달

MiMo-V2.5-Pro의 위치

샤오미 공식 블로그와 Hugging Face 모델 카드에 따르면 MiMo-V2.5-Pro는 1.02T total parameters, 42B active parameters의 Mixture-of-Experts 모델이다. 모델은 hybrid attention architecture와 3-layer Multi-Token Prediction을 사용하며, 최대 1M-token context length를 지원한다고 설명된다. Base 모델은 256K 컨텍스트, instruction/post-trained 모델은 1M 컨텍스트로 구분되어 있다.

Pro 버전의 메시지는 분명하다. “코딩 에이전트와 장기 작업을 잘 수행하는 모델”이다. 샤오미는 MiMo-V2.5-Pro가 복잡한 소프트웨어 엔지니어링, 장시간 도구 호출, 긴 컨텍스트 안에서의 지시 준수에 초점을 둔다고 설명한다. 공식 블로그에는 Peking University 컴파일러 과제 기반 SysY compiler in Rust 구현 사례, 데스크톱 비디오 편집기 생성 사례, 아날로그 회로 EDA 최적화 사례가 제시되어 있다. 특히 SysY 컴파일러 사례는 672 tool calls, 4.3 hours, hidden test suite 233/233 통과라는 식으로 장기 에이전트 작업을 강조한다.

이 지점은 VIBE 코딩 관점에서 중요하다. 앞으로 코딩 모델 경쟁은 단일 함수 생성이나 짧은 문제 풀이보다, 저장소 이해, 빌드 실패 복구, 테스트 반복, 리팩터링, 도구 사용, 작업 메모리 관리로 이동한다. MiMo-V2.5-Pro가 실제 모든 환경에서 같은 성능을 보장하는지는 별도 검증이 필요하지만, 모델 제공자가 “수천 번의 도구 호출을 견디는 장기 작업”을 공식 제품 메시지로 내세웠다는 사실 자체가 시장의 기준 변화를 보여준다.

MiMo-V2.5의 위치

MiMo-V2.5는 Pro보다 작지만 범위가 넓다. 공식 자료는 MiMo-V2.5를 310B total parameters, 15B active parameters의 Sparse MoE 모델로 설명한다. 텍스트뿐 아니라 이미지, 비디오, 오디오 이해를 지원하며, vision encoder와 audio encoder를 별도로 붙인 구조를 사용한다. 모델 카드에는 729M-param Vision Transformer, 261M-param Audio Transformer, 3-layer MTP 모듈 같은 구성 요소가 요약되어 있다.

Pro가 “장기 코딩·에이전트 작업”에 더 선명하게 초점을 맞췄다면, MiMo-V2.5는 “멀티모달 에이전트”에 가깝다. 예를 들어 개발자가 화면 캡처, 로그 이미지, 시연 영상, 음성 설명, 긴 문서, 코드 저장소를 한 번에 다루는 업무를 생각해볼 수 있다. 지금까지는 텍스트 모델, 비전 모델, 음성 모델을 따로 연결해야 했다면, MiMo-V2.5가 지향하는 방향은 다양한 입력을 하나의 모델 작업 흐름 안에서 처리하는 것이다.

1M-token 컨텍스트의 실제 의미

1M-token 컨텍스트는 마케팅 문구로만 보면 “매우 긴 입력을 넣을 수 있다”는 뜻이다. 하지만 개발 업무에서는 의미가 더 구체적이다. 대형 저장소의 여러 파일, 긴 이슈 스레드, 설계 문서, 빌드 로그, 테스트 실패 기록, API 문서, 과거 결정 사항을 한 번에 넣을 수 있는 가능성이 생긴다. 에이전트가 작업 중간에 맥락을 잃어버리는 문제가 줄어들 수 있다.

물론 긴 컨텍스트는 공짜가 아니다. 입력 토큰이 길어질수록 비용, 지연 시간, KV-cache 메모리, retrieval 전략 문제가 함께 커진다. 샤오미는 hybrid sliding-window attention과 global attention 조합으로 KV-cache 저장량을 줄였다고 설명하지만, 실제 운영에서는 GPU 메모리, batch size, serving engine 최적화, 프롬프트 압축 전략이 여전히 중요하다. 따라서 국내 개발팀이 이 모델을 검토할 때는 “1M을 지원한다”보다 “우리 워크로드에서 128K, 256K, 1M 중 어느 길이가 비용 대비 유효한가”를 먼저 측정해야 한다.

오픈소스가 아니라 ‘오픈 모델 제품화’에 가깝다

MIT 라이선스의 장점과 확인 지점

Hugging Face 모델 카드에는 MiMo-V2.5-Pro와 MiMo-V2.5 모두 license: mit가 표시되어 있다. MIT는 일반적으로 사용, 수정, 배포, 상업적 활용에 유연한 permissive license로 받아들여진다. 개발자 입장에서는 연구용 실험뿐 아니라 내부 도구, 프로토타입, 기업 PoC, 파인튜닝 검토까지 접근 장벽이 낮아진다.

그러나 모델 라이선스가 관대하다고 해서 모든 리스크가 사라지는 것은 아니다. 실제 기업 도입에서는 모델 가중치 라이선스, 사용 데이터, 출력물 정책, 제3자 권리 침해 가능성, 배포 국가와 산업 규제, 내부 보안 기준을 함께 확인해야 한다. 특히 멀티모달 모델은 이미지·영상·오디오 데이터가 얽히기 때문에 텍스트 모델보다 데이터 출처와 재현성 검토가 더 중요하다.

Hugging Face와 API Platform을 동시에 여는 전략

이번 발표에서 흥미로운 점은 샤오미가 모델 가중치 공개와 상용 사용 경로를 동시에 제시한다는 점이다. 공식 블로그는 Hugging Face 다운로드, AI Studio, API Platform을 함께 연결한다. 이는 “다운로드해서 직접 돌릴 사람”과 “관리형 API로 바로 써볼 사람”을 동시에 잡는 전략이다.

오픈 모델 경쟁에서 이 구조는 점점 중요해지고 있다. 모델만 공개하면 개발자는 추론 환경, quantization, serving, 모니터링, 비용 계산을 직접 해결해야 한다. 반대로 API만 제공하면 커스터마이징과 데이터 통제, 온프레미스 배포 요구를 만족시키기 어렵다. MiMo-V2.5 시리즈는 양쪽을 모두 열어 “실험은 API로 빠르게, 본격 검토는 가중치로 깊게”라는 경로를 만든다.

SGLang·vLLM 지원이 중요한 이유

모델 카드에는 SGLang Deployment와 vLLM Deployment 가이드가 별도로 언급된다. MiMo-V2.5-Pro는 SGLang cookbook과 vLLM cookbook을 참조하도록 안내하고, MiMo-V2.5 역시 SGLang 실행 예시와 vLLM 관련 안내를 제공한다. 이는 단순 문서 이상의 의미가 있다. 대형 MoE 모델은 “가중치가 있다”와 “서비스로 안정적으로 돌릴 수 있다” 사이의 간극이 매우 크기 때문이다.

SGLang과 vLLM은 고성능 LLM serving에서 널리 쓰이는 엔진이다. speculative decoding, batching, KV-cache 관리, tensor parallelism, tool-call 파싱, long-context serving 같은 요소가 실제 처리량을 좌우한다. 샤오미가 공개 첫날부터 이런 엔진을 언급한 것은 오픈 모델을 연구용 artifact가 아니라 배포 가능한 runtime 대상으로 포지셔닝하려는 신호다.

벤치마크를 읽는 방법: 점수보다 작업 형태가 중요하다

코딩 벤치마크의 메시지

공식 블로그는 SWE-Bench Pro, MiMo Coding Bench, Terminal-Bench 2.0, FrontierSWE 같은 코딩·에이전트 평가를 제시한다. MiMo-V2.5-Pro는 여러 표에서 폐쇄형 frontier 모델과 가까운 위치에 놓이며, MiMo-V2.5도 상당한 코딩 에이전트 성능을 보인다고 주장된다. 특히 MiMo Coding Bench는 Claude Code 같은 agentic framework 안에서 repository understanding, project building, code review, planning, SWE 등을 평가한다고 설명된다.

하지만 자체 벤치마크는 항상 해석에 주의해야 한다. 평가 데이터 구성, harness, tool policy, sampling 설정, 반복 횟수, 실패 처리 방식에 따라 결과가 달라질 수 있다. 기사에서 중요한 결론은 “샤오미가 최고 점수를 냈다”가 아니라 “모델 제공자들이 이제 코딩 모델을 단일 답변 생성기가 아니라 작업 수행 agent로 평가하기 시작했다”는 점이다.

장기 작업 사례의 함의

SysY 컴파일러, 비디오 편집기, EDA 최적화 사례는 모두 단순 질의응답이 아니다. 목표를 세분화하고, 중간 산출물을 만들고, 도구를 호출하고, 실패를 고치고, 마지막 결과를 검증해야 한다. 이것은 실제 개발팀이 AI 코딩 에이전트에게 맡기고 싶은 업무와 매우 비슷하다.

예를 들어 “레거시 Next.js 페이지를 모바일/PC 모두에서 재설계하고 테스트와 배포까지 끝내라”는 작업은 단순 코드 생성이 아니다. 파일 구조 파악, 테스트 추가, UI 구현, lint/build/test, 배포 확인, 콘솔 오류 확인이 필요하다. MiMo-V2.5-Pro 같은 모델이 노리는 시장은 바로 이런 다단계 작업이다. 긴 컨텍스트와 긴 tool-call trajectory는 이 시장에서 핵심 경쟁 요소가 된다.

토큰 효율성의 중요성

샤오미는 MiMo-V2.5-Pro가 ClawEval에서 비교 가능한 성능을 더 적은 토큰으로 낸다고 주장한다. 이 주장은 실무적으로 중요하다. 에이전트는 한 번의 답변보다 여러 번의 관찰, 계획, 실행, 검증을 반복하기 때문에 토큰 비용이 빠르게 커진다. 같은 정확도를 더 적은 토큰으로 달성하면, 단순 inference 비용뿐 아니라 지연 시간과 재시도 비용도 줄어든다.

다만 토큰 효율은 각 팀의 실제 task mix에서 다시 측정해야 한다. 코드베이스 크기, 테스트 실행 시간, 도구 호출 방식, 프롬프트 템플릿, 파일 검색 전략에 따라 결과가 달라진다. 따라서 국내 개발팀은 공개 벤치마크를 출발점으로 삼되, 자체 저장소 3~5개와 대표 작업 10~20개를 정해 비교하는 방식이 더 안전하다.

국내 개발팀과 기업이 볼 체크포인트

바로 테스트해볼 만한 사용 사례

첫 번째 사용 사례는 저장소 이해와 코드 리뷰다. 1M-token 컨텍스트를 활용하면 여러 파일과 설계 문서를 함께 넣고 “어떤 모듈이 병목인지”, “마이그레이션 리스크가 어디인지”, “테스트가 빠진 경계 조건은 무엇인지”를 분석하게 할 수 있다. Pro 모델은 코딩·장기 작업에 초점을 맞추므로 이 영역에서 먼저 비교할 만하다.

두 번째 사용 사례는 멀티모달 운영 지원이다. MiMo-V2.5는 이미지·비디오·오디오 이해를 내세운다. 장애 상황에서 대시보드 스크린샷, 로그 파일, 회의 음성 요약, 재현 영상, 코드 변경 내역을 함께 분석하는 식의 워크플로가 가능해진다. 실제 운영팀은 “텍스트 로그만 보는 AI”보다 “화면과 음성 설명까지 같이 이해하는 AI”에서 더 큰 생산성 향상을 얻을 수 있다.

세 번째 사용 사례는 내부 자동화 에이전트다. 예를 들어 빌드 실패 원인 분석, 문서 업데이트, 릴리스 노트 초안 작성, 테스트 케이스 생성, 간단한 UI 수정 같은 반복 업무를 맡길 수 있다. 다만 모델이 직접 저장소와 배포 권한을 만지는 경우에는 권한 분리, 승인 단계, 감사 로그, 롤백 절차가 반드시 필요하다.

도입 전 반드시 확인할 리스크

가장 큰 리스크는 추론 인프라 비용이다. 1.02T total / 42B active MoE 모델은 이름만 보고 “42B만큼만 싸게 돈다”고 단정하기 어렵다. 라우팅, expert parallelism, FP8 지원, long-context cache, 통신 비용, serving engine 성숙도가 모두 영향을 준다. 관리형 API로 실험할 때와 자체 배포할 때의 비용 구조도 크게 다를 수 있다.

두 번째 리스크는 평가 재현성이다. 공식 표가 보여주는 점수는 유용하지만, 기업의 실제 코드베이스에서는 framework, 언어, 테스트 품질, 문서 상태, 보안 제약이 모두 다르다. 특히 한국어 이슈, 국내 서비스 도메인 지식, 사내 컨벤션, 레거시 코드 품질은 공개 벤치마크에 잘 반영되지 않는다.

세 번째 리스크는 거버넌스다. MIT 라이선스 모델이라도 기업이 고객 데이터, 소스코드, 내부 문서를 넣는 순간 데이터 처리 정책과 보안 요구가 생긴다. 자체 배포는 데이터 통제에 유리하지만 운영 부담이 커지고, 외부 API는 편하지만 데이터 경계와 계약 조건을 더 엄격히 봐야 한다. 모델 선택은 성능표보다 조직의 보안·비용·운영 역량과 함께 결정해야 한다.

시장 전망: 오픈 모델 경쟁은 ‘에이전트 실행력’으로 이동한다

MiMo-V2.5 발표는 중국 AI 모델 경쟁의 또 다른 단면이다. DeepSeek, Qwen, Kimi, GLM 계열 모델들이 빠르게 개선되는 가운데, 샤오미는 모바일·디바이스·소비자 생태계를 가진 회사라는 점에서 독특한 위치에 있다. 장기적으로는 스마트폰, 자동차, IoT, 홈 디바이스, 개발자 플랫폼이 연결되는 에이전트 경험을 노릴 가능성이 있다.

개발자에게 중요한 변화는 선택지가 늘어난다는 점이다. 폐쇄형 frontier 모델은 여전히 강력하지만, 오픈 모델은 비용 통제, 커스터마이징, 데이터 경계, 온프레미스 배포에서 장점이 있다. MiMo-V2.5-Pro처럼 코딩·장기 작업을 전면에 내세운 오픈 모델이 늘어나면, 기업은 “무조건 하나의 폐쇄형 모델”이 아니라 “작업 유형별 모델 라우팅”을 고민하게 된다.

예를 들어 민감하지 않은 초안 작성은 저렴한 모델, 대규모 코드 변경 계획은 강한 코딩 모델, 이미지·영상 포함 운영 분석은 멀티모달 모델, 보안상 민감한 내부 분석은 자체 배포 모델로 나누는 방식이다. MiMo-V2.5 시리즈는 이런 multi-model operations 흐름을 더 현실적으로 만든다.

짧은 출처와 확인 자료

결론: 지금 봐야 할 것은 ‘중국산 오픈 모델’이 아니라 운영 가능한 AI 에이전트 스택이다

이번 발표를 단순히 “샤오미가 1조 파라미터 모델을 공개했다”로 요약하면 핵심을 놓친다. 더 중요한 것은 오픈 가중치, MIT 라이선스, 1M-token 컨텍스트, 코딩 에이전트 벤치마크, 멀티모달 입력, SGLang·vLLM 배포 가이드, API Platform이 한 묶음으로 제시됐다는 점이다.

국내 개발팀은 당장 세 가지 질문을 던져볼 만하다. 첫째, 우리 코드베이스에서 긴 컨텍스트가 실제로 성능을 올리는가. 둘째, agentic coding에서 모델이 테스트·빌드·리팩터링을 얼마나 안정적으로 반복하는가. 셋째, 자체 배포와 관리형 API 중 어떤 경로가 보안·비용·속도 면에서 맞는가.

MiMo-V2.5 시리즈는 최종 답이라기보다 방향을 보여주는 사건이다. 오픈 모델은 더 길게 보고, 더 오래 작업하고, 더 많은 도구를 쓰고, 더 다양한 입력을 이해하는 쪽으로 이동하고 있다. VIBE 코딩 시대의 경쟁력은 이제 “좋은 프롬프트 하나”가 아니라, 모델·도구·테스트·배포·보안이 연결된 전체 실행 파이프라인을 얼마나 잘 설계하느냐에 달려 있다.

다음 읽기

이 기사와 함께 보면 좋은 콘텐츠

Nova Park·AI Agents·2026.04.27·9분 읽기

AI 코딩 에이전트 경쟁, 이제 모델보다 실행 런타임과 권한 설계가 승…

오늘 한눈에 보는 핵심

AI 코딩 경쟁의 중심이 단순 채팅형 보조도구에서 클라우드 작업자, 터미널 에이전트, 서버리스 에이전트 런타임을 함께 쓰는 구조로 이동하고 있다. - GitHub Copilot coding agent, Claude Code, OpenAI Agents SDK, Cloudflare Agents 문서는 모두 에이전트를 “프롬프트 응답”이 아니라 권한·도구·실행 환경·검증 루프가 결합된 소프트웨어 운영 단위로 다룬다. - 개발팀은 모델 선택보다 먼저 저장소 권한, 작업 격리, MCP 도구 연결, 관측성, 롤백 기준을 설계해야 실제 업무에 안전하게 붙일 수 있다. - 스타트업과 1인 개발자에게는 기회도 크다. 기존 자동화 스크립트에 에이전트 런타임을 붙이면 고객지원, 코드 리뷰, 데이터 정리, 배포 점검 같은 반복 업무…

#AI Agent#Coding Agent#MCP

요약맥락

Nova Park·Secure Connectivity·2026.04.27·9분 읽기

Tailscale 가격 개편, VPN 요금제가 아니라 AI 시대 보안…

가격표를 바꾼 것이 아니라 사용 장면을 다시 나눴다

Tailscale이 공개한 Pricing v4의 핵심은 “더 명확한 플랜, 더 예측 가능한 비용, 더 많은 기본 제공 가치”다. 겉으로 보면 SaaS 회사의 흔한 가격 개편처럼 보이지만, 내용을 들여다보면 보안 연결 시장이 어디로 가고 있는지 꽤 선명하게 드러난다. 개인 사용자는 더 넓은 무료 Personal을 얻고, 기업 사용자는 사용량 기반 변수보다 좌석 기반 seat-based 요금으로 비용을 예측하기 쉬워진다.

Tailscale은 WireGuard 기반의 보안 연결 서비스를 대중화한 회사다. 사용자는 복잡한 VPN 장비나 고정 IP 설정 없이 노트북, 서버, NAS, 클라우드 VM, Kubernetes, CI/CD runner 같은 장치를 하나의 사설 네트워크처럼 연결할 수 있다.…

#Tailscale#Zero Trust#VPN

요약맥락

읽기 전 체크

발행일: 2026.04.28
읽기 시간: 12분
작성: Nova Park
태그: #Xiaomi MiMo · #Open Model · #AI Agent · #Coding Agent · #Multimodal