微软在本周的Build 2026开发者大会上集中发布了7款自研AI模型,其中最受关注的是其首款高级推理模型MAI-Thinking-1。过去主要依托OpenAI模型技术的微软,如今通过自研模型矩阵的扩充,展现出在生成式AI领域更强的技术自主性。就在大会开幕前不久,微软与OpenAI重新谈判了合作协议,双方关系已有松动,此次大规模自研模型的亮相也因此更具战略意味。
MAI-Thinking-1:从零训练的推理引擎
MAI-Thinking-1被微软定位为“中等规模模型”,但在关键软件工程基准上,微软称其表现“匹配领先模型”。微软特别强调该模型“从头训练,使用干净数据,未从任何第三方模型进行蒸馏”。在当前的AI行业中,不少厂商会借助更强模型的知识蒸馏来快速训练专用模型,微软明确放弃这一路径,意在展示其自研能力和数据治理的高标准。
推理模型是2025年以来AI竞争最激烈的领域之一。OpenAI的o系列、Google的Gemini Thinking等均在此投入重兵。微软MAI-Thinking-1以中型体量切入,可能瞄准的是对成本与效率要求更高的实际部署场景——中型模型在单次推理的计算开销上更有优势,尤其适合需要频繁调用的软件工程任务。不过微软未公布具体的测试得分及对比对象,外界尚无法独立验证其性能水平。
训练过程的“干净数据”概念同样值得关注。微软声明不使用第三方模型蒸馏,意味着其训练数据集完全来自微软内部筛选与标注,不依赖其他AI模型产生的合成数据。这种做法在数据版权和模型可解释性上具备一定优势,但同时也对计算资源和数据质量提出了更高要求。
图像、语音与代码:六款垂直模型各司其职
除旗舰推理模型外,微软更新了多个垂直场景的自研模型,进一步完善产品线。
图像模型:MAI-Image 2.5
MAI-Image 2.5及其Flash版本同时支持文本生成图像与图像编辑两种功能。作为微软自研图像模型的迭代版本,它并非单纯追求参数规模,而是强调与Azure AI服务和Microsoft Copilot生态的协同优化。图像编辑能力的加入,使其能够满足从创意素材初稿到后期调整的连续工作流需求。
转录与语音:MAI-Transcribe-1.5与MAI-Voice-2
MAI-Transcribe-1.5是一款专门用于语音转录的模型,微软宣称其推断速度“比竞争模型快5倍”。在实时语音处理、会议记录、辅助字幕等场景中,更低的延迟直接决定了用户体验。另一款MAI-Voice-2模型(含尚未正式发布的Flash版本)新增支持15种语言并提供了更多语音风格选项,让开发者能够为不同语种和情感需求选择更自然的声音风格。微软还透露Voice-2 Flash版本“即将到来”,暗示未来会推出更轻量的版本以满足端侧部署需求。
编程模型:MAI-Code-1-Flash
MAI-Code-1-Flash面向代码生成与补全任务,微软称其具备“推理高效”的设计特点。该模型已直接集成到GitHub Copilot与Visual Studio Code之中,开发者可在日常开发环境中直接体验。微软将自研代码模型与自家首发的开发者工具深度绑定,既能快速获取用户反馈,也为后续模型迭代提供了真实的代码场景数据。
从依赖到自研:微软AI模型的自主之路
微软从2025年才开始推出少量自研模型,此前其核心AI能力几乎完全来自对OpenAI的技术接入与投资。随着OpenAI近年走向独立运营并扩大商业合作,微软显然意识到仅靠外部模型存在风险。因此,从零构建自有模型矩阵,同时保留与OpenAI的合作,是一种“双保险”策略。
此次七款模型同时发布,覆盖了视觉、语音、编程、推理等多个维度,表明微软已经初步具备了系统性的自研能力。未来,这些模型很可能陆续进入Azure AI目录、Windows Copilot以及Microsoft 365等核心产品,成为微软AI体验的基础构件。不过,现阶段微软尚未公布这些模型的API定价、部署限制以及具体的第三方测评数据,企业用户需要更透明信息来评估迁移成本。
从战略层面看,微软选择在Build 2026这样一个面向开发者的舞台上推出全系自研模型,意图明确:向技术社区宣告其AI研发能力已经成熟,并希望借助开发者的反馈与使用,加速模型在实际场景中的落地和优化。在竞争日益激烈的AI市场中,微软正试图摆脱“搭便车”的形象,成为技术竞赛的直接参与者。
本文参考来源:The Verge
微信扫描下方的二维码阅读本文



