AI 技术快速迭代，中美差距逐步缩小 - 产业政策 - 行业新闻

AI 技术快速迭代，中美差距逐步缩小
思瀚产业研究院 2026-01-20

2025 年初以来，人工智能技术迭代的步伐从未放缓，模型能力的高度不断超出想象，在减少幻觉、提升指令遵循能力等方面进展显著，并逐步蜕变为稳定可靠的专家助手；与此同时，模型使用成本也在快速下降，加速 AI 在行业端的渗透和应用，并反哺基础模型的不断优化，进一步推动了模型的应用和创新。

从模型性能提升的路径来看，Scaling Laws 持续有效，并从预训练阶段逐渐向后训练以及推理阶段延伸。预训练阶段的规模定律(Scaling Laws)持续有效，随着预训练阶段投入的数据量、计算资源以及模型参数的不断扩大，模型的性能呈现稳步提升的态势。但在近期，预训练阶段提高模型参数量带来的边际收益开始递减。

为了继续提升模型解决长程问题的能力，在后训练(post-training)阶段使用强化学习等技术引导模型从被动应答转向主动求解，让模型的表现取得了突破。全球人工智能机构纷纷开始尝试挖掘强化学习在后训练阶段的巨大潜力，并推出推理模型，如 OpenAI o3、Gemini 2.5 Pro、DeepSeek R1、Qwen3 等。实践表明，在后训练阶段投入更多算力得到的推理，随着思考时间以及消耗 token 的增加，解决复杂问题的能力也随之提升。

大模型将继续借助强化学习等技术持续提升思考能力，变得越来越聪明。当前，基于结果、过程和格式反馈的强化学习在数学、物理、编码等任务中取得了良好的效果，并表现出良好的泛化能力。

顶尖大模型 context window 突破百万 token，这与 RAG（信息检索增强）LLM 工作量密切相关，有助于实现模型的高质量输出。根据 Artificial Analysis 的数据，Grok4.1 的上下文窗口可达 200 万 token，Gemini3 Pro 与 Claude 4.5 Sonnet 也达到了 100 万 token。

多模态技术不断突破，原生多模态架构成为标配，成为 AI 理解真实世界的基石。2025 年多模态技术的核心突破，在于架构层面实现了从“拼接式多模态”(StitchedMultimodality)向“原生多模态”(Native Multimodality)的根本性演进。CLIP 和 DALLE 的早期版本通常采用多个独立的、针对特定模态的编码器(Encoder)。

例如，使用一个预训练好的视觉模型（如 ViT）来编码图像，使用一个语言模型（如 BERT）来编码文本，然后通过一个轻量级的“连接层”(Projection Layer)将它们的特征向量映射到同一个语义空间进行对齐和融合。这种方式虽然在当时取得了不错的效果，但存在跨模态理解不够精细、扩展性差等技术缺陷。

以 Google Gemini 系列、OpenAIGPT-5 以及国内的通义千问 Qwen2.5-VL 为代表的新一代原生多模态模型，在架构层面就实现了根本性的统一。它们采用统一的 Transformer 架构和共享的向量空间来处理所有模态的数据。其核心思想是“万物皆可 Token 化”，无论是文本、图像、声音还是视频，都会被一个统一的“分词器”(Tokenizer)或多个协同工作的分词器，转换成一系列离散的“语义令牌”(Semantic Tokens)，并采用端到端深度融合训练，在统一的 Transformer 架构中，来自不同模态的 Token 通过自注意力机制(SelfAttention)进行无差别的、深度的交互和融合。

根据 Artificial Analysis 的数据，2025 年以来，除了最新发布的几款前沿指数模型以外，其余的大模型推理成本出现成倍数下降。当推理变得便宜时，用户开始执行更为复杂的任务，带来 token 消耗数量的倍数增长。

从 token 消耗量来看，AI 模型需求端依旧旺盛。根据知名第三方模型 API 提供商OpenRouter 的统计数据，通过该平台调用各类模型的 token 消耗量在 2025 年增长约 14 倍，近三个月实现翻倍增长。

从整体访问流量来看，AI 赛道增长斜率依然陡峭。2025 年 10 月，AI Chatbots 赛道前十五名产品网页总访问量达 84.9 亿次，全领域总访问量为 85.8 亿次，ChatGPT以 61.6 亿次访问量稳居第一，Google Gemini 以 11.8 亿次访问量排名第二，中国的DeepSeek 以 3.55 亿次访问量位列第三。此外，还有五款中国产品进入前十五名，分别是抖音豆包 AI（第 7 名）、Qwen（第 9 名）、Kimi.com（第 10 名）、阿里通义千问（第 11 名）和腾讯元宝（第 13 名）。

根据 IDC 发布的《全球人工智能和生成式人工智能支出指南》，2024 年全球人工智能 IT 总投资规模为 3159 亿美元，并有望在 2029 年增至 12619 亿美元，五年复合增长率为 31.9%。生成式 AI 的增长尤为迅猛，成为引领本轮 AI 浪潮的绝对主力，IDC 预测，全球生成式 AI 市场五年复合增长率或达 56.3%，到 2029 年全球生成式AI 市场规模将达 6071 亿美元，占 AI 市场投资总规模的 48.1%。

从地区分布来看，中美两国作为全球 AI 产业的两大主导力量，市场规模合计占比已接近七成。根据中国信息通信研究院的数据，截至 2025 年 9 月，中国 AI 核心产业规模已突破 9000 亿元人民币，约占全球核心产业规模的 10%，相关企业数量超过5300 家。IDC 预测，到 2029 年，中国在 AI 领域的总投资规模将达到 1114 亿美元，五年复合增长率为 25.7%，增速持续领先全球主要经济体。具体而言，2024 年中国生成式 AI 占 AI 市场投资总规模的 18.2%。随着生成式 AI 技术的快速发展，2029 年生成式 AI 投资占比将达到 41.1%，投资规模超 450 亿美元，五年复合增长率为 48.0%。

根据智谱港股招股书，2024 年中国大语言模型市场规模（以收入计）达 53 亿元，其中机构客户贡献 47 亿元，个人客户贡献 6 亿元；2025 年，中国大语言模型市场规模将达 96 亿元，较上年增长约 81%。随着大语言模型技术进步与用户需求增长，预计 2030 年市场规模将增至 1011 亿元，2024-2030 年复合年增长率为 63.5%。机构客户仍是核心驱动力，预计 2030 年中国企业级大语言模型市场规模将达 904 亿元，2024-2030 年复合年增长率为 63.7%。

美国顶尖大模型依然领先，但随着 DeepSeek R1、Qwen3、Kimi K2 等一批国产优秀模型的发布，中美 AI 的差距从几年缩短至几个月。根据海外第三方人工智能研究机构 Artificial Analysis 编制的 Artificial Analysis Intelligence Index（包含 MMLU-Pro,GPQA Diamond, Humanity's Last Exam, LiveCodeBench, SciCode, AIME, MATH500 等七项模型基准），2025 年 5 月发布的 DeepSeek R1 虽晚于 OpenAI o3，但模型能力已经接近。

与此同时，前沿大模型竞争趋向白热化，OpenAI 的领先地位正受到来自多方的挑战，Google、Anthropic、XAI 等头部玩家不断推出更强大的模型。海外第三方人工智能研究机构 Artificial Analysis 根据 MMLU-Pro、GPQA Diamond、Humanity's LastExam、LiveCodeBench、SciCode、AIME 2025、IFBench、AA-LCR、Terminal-BenchHard、τ²-Bench 等多项模型基准，编制了 AI 分析指数(Artificial Analysis IntelligenceIndex)，Gemini 3 pro 与 GPT 5.2 并列第一，Claude Opus 4.5 与 GPT5.1 紧随其后，得分都为 70，国产模型 Kimi K2 Thinking 排名第五，DeepSeek v3.2、MinimaxM2、Qwen3 235B 等模型也排名靠前。

1、海外巨头持续投入，引领人工智能发展

美国科技巨头持续扩大资本开支，押注人工智能的发展。根据 Artificial Analysis 发布的《Q3 2025 Artificial Analysis State of AI Highlights Report》，2025 年以来，Amazon、Google、Meta、Microsoft 和 Oracle 的资本开支总和逐季度快速增长。

此外，XAI、OpenAI 等非上市科技巨头也在快速扩大资本开支。OpenAI 迄今已承诺投入约 1.4 万亿美元用于基础设施建设，相当于约 30 吉瓦的数据中心容量，包括此前已宣布的 OpenAI 与 AMD、博通、英伟达、甲骨文等合作伙伴的交易。其中，甲骨文 OCI 合约总价 3000 亿美元，从 2027 年开始为期 5 年，年均 600 亿美元；微软 Azure 合约总价 2500 亿美元，从 2026 年中开始为期 7 年，年均 360 亿美元；谷歌 GCP 合约总价 400 亿美元，为期 7 年，亚马逊 AWS 提供 380 亿美元、为期 7 年的合约。

从商业化方面来看，随着模型性能的快速提升与推理成本的下降，OpenAI、Anthropic、xAI 等海外 AI 巨头年化收入呈现快速增长趋势。根据 epoch.ai 的数据，OpenAI 年化收入即将突破 200 亿美元，较年初增长约 4 倍，Anthropic 年化收入约 80 亿美元，较年初增长约 7 倍。

（1）谷歌

谷歌以 Gemini 系列大模型为核心，持续迭代推进纯文本、多模态及代码等能力，打造全栈 AI 战略。谷歌 CEO Sundar Pichai 在 Gemini 3 发布时表示，谷歌在 AI 创新上有一套与众不同的全栈做法——从领先的基础设施，到世界一流的研究、模型和工具，再到触达全球数十亿人的产品——以前所未有的速度，把先进的能力带给全世界。进入 2025 年，谷歌连续发布了 Gemini 2.0 Pro、Gemini 2.5 Pro、Nanobanana Pro、Veo3.1、Gemini 3 Flash 等一系列模型，在模型参数、实战能力、用户反馈上都实现了跃迁，重新建立起在 AI 领域的领导地位。

谷歌是极少数具备从底层芯片(TPU)、到数据中心基础设施、再到中间层模型(Gemini)、以及最上层应用(Search、YouTube、Waymo)的高度一体化与可控性的AI 厂商。

在芯片层，谷歌自研的 TPU 芯片支撑了 Gemini 2.0 多模态模型的训练和推理，TPU的高效能使谷歌能够以相对低成本训练大规模模型，使模型迭代周期更短、成本更低。2025 年发布的 TPU v7 Ironwood 作为新一代产品，在浮点运算性能、内存及带宽这三项核心指标上，几乎已完全追平同期英伟达的旗舰级 GPU，相较于 GB200，TPUv7的浮点运算性能与内存带宽仅存在小幅差距，二者的内存容量处于同一水平，均搭载8 层高带宽内存第三代增强版(8-Hi HBM3E)。

12 月 18 日，谷歌最新发布高速、低成本的推理模型 Gemini 3 Flash，旨在用更低的成本提供前沿的智能水平。具体来看，其输出每百万 token 的价格仅 Claude Sonnet4.5 的 20%、GPT-5.2 的 21%，却能在基准测试上达到甚至超越这些旗舰级模型的水平，例如在多模态推理基准 MMMU Pro 上，Gemini 3 Flash 以 81.2%的高分达到了当前最先进水平；与 Gemini 3 Pro 相比，其价格仅为 Pro 的 25%，却在 MMMUPro、SWE-bench Verified 这些核心基准测试上更强。

Gemini 3 Flash 的设计以极高的效率为目标，能够在保证准确性的同时，以更低的成本和更高的效率完成日常任务。在最高思考等级下运行时，Gemini 3 Flash 能够动态调节自身的思考深度：面对更复杂的使用场景，它会投入更长时间进行推理；而在处理日常任务时，则能以更高性能完成目标，同时在典型业务流量下，平均使用的 token数量比 Gemini 2.5 Pro 减少约 30%。目前，Gemini 3 Flash 已取代 2.5 Flash 成为Gemini 应用的默认模型，全球 Gemini 用户都已能免费体验 Gemini 3，从而大幅提升日常任务的处理效率。

在应用层，谷歌正在将 AI 能力深度整合到 Search、Gmail 等多个平台中，Gemini不再只是一个独立的聊天机器人或 API，而是成为贯穿整个生态的基础设施，从而充分发挥其庞大的用户规模优势，打造商业闭环。在 C 端，搜索中的 AI 模式和 AIOverview 已逐步切换至由 Gemini 3 提供支持；Gemini 应用以及 Android 系统中的部分智能功能，也以这一代模型为主。在 B 端，Workspace 中的写作助手、文档摘要、演示文稿生成等功能，统一基于 Gemini 模型系列。在云端，Vertex AI 和 GeminiAPI 面向开发者开放同一组模型，既服务于聊天应用，也支持代码、搜索和数据处理等多种场景。根据谷歌 2025Q3 财报，Gemini APP 月活已达 6.5 亿，较二季度的 4.5亿大幅增长。

（2）OpenAI

进入 2025 年，OpenAI 推出了 GPT-5、GPT-5.1、GPT-5.2 和 Sora 2 等一系列先进模型，并发布了 Operator、Deep Research 和 ChatGPT Agent 等 Agent 系统，推动 AI 向生产力场景的渗透转型。

OpenAI CEO Sam Altman 在 2025 年 10 月阐述了 OpenAI 的战略转型：过去的产品形态主要是 ChatGPT 这样的 AI 超级助手，现在正朝着更宏大的目标演进：成为一个平台，一个其他人可以在其上构建应用和服务的“AI 云”。为了支撑这个平台，OpenAI 正构建一整套 AI 交互系统，并逐步开放接口：网页、浏览器 Atlas、移动设备、应用市场、插件生态、企业平台。企业可以通过 API 接入 OpenAI 技术，构建自己的应用，开发者可以在 ChatGPT 插件平台里创建“应用型智能体”，未来还会有全新的硬件设备形态，让 AI 不再只活在网页里，而是随时随地为用户服务。

在 C 端领域，OpenAI 推出群组聊天、ChatGPT Pulse、即时结账功能等多项个性化服务功能，从工具助手转向“all in one”的生态平台。例如，ChatGPT 于 11 月上线群聊功能，让用户们和 ChatGPT 能够聚在同一个对话里互动协作，当用户正在与朋友规划周末旅行，创建一个群组聊天，这样 ChatGPT 就可以协助比较目的地、制定行程，并创建一个行李清单。此外，ChatGPT 推出“即时结账”(Instant Checkout)的新功能，用户可在与 AI 的对话中直接下单，享受跨支付平台的灵活性，表明 OpenAI正为下一代 AI 驱动的商业做好准备。

此项功能由 OpenAI 和 Stripe 联合构建的开放标准——代理商业协议(Agentic Commerce Protocol, ACP)提供支持，让商家和开发者能够简单地与消费者建立连接，已支持 Etsy 等平台的商家。

8 月 8 日，OpenAI 发布 GPT-5 系列模型，将原有的 GPT 和 o 系列模型纳入统一系统，从单一、庞大的模型转向一个更加动态、异构和响应迅速的生态系统。GPT-5 系统包含一个能够解答大多数问题的智能快速模型、一个能够解决更复杂问题的深度推理模型，以及一个实时路由器，可以根据对话类型、复杂性、工具需求和明确意图快速决定使用哪个模型，这样路由框架掌握了“谁来答、答到什么深度、何时调用工具”的主动权，能够在体验与成本之间做实时最优分配。

12 月 12 日，OpenAI 发布最新系列模型 GPT-5.2，包含 GPT-5.2 Instant、GPT-5.2Thinking 和 GPT-5.2 Pro，GPT-5.2 Thinking 主打专业工作，具备最先进的长上下文推理能力，GPT-5.2 Instant 专为日常学习和工作设计，GPT-5.2 Pro 则是最聪明强大的版本，在编程等复杂领域表现更强。GPT-5.2 的设计初衷在于“创造更大的经济价值”。相较前代，它在电子表格处理、演示文稿制作、代码编写、图像感知、长文本理解及复杂多步项目执行等方面，均实现了全面性能跃升。为了验证其在真实业务环境中的价值，OpenAI 采用了 GDPval 基准测试，该测试覆盖了 9 大行业、44 类职业的 1320 个真实业务场景，GPT-5.2 Pro 在高达 74.1%的任务中表现超越或持平人类专家。

在智能体任务方面，GPT-5.2 Thinking 在 Tau2-bench Telecom 多轮客服任务的工具调用测试中取得 98.7%完成度，该评测覆盖订票、退款、延误补偿、物品遗失与跨系统调度等场景，反映其可承担更高自治度的流程任务。OpenAI 表示，GPT-5.2 的“工具决策粒度”更加稳定，推理链条更可控，在连续 20~40 步的任务中不易出现跳步、误调用或不必要调用等问题，使其更适合作为长流程自动化智能体(AutonomousAgent)的执行核心。

在涉及编程、数学、复杂推理等领域的基准测试中，GPT-5.2 Thinking 较上一代模型显著提升。例如，AIME 2025（竞赛数学）：GPT-5.2 Thinking 达 100%满分，ClaudeOpus 4.5 为 92.8%，Gemini 3 Pro 为 95.0%。与此同时，GPT-5.2 Thinking 事实准确率显著提升，在面对模糊或信息不完整的查询时，会更主动给出依据来源或使用结构化推理路径，以降低误导性回答的概率。价格方面，GPT-5.2 较上一代有所增加，GPT-5.2 Pro 的输入价格为 21 美元/百万 tokens，输出价格为 168美元/百万 tokens。

2、国内企业成果显著，持续推动应用落地

（1）智谱智谱

成立于 2019 年，作为中国领先的人工智能公司，致力于开发先进的通用大模型。公司在全方位的人工智能研究中扎实交付先进技术，并稳步扩大其商业应用，以实现收入的快速增长。2021 年，公司发布了中国首个专有预训练大模型框架 GLM 框架，并推出了模型即服务(MaaS)产品开发及商业化平台，通过该平台提供大模型服务。

2022 年，公司开源首个 1000 亿规模的模型(GLM-130B)。公司运营的大语言模型(LLM)市场为更广泛 AI 市场的一个细分领域，为机构客户（包括私营企业及公共行业实体）及个人用户（包括个人终端用户及独立开发者）提供通用大模型服务。截至2025 年 6 月 30 日，公司的模型已为逾八千家机构客户提供支持。根据公司港股招股书，2024 年公司实现营业收入 3.12 亿元，在中国独立通用大模型开发商中位列第一，在所有通用大模型开发商中位列第二。

智谱的模型在单体模型能力方面同样实现了行业性能领先，部分模型达到全球最先进(SOTA)水平：

语言模型——高级智能的可靠基础。智谱的旗舰模型 GLM-4.5 的功能可与全球最先进模型比肩。根据弗若斯特沙利文的资料，依据 2025 年 7 月进行的 12 项业界标准基准测试的评估结果，GLM-4.5 在全球排名第三、在中国跃居第一及全球开源模型位居榜首。首发后仅 48 小时内，GLM-4.5 便在 Hugging Face（全球最大开源模型平台）的热门榜上跃居全球榜首。

智能体模型——自动执行复杂任务和设备控制。智谱的智能体模型旨在为通用智能体提供支持，该等智能体能够代表人类理解、思考和执行复杂的任务。此性能基于两个核心模型构建：GLM-Z1-Rumination，作为智能体进行深度推理和自主规划的"大脑"；及 AutoGLM，提供感知和操作用户界面的"双手"。AutoGLM 在 AgentBench（斯坦福大学《2024 年 AI 指数》报告认证的智能体 AI 基准）中实现 SOTA 性能。

多模态模型——重新定义内容创作。在文生图生成方面，CogView4 不仅在 DPGBench 基准测试中排名第一，也是全球首款能够准确理解并生成中文文本的开源模型。就视频生成而言，CogVideoX 实现了顶级性能，在全面的 SuperCLUE-I2V 基准测试中名列前茅。GLM-4V 是中国首个开源双语多模态对话模型，GLM-4-Voice 是中国首个端到端超拟人语音模型，二者进一步巩固了公司全面的多模态领导地位，展示了公司在所有主要模态方面的开创性能力。

代码模型——转换编码体验。公司于 2023 年发布并持续迭代的 CodeGeeX 代码模型性能卓越，被程序员群体广泛使用。截至 2025 年 6 月 30 日，CodeGeeX 平均每天生成逾 100 百万行代码。

（2） DeepSeek

从年初的推理模型 DeepSeek-R1 演进到年末的 DeepSeek-V3.2 系列，DeepSeek的系列模型不仅在推理能力上比肩国际顶尖模型，更在智能体和推理成本控制上实现了跨越式的突破。

1 月 20 日，DeepSeek-R1 正式发布，在后训练阶段大规模使用了强化学习技术，在仅有极少标注数据的情况下，极大提升了模型推理能力，在数学、代码、自然语言推理等任务上，性能比肩 OpenAI o1 正式版。该模型最重要的技术突破是用纯深度学习的方法让 AI 自发涌现出推理能力，对模型推理训练后续的范式产生深刻影响。

5 月，DeepSeek R1 完成小版本升级为 DeepSeek-R1-0528，深度思考能力强化。该模型仍然使用 2024 年 12 月所发布的 DeepSeek V3 Base 模型作为基座，但在后训练过程中投入了更多算力，显著提升了模型的思维深度与推理能力。更新后的 R1模型在数学、编程与通用逻辑等多个基准测评中取得了当前国内所有模型中首屈一指的优异成绩，并且在整体表现上已接近其他国际顶尖模型，如 o3 与 Gemini-2.5-Pro。

8 月，DeepSeek-V3.1 正式发布，模型升级主要在于，1）混合推理架构：一个模型同时支持思考模式与非思考模式；2）更高的思考效率：相比 DeepSeek-R1-0528，DeepSeek-V3.1-Think 能在更短时间内给出答案；3）更强的 Agent 能力：通过 PostTraining 优化，新模型在工具使用与智能体任务中的表现有较大提升。

9 月 29 日，DeepSeek-V3.2-Exp 正式发布，这是一个实验性(Experimental)的版本。作为迈向新一代架构的中间步骤，V3.2-Exp 在 V3.1-Terminus 的基础上引入了DeepSeek Sparse Attention（一种稀疏注意力机制），针对长文本的训练和推理效率进行了探索性的优化和验证。DSA 的核心逻辑在于，通过引入了一种极其高效的筛选机制在于将计算复杂度从平方级降低到了线性级，令模型不必在每一个步骤都关注上下文中的所有信息。这种机制并不盲目地丢弃信息，而是像人类阅读长文时那样，学会了速读与精读的结合，由两个精密配合的组件构成：闪电索引器(LightningIndexer)与细粒度 Token 选择机制(Fine-grained Token Selection Mechanism)。

12 月 1 日，DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale 正式发布。DeepSeek-V3.2 的目标是平衡推理能力与输出长度，适合日常使用，例如问答场景和通用 Agent 任务场景。在公开的推理类 Benchmark 测试中，DeepSeek-V3.2 达到了 GPT-5 的水平，仅略低于 Gemini-3.0-Pro；相比 Kimi-K2-Thinking，V3.2 的输出长度大幅降低，显著减少了计算开销与用户等待时间。DeepSeek-V3.2-Speciale的目标是将开源模型的推理能力推向极致，探索模型能力的边界。

DeepSeek V3.2-Speciale 是 DeepSeek-V3.2 的长思考增强版，同时结合了DeepSeek-Math-V2 的定理证明能力。该模型具备出色的指令跟随、严谨的数学证明与逻辑验证能力，在主流推理基准测试上的性能表现媲美 Gemini-3.0-Pro。更令人瞩目的是，V3.2-Speciale 模型成功斩获 IMO 2025（国际数学奥林匹克）、CMO 2025（中国数学奥林匹克）、ICPC World Finals 2025（国际大学生程序设计竞赛全球总决赛）及 IOI 2025（国际信息学奥林匹克）金牌。其中，ICPC 与 IOI 成绩分别达到了人类选手第二名与第十名的水平。

DeepSeek-V3.2 首次将思考融入工具使用，改进了以往版本在思考模式下无法调用工具的缺陷，并且同时支持思考模式与非思考模式的工具调用。DeepSeek 提出了一种大规模 Agent 训练数据合成方法，构造了大量“难解答，易验证”的强化学习任务（1800+环境，85000+复杂指令），大幅提高了模型的泛化能力。DeepSeek-V3.2 模型在智能体评测中达到了当前开源模型的最高水平，大幅缩小了开源模型与闭源模型的差距。值得说明的是，V3.2 并没有针对这些测试集的工具进行特殊训练，足以证明其在真实应用场景中能够展现出较强的泛化性。

（3）MiniMax

MiniMax 是全球领先的通用人工智能科技公司。自 2022 年初成立以来，公司以“与所有人共创智能”为使命，致力于推动人工智能科技前沿发展，实现通用人工智能。MiniMax 自主研发了一系列多模态通用大模型，包括文本模型 MiniMax M2、视频模型 Hailuo 2.3、语音合成 Speech 2.6 和音乐模型 Music 2.0，具备强大的代码和 Agent能力，以及超长上下文处理能力，能够理解、生成并整合包括文本、音频、图像、视频和音乐在内的多种模态。

10 月 27 日，MiniMax M2 正式开源并发布，模型具备：

顶级代码能力：专为端到端开发工作流打造，在 Claude Code、Cursor、Cline、Kilo Code、Droid 等多种应用中表现卓越；

强大 Agentic 表现：出色规划并稳定执行复杂长链条工具调用任务，协同调用Shell、Browser、Python 代码执行器和各种 MCP 工具；

极致性价比&速度：通过高效的激活参数设计，实现智能、速度与成本的最佳平衡。

基于这些自研模型，MiniMax 面向全球推出一系列 AI 原生产品，包括 MiniMax Agent、海螺视频 HailuoAI、MiniMax Audio、星野 Takie 等，以及面向企业和开发者的开放平台。2024 年 9 月，公司上线“AI 创作音乐”和“AI 生成视频”功能，形成海螺音乐、海螺视频两款应用，2025 年 1 月全球同步上线海螺语音（后更名为 MiniMaxAudio）。

海螺音乐能够生成英语、中文、日语、阿拉伯语等多种语言的歌曲，支持全球化 AI 音乐创作，AI 会自动调整旋律与发音，确保不同语种歌曲的自然流畅。海螺视频基于 Minimax 自研视频模型，可将文本指令或图像转化为高质量视频内容，应用采用 Diffusion Transformer 架构，模拟现实物理规律，处理快速运动、表情变化等复杂动作更流畅。同时依托较高的提示词转化率、电影级运镜算法和像素级动态演算引擎，海螺视频在海内外用户中获得较高评价。

海螺语音核心功能基于 T2A-01 系列模型实现，支持中文、粤语、英语、法语、俄语等 17 种语言及上百种预置音色，具备情感理解能力，语音输出效果更加真实。自研模型的飞速进展，有力支撑了 MiniMax 的全球业务拓展。MiniMax 的自研多模态模型及AI原生应用已累计为来自超过200个国家及地区的逾2.12亿名个人用户，以及来自超过 100 个国家及地区的 100000 余名企业客户以及开发者提供服务。

（4）阿里巴巴

阿里巴巴是全球少数大模型与云计算都全栈自研且技术领先的全栈人工智能提供商。在模型层面，截至 2025 年 9 月，通义大模型开源 300 余个模型，覆盖不同大小的“全尺寸”及语言、图像、语音、视频等“全模态”，全球下载量突破 6 亿次，全球衍生模型 17 万个，稳居全球第一。超 100 万家客户接入通义大模型，国际调研机构沙利文报告显示，2025 年上半年，中国企业级大模型调用市场中通义大模型占比第一。

旗舰模型 Qwen3-Max 是能力最强、规模最大的“全能型选手”，尤其擅长处理复杂实际问题。其预训练数据量高达 36T tokens，总参数超过万亿；性能在全球权威评测中已超越 GPT-5、Claude Opus 4 等顶尖模型，跻身世界前三；在代表 Agent 核心能力的工具调用能力和 Coding 能力评测中均位列全球第一梯队。

下一代基础模型架构 Qwen3-Next 及系列模型通过一系列前沿的工程技术，在保持卓越性能的同时，大幅提升了训练和推理的效率。该模型总参数 80B，但仅需激活3B 参数，性能便可媲美 235B 的旗舰模型。通过混合注意力、高稀疏度 MoE 等创新技术，其训练成本相较 Qwen3-32B 锐减超过 90%，长文本推理吞吐量提升 10 倍以上。

全模态模型 Qwen3-Omni 则成功解决了以往多模态模型中常见的“模态性能权衡”难题，首次实现音、视、文多模态混合训练而各项能力不降反升，能像人类一样“听说写”，为车载、智能穿戴等设备提供高质量、低延时的交互。多模态生成模型通义万相 Wan2.5 突破性实现了原生音画同步的视频生成，可生成匹配人声、音效和背景音乐的视频，时长提升至 10 秒，进一步降低了高质量视频创作的门槛。

在 AI 基础设施层面，阿里实现从服务器、网络、存储到智算集群的 AI Infra 布局，打造支撑万亿参数模型与复杂智能体系统的算力引擎。阿里云推出了新一代磐久超节点服务器，在一个机柜中可容纳高达 128 颗 AI 芯片。这背后是一整套针对高密度算力的系统级工程创新：350 千瓦的单柜功率、精细化的液冷系统，以及高可靠供电设计，确保在高热负载、高并发计算环境下依然保持稳定运行。

在硬件兼容性上，磐久服务器支持产业主流的开放架构，可灵活兼容不同厂商的 AI 芯片与 Scale-up 协议，实现从单节点到超节点的高效组装。这种“模块化+开放式”的设计，使 AI 算力的部署与扩展更加灵活，为后续的模型训练、推理和强化学习提供了坚实的算力基础。随着模型规模迈向万亿参数、集群规模扩展到“万卡”甚至“十万卡”级别，网络性能成为 AI 集群效率的生命线。阿里云此次推出的 HPN 8.0 高性能网络架构，是全球首批实现“训推一体”设计的 AI 网络。

在应用层面，千问 APP 正式上线，高德地图、淘宝众多 C 端业务场景正加速融入 AI生态体系。11 月 17 日，阿里巴巴正式发布了基于 Qwen 系列模型的“千问 App”，并将其战略定位清晰地锚定为“AI 超级入口”。12 月 10 日，千问仅用 23 天，月活跃用户数突破 3000 万，跻身全球增长最快的 AI 应用行列。与此同时，AI PPT、AI写作、AI 文库、AI 讲题四项新功能同步开放。

12 月 18 日，千问 APP 已接入高德庞大的实时地理数据系统——每日超千亿次实时调用的时空引擎、覆盖全球超 2 亿 POI（兴趣点）。千问 APP 能够调用高德地图、扫街榜等底层服务，即时生成包含推荐餐厅、地理位置及出行方案的可视化卡片，点击即可跳转导航或打车。

免责声明：
1.本站部分文章为转载，其目的在于传播更多信息，我们不对其准确性、完整性、及时性、有效性和适用性等任何的陈述和保证。本文仅代表作者本人观点，并不代表本网赞同其观点和对其真实性负责。
2.思瀚研究院一贯高度重视知识产权保护并遵守中国各项知识产权法律。如涉及文章内容、版权等问题，我们将及时沟通与处理。