技术前沿：通义千问发布迄今最大规模的大模型 - 产业科技 - 行业新闻

技术前沿：通义千问发布迄今最大规模的大模型
思瀚产业研究院 2025-09-11

1.大模型持续发布与迭代升级

2025 年 8 月 24 日，马斯克旗下 xAI 宣布开源 Grok-2，参数规模高达 9050 亿，支持超长上下文和混合专家架构，并计划在半年内开源 Grok-3。Grok-2 的推出不仅刷新了开源大模型的规模上限，也进一步推动了业界在长文本处理与高效推理上的突破。

2025 年 9 月 1 日，美团发布并开源 LongCat-Flash-Chat，总参数量 5600亿但实际激活仅 27B，兼顾性能与效率，在智能体任务中表现突出，显示互联网平台型企业在大模型生态中的加速布局。9 月 6 日，阿里通义千问发布迄今最大规模的大模型 Qwen3-Max-Preview，参数量超过 1 万亿，在推理、指令跟随、多语言支持和长尾知识覆盖方面实现重大改进，并已向企业和开发者开放。

Qwen3-Max 的发布标志着大模型正从技术突破加速走向产业化应用，成为企业智能化转型的重要工具。

2.多模态生成能力持续突破

2025 年 8 月 25 日，群核科技发布空间语言模型 SpatialLM 1.5 与空间生成模型 SpatialGen，首次系统性开源文生 3D 能力，聚焦室内空间的认知与生成。8 月 26 日，英伟达发布机器人专用芯片 Jetson Thor，AI 计算性能较上一代提升 7.5 倍，被视为推动具身智能和物理 AI 的重要基础。

2025 年 8 月 28 日，字节跳动推出视频生成模型 OmniHuman-1.5，可通过单张图像和语音轨迹生成与语义匹配的角色动画，适用于影视、教育和虚拟主播等场景；腾讯混元团队同日开源视频音效生成模型 HunyuanVideo-Foley，为视频自动生成电影级高质量音效，显著提升沉浸感。

2025 年 8 月 29 日，中国科学院地化所发布“月球科学多模态专业大模型 V2.0”，赋能“数字月球”科研平台，实现月球撞击坑的图像识别与信息提取，科研效率大幅提升。多模态领域正快速扩展，生成式 AI 的边界不断拓宽。随着技术成熟，AI 正逐步从内容生产延伸到科学研究和现实物理场景。

3.语音交互与实时对话体验升级

2025 年 8 月 25 日，微软研究院开源 VibeVoice-1.5B，支持跨语言文本转语音与歌声合成，可一次生成长达 90 分钟的多说话者自然语音。2025 年 8 月 29 日，OpenAI 发布 GPT-realtime 模型，采用端到端语音对语音架构，可直接生成自然流畅的语音并模拟情感语调，使 AI 助手更接近人类自然对话方式。2025 年 9 月 1 日，阶跃星辰开源端到端语音大模型 Step-Audio 2 mini，在多项基准测试中取得领先成绩，性能超越 GPT-4o Audio 等主流模型。其开源特性也为开发者社区提供了强大工具，推动语音交互技术快速普及。

4.编程与长文本处理能力持续优化

2025 年 8 月 29 日，xAI 发布 Grok Code Fast 1，专为编程任务优化，强调高速和低成本，并在主流编程平台上免费开放使用。2025 年 9 月 5 日，月之暗面发布 Kimi K2 最新版本，上下文容量扩展至 256K，输出速度提升至每秒60–100token，并强化编程辅助与前端生成能力。这一升级显著增强了复杂任务和长文档处理能力，满足更多高阶应用场景的需求。

更多行业研究分析请参考思瀚产业研究院官网，同时思瀚产业研究院亦提供行研报告、可研报告（立项审批备案、银行贷款、投资决策、集团上会）、产业规划、园区规划、商业计划书（股权融资、招商合资、内部决策）、专项调研、建筑设计、境外投资报告等相关咨询服务方案。

免责声明：
1.本站部分文章为转载，其目的在于传播更多信息，我们不对其准确性、完整性、及时性、有效性和适用性等任何的陈述和保证。本文仅代表作者本人观点，并不代表本网赞同其观点和对其真实性负责。
2.思瀚研究院一贯高度重视知识产权保护并遵守中国各项知识产权法律。如涉及文章内容、版权等问题，我们将及时沟通与处理。