1、腾讯混元 3D 世界模型:一键构建“我的世界”
腾讯混元 3D 世界模型是业界首个开源可沉浸漫游、可交互、可仿真的世界生成模型,为游戏开发、VR、数字内容创作等领域带来了全新的可能性。
据腾讯开源微信公众号,该模型核心是语意层次化 3D 场景表征及生成算法,该算法将复杂3D 世界解构为不同语意层级,实现前景与背景、地面与天空的智能分离,不仅生成视觉效果逼真的整体场景,还能输出标准化的 3D Mesh 资产,兼容 Unity、Unreal Engine、Blender 等主流工具。用户可对场景内元素进行独立编辑或物理仿真,无缝衔接 AIGC 技术与传统 CG 工作流;能够实现只需输入简单指令,模型即可快速生成包含建筑、地形、植被的完整 3D 场景。
输出的 Mesh 文件可用于游戏原型搭建或关卡设计,还能灵活调整前景物体、更换天空背景,满足个性化创作需求;此外,腾讯混元还披露了包括端侧混合推理语言模型、多模态理解模型、游戏视觉模型等在内的一系列开源计划。
2、通义万相:业界首个使用 MoE 架构的视频生成模型
通义万相文生视频模型和图生视频模型均为业界首个使用 MoE 架构的视频生成模型,总参数量为 27B,激活参数 14B;同时,首创电影美学控制系统,光影、色彩、构图、微表情等能力媲美专业电影水平。
据阿里云微信公众号,通义万相 2.2 率先在视频生成扩散模型中引入 MoE 架构,有效解决视频生成处理 Token过长导致的计算资源消耗大问题;Wan2.2-T2V-A14B、Wan2.2-I2V-A14B 两款模型均由高噪声专家模型和低噪专家模型组成,分别负责视频的整体布局和细节完善,在同参数规模下,可节省约 50%的计算资源消耗,在模型能上,通义万相2.2 在复杂运动生成、人物交互、美学表达、复杂运动等维度上也取得了显著提升。
此外,较上一代万相 2.1 模型,万相 2.2 模型的训练数据实现了显著扩充与升级,并在训练中引入了专门的美学精调阶段,通过细粒度地训练,使得视频生成的美学属性能够与用户给定的 prompt 提示词相对应。
万相 2.2 模型在美学精调阶段创新性提出了「电影级美学控制系统」,直接将光影、色彩、镜头语言三大电影美学元素装进模型。通义团队编码了 60 多个直观可控的参数,并且可以随意组合,大幅提升电影级画面的制作效率。
3、 Figma:借力 AI 重写创意行业新格局
Figma 服务的客户分散在银行、快消品、能源、制造、软件等各行各业,截至 2025 年 3 月 31 日,Figma 在全球已有 45 万付费客户。据智东西微信公众号,全球数十亿人使用应用程序、网站和其他数字体验都是通过 Figma 制作的,包括谷歌地图、优步打车软件、奈飞流媒体节目、多邻国语言学习应用、领英职场社交媒体、大语言模型 Claude 等;
Figma 的访问权限以按年或按月订阅的形式出售。如下图所示,其根据特定用户的需求提供不同的档位,包括五个档位:Viewer、Collab、Content、Dev、Full,对应入门者、专业用户、组织用户和企业用户,不同档位对应不同的费用,截至 2025 年 3 月 31 日,Figma 的总留存率为 96%,净美元留存率达到 132%,在 Figma 平台上年度付费超 1 万美元的付费客户达到11107 家。
2025 年,Figma 有望推出四款全新 AI 产品。据智东西微信公众号,025年Figma 将推出四款新产品,使产品组合规模翻一番:Figma Make、Figma Draw、Figma Sites 和 Figma Buzz:
1)Figma Make:是一款 AI 驱动的可将提示词转化为功能的工具。用户可以直接从指令生成可运行的原型,并且立即验证想法;可以自由选择进一步输入指令、直接编辑代码,还是进行视觉化操作;
2)Figma Draw:是一款用于绘制精细的矢量编辑图像和产品插图的工具。Figma Draw 支持 AI 自动完成繁琐的重复性任务,例如移除图像背景、重命名设计图层、在原型中填充逼真内容等,First Draft 也是一项 AI 能力,用户只需输入简单指令,就能从空白画布生成可编辑的用户界面;
3)Figma Sites:可让用户设计网站并直接将其发布到网上;
4)Figma Buzz:可轻松创建数字广告等营销资产。
4、字节 Seed1.6: Adaptive CoT 技术的前沿探索
字节在 Seed1.6 模型系列中探索了 Adaptive CoT 技术,让模型能够根据问题难度自动触发思考过程,取得了模型效果和推理性能的平衡。
据字节跳动技术范儿微信公众号,Seed1.6-Thinking 在 Seed1.5-Thinking 的基础上拓展了训练算力,加大了高质量训练数据规模(包括 Math、Code、Puzzle 和 Nonreasoning 等数据),提升了模型在复杂问题上的思考长度,并且在模型能力维度上深度融合了 VLM,给模型带来清晰的视觉理解能力。因此,对比 Seed1.5-Thinking,Seed1.6-Thinking 在复杂文本场景中的推理能力明显提升,同时也具备了较好的视觉推理能力。
更多行业研究分析请参考思瀚产业研究院官网,同时思瀚产业研究院亦提供行研报告、可研报告(立项审批备案、银行贷款、投资决策、集团上会)、产业规划、园区规划、商业计划书(股权融资、招商合资、内部决策)、专项调研、建筑设计、境外投资报告等相关咨询服务方案。