腾讯混元AI视频是腾讯公司基于混元大模型开发的多模态生成工具,采用130亿参数DiT架构,支持中英文输入生成5秒至16秒高清视频。该工具集成文生视频、图生视频及视频编辑功能,具备多镜头自动切换、语义精准跟随及细节增强能力,提供写实、动画等五种风格,适用于广告、动画制作等场景,已集成至腾讯元宝App并上线腾讯云API接口。
2023年,该模型初步解决手部穿模缺陷并实现音画同步。2024年切换至DiT架构后生成效果提升20%,同年11月实现几何精度提升10倍且纹理达4K级。2024年12月,腾讯开源130亿参数模型,采用升级版DiT架构,适配多模态大语言模型作为文本编码器,引入全注意力机制和3D变分编码器,实现画面主体一致性,开源社区下载量超160万次。同期支持生成16秒视频,并在Hugging Face、Github等平台开源。其生成效果在文本一致性、运动质量等维度评测中表现领先,已被《人民日报》、新华社等媒体用于《江山如此多娇》等作品制作。2025年6月新增毫秒级实时文生图功能及图片跳舞、15种小语种转译能力,生成效率相较前代提升10倍。

