消费电子实验室 - 大中华区最具商业价值的消费电子专业网站 - The most valuable and professional Consumer electronics business website in Greater China › 消电电子实验室 ›新闻中心› 行业动态 › 查看内容

腾讯混元开源 AI 模型 Hunyuan-Foley

2025-8-28 16:03| 发布者: bicq| 查看: 2045| 评论: 0

摘要: HunyuanVideo-Foley 不仅打破了 AI 生成的视频只能“看”不能“听” 的局限，让无声 AI 视频成为历史，更是真正做到了“看懂画面、读懂文字、配准声音”，带来沉浸式视听体验。这款音效生成工具可广泛应用于短视频创 ...

【消费电子实验室-2025/8/28】今日午间，腾讯混元宣布开源端到端视频音效生成模型 Hunyuan-Foley，用户只需输入视频和文字，就能为视频匹配电影级音效。

根据官方介绍，HunyuanVideo-Foley 不仅打破了 AI 生成的视频只能“看”不能“听” 的局限，让无声 AI 视频成为历史，更是真正做到了“看懂画面、读懂文字、配准声音”，带来沉浸式视听体验。这款音效生成工具可广泛应用于短视频创作、电影制作、广告创意和游戏开发等场景。

文本描述：Rustling and crunching of leaves and twigs under the fox kit's paws.

混元团队开发了一个全面的数据处理管道，能够自动化标注和过滤收集的音视频数据，构建了约 10 万小时级的高质量 TV2A 数据集，为模型训练提供了强大支撑，使得模型拥有强大的泛化能力，能够在各种复杂的视频条件下生成音画一致、语义对齐的高质量音频，包括音效与背景音乐。生成的音频能够与无声视频相结合，极大提升了视频的真实感和沉浸感。

消费电子实验室附有关链接如下：

体验入口：https://hunyuan.tencent.com/video/zh?tabIndex=0

项目官网：https://szczesnys.github.io/hunyuanvideo-foley/

代码：https://github.com/Tencent-Hunyuan/HunyuanVideo-Foley

技术报告：https://arxiv.org/abs/2508.16930

Hugging Face：https://huggingface.co/tencent/HunyuanVideo-Foley