欢迎光临消费电子实验室!  

登录 立即注册 找回密码

设为首页收藏本站

腾讯混元开源 AI 模型 Hunyuan-Foley

2025-8-28 16:03| 发布者: bicq| 查看: 54| 评论: 0

摘要: HunyuanVideo-Foley 不仅打破了 AI 生成的视频只能“看”不能“听” 的局限,让无声 AI 视频成为历史,更是真正做到了“看懂画面、读懂文字、配准声音”,带来沉浸式视听体验。这款音效生成工具可广泛应用于短视频创 ...
【消费电子实验室-2025/8/28】今日午间,腾讯混元宣布开源端到端视频音效生成模型 Hunyuan-Foley,用户只需输入视频和文字,就能为视频匹配电影级音效。

根据官方介绍,HunyuanVideo-Foley 不仅打破了 AI 生成的视频只能“看”不能“听” 的局限,让无声 AI 视频成为历史,更是真正做到了“看懂画面、读懂文字、配准声音”,带来沉浸式视听体验。这款音效生成工具可广泛应用于短视频创作、电影制作、广告创意和游戏开发等场景。

文本描述:Rustling and crunching of leaves and twigs under the fox kit's paws.

混元团队开发了一个全面的数据处理管道,能够自动化标注和过滤收集的音视频数据,构建了约 10 万小时级的高质量 TV2A 数据集,为模型训练提供了强大支撑,使得模型拥有强大的泛化能力,能够在各种复杂的视频条件下生成音画一致、语义对齐的高质量音频,包括音效与背景音乐。生成的音频能够与无声视频相结合,极大提升了视频的真实感和沉浸感。

消费电子实验室附有关链接如下:

体验入口:https://hunyuan.tencent.com/video/zh?tabIndex=0

项目官网:https://szczesnys.github.io/hunyuanvideo-foley/

代码:https://github.com/Tencent-Hunyuan/HunyuanVideo-Foley

技术报告:https://arxiv.org/abs/2508.16930

Hugging Face:https://huggingface.co/tencent/HunyuanVideo-Foley

鲜花

握手

雷人

路过

鸡蛋

网站介绍 广告业务 欢迎投稿 招聘信息 联系我们 友情链接 法律顾问 网站地图

CopyRight 2012消费电子实验室 版权所有 京ICP备12048044号-4号

电话:13701384402 邮编:100040 邮箱:BICQ6688@QQ.COM

回顶部