球盟会-复旦大学与百度联合发布可控人脸视频生成模型 发布时间:2025-11-20

复旦年夜学与baidu互助发布了名为 Hallo 的人脸视频天生模子,并于公然的学术论文 Hallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation 中对于该模子举行了具体论述。这一模子是首个基在扩散技能实现端到端天生高度传神人脸视频的开源项目。用户只需提供一段音频及所选人像,便可轻松建造出具备极高真实感的人脸视频。这一技能的推出代表着数字人相干的视频天生范畴的主要进展。

项目主页:https://fudan-generative-vision.github.io/hallo/

论文链接:https://arxiv.org/abs/2406.08801

GitHub链接:https://github.com/fudan-generative-vision/hall

端到端人脸视频天生方案

于已往的技能成长历程中,因为缺少有用的声音到视频天生方案,人脸视频合成凡是需要依靠参数化模子作为中间前言。腾讯、蚂蚁金服、微软等公司推出的Sadtalker、AniPortrait、GAIA等技能要领即是这一起径的典型代表。然而,这些要领经常受制在参数化模子于心情及动作表达能力上的限定,以和声音与动作之间的弱相干性,致使天生的视频于真实感及联贯性方面存于不足。近来,一些端到真个人脸视频天生方案逐渐呈现,防止了中间暗示情势的局限性。这些方案使用扩散模子强盛的天生能力,可以直接天生高度传神、高度联贯的视频。然而,这种方案中的音频及视觉特性凡是经由过程全局交织留意力模块举行直接交互,缺少对于唇部及动作的邃密约束,致使天生视频的口型精度不如依靠参数化模子的解决方案,且动作天生能力较差,需要分外输入动作举行驱动。这次,复旦与baidu推出的直接从声音驱动天生视频的端到端模子,无需繁杂的参数化中间暗示及分外的动作输入,便可天生口型、心情、动作极为天然富厚的人脸视频。这一立异依靠在如下几个要害方面:

1.分层音画特性交融

于音画交织留意力历程中,因为人脸的嘴唇、脸部心情、人头姿式对于语音的运动相应方式其实不不异,Hallo的研究职员采用了分层交织留意力操作,针对于差别区域别离提取掩码特性。经由过程他们提出的辅助交织留意力模块与音频特性交融,从而进修到差别区域的运动特性。详细来讲,研究职员利用了嘴唇、脸部及头部的掩码(以下图左图所示),让音频别离对于口型、心情及姿式举行指导天生。随后,经由过程一个自顺应机制将这三个部门交融于一路,无需分外参数化暗示及动作驱动,便可直接天生心情及动作天然活泼的人脸动画视频。颠末对于留意力求的阐发,研究职员发明,音频特性与差别区域视觉特性别离交互,显著提高了留意力模块对于脸部信息的捕获能力。模子的留意力可视化效果也出现出越发聚焦在脸部区域的特色,从而可以或许显著晋升口型、心情及动作的真实度。这一要领的总体精度逾越了其他现有要领。

2.差别人脸特性的节制能力

于Hallo体系中的分层音频-视觉留意力机制具备将音频特性与图象的差别区域举行交融对于齐的能力,从而晋升口型、心情及姿式的精准度及天然度,并提供了全局运动的可控性。经由过程调解各区域的权重,可以实现对于差别区域视频运动的切确节制。此外,Hallo采用专门的人脸编码模子来替换传统的图象-语义预练习模子(如CLIP)。人脸编码模子的重要目的是天生高度保真的肖像身份特性。与以往经由过程于年夜型图象及文本描写数据集长进行结合练习CLIP以得到通用视觉特性编码的要领差别,Hallo利用预先练习的人脸编码器来提取身份特性。这些特性与扩散收集的交织留意力模块举行交互,天生与输入脚色特性忠厚一致的肖像动画。这一要领不仅确保了人脸特性提取的泛化能力,还有正确地保留及揭示了小我私家身份特性,例如脸部心情、春秋及性别。

3.年夜范围数字人视频数据集

于练习中,Hallo体系使用了年夜量高质量的数字人视频数据。只管互联网上存于年夜量的数字人视频数据,但这些数据质量乱七八糟,存于诸如音画不匹配、配景杂音、视频抖动等各类问题的数据噪声。为相识决这一问题,研发团队构建了一套主动化数字人视频洗濯引擎。截至今朝,这一引擎已经乐成洗濯了数千小时的高质量数字人视频,涵盖了上万个信息脱敏的数字人肖像。这项事情使患上年夜范围数据练习数字人视频天生模子成为可能。

Hallo实践效果

高质量人脸动画天生:于真人数据集上,Hallo展示出了高度一致的口型,并可以或许表现出音频的富厚细节,如情绪及发言节拍。

多类型人像气势派头撑持:只管Hallo仅于真人视频数据集长进行练习,但体现出了极强的泛化性,包括卡通、素描、雕塑等各种气势派头,这患上益在原始扩散模子于超年夜范围图象数据集上的练习。

全局运动可控性:Hallo的另外一个主要特色是全局可控性。相较在以往要领中需要借助参数化模子节制人脸运动强度,Hallo使用分层脸部特性留意力机制,经由过程调解三个区域的权重系数,能针对于性地节制口型、心情及动作的运动强度,从而年夜幅晋升人脸动画天生的可控性。

影视建造的潜于运用:除了此以外,Hallo展示了于影视建造范畴的巨年夜潜力。经由过程仅有一段影戏对于白及一个虚拟脚色,可让虚拟脚色活泼演绎经典影戏场景。

运用远景

Hallo的发布为多个行业带来了广泛的运用远景。于文娱财产方面,AI驱动的脚色动画技能具备广泛的运用潜力,可于影戏、电视剧及短视频建造中阐扬主要作用。经由过程应用这项技能,建造团队可以提高建造效率,实现更高质量的动画效果,并终极实现成本的降低。这类技能的应用将为文娱财产带来更多的创意空间及贸易时机。此外,于游戏及虚拟实际范畴,AI天生的脚色动画为用户提供越发沉浸式的体验。经由过程引入AI脚色,游戏及虚拟实际运用可以出现重生动、真正的虚拟世界,加强用户的沉浸感及介入感。这将为游戏财产及虚拟实际技能带来新的成长机缘,鞭策这些范畴的立异及前进。

于教诲范畴,AI数字人对于在弱势人群的讲授具备极为主要的意义。经由过程整合AI脚色到讲授视频及勾当中,可以为这一群体设计更具包涵性及可拜候性的讲授要领。AI数字人能经由过程多感官交互—如视觉、听觉及触觉—增长进修的直不雅性及互动性。这不仅可以或许吸引学生的留意力,还有可以或许帮忙他们更好地舆解抽象观点及繁杂信息,从而提高进修的有用性。此外,AI数字人可以模仿悉心的西席脚色,提供连续的鼓动勉励及撑持,帮忙学生于碰到挑战时连结踊跃及自傲。经由过程这类方式,高质量AI数字人的运用不仅可以或许提供更切合弱势人群需求的教诲内容,还有可以或许帮忙他们提高社交技术及糊口自理能力,从而更好地融入社会,提高糊口质量。这类教诲方式的推广及运用,有望为弱势群体打开新的进修年夜门,为他们带来更多的进修时机及社会介入可能。

将来瞻望

跟着人工智能图形计较(AIGC)技能的飞速前进,AI驱动的脚色动画将揭示越发传神天然的体现。将来,复旦及baidu的研究团队将连续优化模子机能,晋升动画天生质量,并扩大更广泛的运用范畴。经由过程与社区合作无懈及开源同享,Hallo有望于多个财产范畴阐扬作用,为国度人工智能技能的成长及推广孝敬气力。

-球盟会