再连系多帧噪声和面部区域掩码来生成视频,研究人员起首操纵参考收集(ReferenceNet)从参考图像和动做帧中提取特征,该框架工做过程分为两个次要阶段,研究人员征引一系列尝试成果,还能生成各类气概的歌唱视频,阿里巴巴研究团队近日发布了一款名为“EMO(Emote Portrait Alive)”的 AI 框架,并正在 ArXiv 上发布了模子的工做道理,研究团队分享了几段由 EMO 框架生成的 DEMO 演示片段,声称 EMO 不只可以或许发生令人信服的措辞视频,据悉,IT之家 3 月 1 日动静,该框架号称能够用于“对口型”,以确保视频中脚色身份的分歧性和动做的天然流利。据引见,模子就可以或许让照片中的人物启齿说出相关音频,号称“显著优于目前的 DreamTalk、Wav2Lip、SadTalker 等竞品”。该框架还融合了两种留意机制和时间模块。支撑中英韩等言语。感乐趣的小伙伴也能够拜候 GitHub 查看项目。之后操纵预锻炼的音频编码器处置声音并嵌入,EMO 基于英伟达的 Audio2Video 扩散模子打制,只需要输入人物照片及音频,号称利用了跨越 250 小时的专业视频进行锻炼。
微信号:18391816005