323 / 2024-09-13 20:25:24
语音驱动的虚拟人手势生成
全文待审
胡昱淘 / 江西财经大学
黄龙杰 / 江西财经大学
皮羽熙 / 江西财经大学
饶世豪 / 江西财经大学
熊润初 / 江西财经大学
本次大赛我们团队提交的作品为"语音驱动的虚拟人手势生成",在其中我们实现了一种区别于传统多模态生成的全新方案,仅需要输入音频就能生成相应的虚拟人手势。

该模型结合了模糊特征提取器和AdaLN Pyraformer与Diffusion的融合架构。模糊特征提取器利用模糊推理策略自动推断隐式、连续模糊特征。这些模糊特征被表示为一个统一的潜在特征,被输入到AdaLN Pyraformer中。该模块在保持角色姿态自然的同时确保了手势-语音的高水平同步。

最后使用Diffusion Model来生成各种手势。训练集使用BEAT数据集,将相关音频文件输入进大模型进行推理得到BVH动画文件。

本项目“语音驱动的虚拟人手势生成”在技术创新、应用潜力及未来前景方面展现出了独特的优势和鲜明的特色。

首先,我们的创新思路在于模糊特征推断策略的引入。传统手势生成方法往往依赖于明确、具体的特征输入,而语音中的情感、语调等模糊特征却难以被有效捕捉。我们使用的模糊特征提取器,通过模糊推理策略,自动从复杂多变的语音信号中提取出隐式、连续的模糊特征,并将其转化为统一的潜在特征表示。这不仅增强了系统对语音信息的全面理解能力,还使得生成的手势更加贴近人类的自然表达,充满了情感与个性。

其次,在技术应用方面,本项目实现了仅通过音频输入即可生成相应虚拟人手势的突破。这一特性极大地简化了操作流程,降低了技术门槛,使得我们的方案能够广泛应用于教育、娱乐、虚拟主持等多个领域。用户只需简单的语音输入,即可获得生动、自然的虚拟人手势演示,极大地提升了用户体验和互动效果。

最后,从未来前景来看,随着AIGC的不断发展和虚拟人市场的持续扩大,本项目所展现出的技术与创新将为其带来更广阔的发展空间。我们坚信,通过不断优化和完善技术架构,加强与其他技术的融合创新,本项目将引领手势生成技术的新潮流,为人机交互领域带来更加丰富多彩的体验和应用场景。
重要日期
  • 会议日期

    10月30日

    2024

    10月31日

    2024

  • 11月30日 2024

    初稿截稿日期

主办单位
中国虚拟现实大赛组委会
中国虚拟现实大赛指导委员会
承办单位
长春大学
VR中国
联系方式
历届会议
移动端
在手机上打开
小程序
打开微信小程序
客服
扫码或点此咨询