摘要详情

ID / 提交时间

973 / 2023-10-27 21:41:45

标题

Echo Vision音频处理可视化

关键字

主题及专题

数据可视分析

状态

全文待审

作者

周舒轩 / 吉林外国语大学

陈小雨 / 吉林外国语大学

田佳凇 / 吉林外国语大学

徐泽军 / 吉林外国语大学

摘要

本作品使用python编程语言，围绕声纹识别技术，将声纹模型训练过程以及预测过程进行可视化处理。

首先在训练过程中，利用python中的librosa工具包，针对训练集中每个说话人的音频，计算其梅尔频率倒谱系数(MFCCs)并使用librosa.feature.delta()函数计算了MFCCs的一阶和二阶差分特征。再使用matplotlib工具包以热图的形式绘制每个说话人的MFCC特征，并通过自动播放的方式进行循环展示。随后利用高斯混合模型对每个人的声纹特征进行拟合和建模，在拟合过程中我们调用了sklearn的GaussianMixture函数，将ncomponents参数设置为16进行拟合，为了将模型拟合过程完整呈现，我们将每个说话人的模型根据组件增加的顺序使用matplotlib工具包绘制其结构，每个说话人共绘制了16张高斯混合模型的模型结构图作为参考。

在预测过程中，首先利用谱减法对被预测文件进行降噪处理，我们设置音频的前150ms为噪音部分，在频域上对音频文件进行降噪处理，并再次使用matplotlib工具包记录降噪前后的时域波形图。随后，同样计算其梅尔频率倒谱系数(MFCCs)，并计算一阶和二阶差分特征，分别进行记录。最后进行模型拟合程度的打分，我们将其记录为柱状图，以便观察。

重要日期

会议日期

11月17日

2023

至

11月19日

2023
11月30日 2023

初稿截稿日期

主办单位

中国虚拟现实大赛组委会
中国虚拟现实大赛指导委员会

承办单位

VR中国
中国计算机学会（相城）元宇宙产业智库

协办单位

虚拟现实技术与系统全国重点实验室（北京航空航天大学）
计算机辅助设计与图形学国家重点实验室（浙江大学）

联系方式

竞赛委员会
cc******@chinavr.org
043*********

登录查看完整联系方式

历届会议

2025年08月21日哥伦比亚波哥大
“智链中哥·数创未来”——中国虚拟现实大赛八周年国际展暨中哥建交45周年数字文明对话
2024年10月30日中国长春市
2024年第七届中国虚拟现实大赛（CCVR 2024）
2022年11月18日中国昆明市
2022年第五届中国虚拟现实大赛
2021年10月17日中国南昌市
中国虚拟现实大赛

移动端

在手机上打开

小程序

打开微信小程序

客服

扫码或点此咨询

2023年第六届中国虚拟现实大赛 (CCVR 2023)