973 / 2023-10-27 21:41:45
Echo Vision音频处理可视化
全文待审
周舒轩 / 吉林外国语大学
陈小雨 / 吉林外国语大学
田佳凇 / 吉林外国语大学
徐泽军 / 吉林外国语大学
本作品使用python编程语言,围绕声纹识别技术,将声纹模型训练过程以及预测过程进行可视化处理。

首先在训练过程中,利用python中的librosa工具包,针对训练集中每个说话人的音频,计算其梅尔频率倒谱系数(MFCCs)并使用librosa.feature.delta()函数计算了MFCCs的一阶和二阶差分特征。再使用matplotlib工具包以热图的形式绘制每个说话人的MFCC特征,并通过自动播放的方式进行循环展示。随后利用高斯混合模型对每个人的声纹特征进行拟合和建模,在拟合过程中我们调用了sklearn的GaussianMixture函数,将ncomponents参数设置为16进行拟合,为了将模型拟合过程完整呈现,我们将每个说话人的模型根据组件增加的顺序使用matplotlib工具包绘制其结构,每个说话人共绘制了16张高斯混合模型的模型结构图作为参考。

在预测过程中,首先利用谱减法对被预测文件进行降噪处理,我们设置音频的前150ms为噪音部分,在频域上对音频文件进行降噪处理,并再次使用matplotlib工具包记录降噪前后的时域波形图。随后,同样计算其梅尔频率倒谱系数(MFCCs),并计算一阶和二阶差分特征,分别进行记录。最后进行模型拟合程度的打分,我们将其记录为柱状图,以便观察。

 
重要日期
  • 会议日期

    11月17日

    2023

    11月19日

    2023

  • 11月30日 2023

    初稿截稿日期

主办单位
中国虚拟现实大赛组委会
中国虚拟现实大赛指导委员会
承办单位
VR中国
中国计算机学会(相城)元宇宙产业智库
协办单位
虚拟现实技术与系统全国重点实验室(北京航空航天大学)
计算机辅助设计与图形学国家重点实验室(浙江大学)
联系方式
历届会议
移动端
在手机上打开
小程序
打开微信小程序
客服
扫码或点此咨询