一种基于语谱图和注意力机制的声纹识别方法-兰州理工大学温州泵阀工程研究院

专利号：CN202010336844.9

摘要：本发明公开了一种基于语谱图和注意力机制的声纹识别方法，包括步骤：数据预处理，将语音语料进行处理；特征提取，提取语谱图作为输入特征；特征处理，将语谱图输入卷积神经网络，利用卷积神经网络对多语谱图进行自动优化和降维；模型训练，利用X‑Vector说话人识别模型对语谱图特征进行训练，并引入注意力机制对帧级别特征进行权重处理；打分判决，对两个待测样本的似然对数比得分和预设条件进行判定，给出两个样本是否为同一个说话人的判断。和现有X‑Vector说话人识别技术相比，本发明引入卷积神经网络和语谱图，能更好地捕获说话人特征，并且采用注意力机制对统计层进行训练，成本低，效率高，提高了说话人识别系统的性能。