专利号:CN202010336844.9
摘要:本发明公开了一种基于语谱图和注意力机制的声纹识别方法,包括步骤:数据预处理,将语音语料进行处理;特征提取,提取语谱图作为输入特征;特征处理,将语谱图输入卷积神经网络,利用卷积神经网络对多语谱图进行自动优化和降维;模型训练,利用X‑Vector说话人识别模型对语谱图特征进行训练,并引入注意力机制对帧级别特征进行权重处理;打分判决,对两个待测样本的似然对数比得分和预设条件进行判定,给出两个样本是否为同一个说话人的判断。和现有X‑Vector说话人识别技术相比,本发明引入卷积神经网络和语谱图,能更好地捕获说话人特征,并且采用注意力机制对统计层进行训练,成本低,效率高,提高了说话人识别系统的性能。
