• 《工程索引》(EI)刊源期刊
  • 综合性科学技术类中文核心期刊
  • 中国科技论文统计源期刊
  • 中国科学引文数据库来源期刊

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于DL-T及迁移学习的语音识别研究

张威 刘晨 费鸿博 李巍 俞经虎 曹毅

张威, 刘晨, 费鸿博, 李巍, 俞经虎, 曹毅. 基于DL-T及迁移学习的语音识别研究[J]. 工程科学学报. doi: 10.13374/j.issn2095-9389.2020.01.12.001
引用本文: 张威, 刘晨, 费鸿博, 李巍, 俞经虎, 曹毅. 基于DL-T及迁移学习的语音识别研究[J]. 工程科学学报. doi: 10.13374/j.issn2095-9389.2020.01.12.001
ZHANG Wei, LIU Chen, FEI Hong-bo, LI Wei, YU Jing-hu, CAO Yi. Research on automatic speech recognition based on a DL–T and transfer learning[J]. Chinese Journal of Engineering. doi: 10.13374/j.issn2095-9389.2020.01.12.001
Citation: ZHANG Wei, LIU Chen, FEI Hong-bo, LI Wei, YU Jing-hu, CAO Yi. Research on automatic speech recognition based on a DL–T and transfer learning[J]. Chinese Journal of Engineering. doi: 10.13374/j.issn2095-9389.2020.01.12.001

基于DL-T及迁移学习的语音识别研究

doi: 10.13374/j.issn2095-9389.2020.01.12.001
基金项目: 国家自然科学基金资助项目(51375209);江苏省“六大人才高峰”计划资助项目(ZBZZ–012);江苏省研究生创新计划资助项目(KYCX18_0630, KYCX18_1846);高等学校学科创新引智计划资助项目(B18027)
详细信息

Research on automatic speech recognition based on a DL–T and transfer learning

More Information
  • 摘要: 为解决RNN–T语音识别时预测错误率高、收敛速度慢的问题,本文提出了一种基于DL–T的声学建模方法。首先介绍了RNN–T声学模型;其次结合DenseNet与LSTM网络提出了一种新的声学建模方法— —DL–T,该方法可提取原始语音的高维信息从而加强特征信息重用、减轻梯度问题便于深层信息传递,使其兼具预测错误率低及收敛速度快的优点;然后,为进一步提高声学模型的准确率,提出了一种适合DL–T的迁移学习方法;最后为验证上述方法,采用DL–T声学模型,基于Aishell–1数据集开展了语音识别研究。研究结果表明:DL–T相较于RNN–T预测错误率相对降低了12.52%,模型最终错误率可达10.34%。因此,DL–T可显著改善RNN–T的预测错误率和收敛速度。
  • 图 1  RNN–T声学模型结构图

    Figure 1.  Acoustic model of RNN–T

    图 2  DenseNet模型结构图

    Figure 2.  Model structure of DenseNet

    图 3  DL–T编码网络结构图

    Figure 3.  Encoder network structure of a DL–T

    图 4  迁移学习方法结构图

    Figure 4.  Method of transfer learning

    图 5  基线模型实验曲线图。(a)初始训练损失值曲线图;(b)迁移学习损失值曲线图;(c)初始训练错误率曲线图;(d)迁移学习错误率曲线图

    Figure 5.  Curves of the baseline model:(a) loss curve on initial training stage; (b) loss curve on transfer learning stage; (c) prediction error rate curve on initial training stage; (d) prediction error rate curve on transfer learning stage

    图 6  DL–T实验曲线图。(a)不同声学模型初始训练损失值曲线图;(b)不同声学模型迁移学习损失值曲线图;(c)不同声学模型初始训练错误率曲线图;(d)不同声学模型迁移学习错误率曲线图

    Figure 6.  Curves of the DenseNet–LSTM–Transducer: (a) loss curve of different acoustic models on initial training stage; (b) loss curve of different acoustic models on transfer learning stage; (c) prediction error rate curve of different acoustic models on initial training stage; (d) prediction error rate curve of different acoustic models on transfer learning stage

    表 1  RNN–T基线模型实验结果

    Table 1.  Experimental results of RNN–T’s baseline %

    Acoustic modelInitial modelTLTL+LM
    Dev CERTest CERDev CERTest CERDev CERTest CER
    RNN-T[15]10.1311.82
    E3D117.6918.9214.4216.3112.0713.57
    E4D115.0317.3913.6615.5811.2513.07
    E5D119.6222.3514.1416.2211.8913.53
    E4D212.1214.5410.7412.749.1310.65
    下载: 导出CSV

    表 2  DL-T实验结果

    Table 2.  Experimental results of DL–T %

    Acoustic modelInitial modelTLTL+LM
    Dev CERTest CERDev CERTest CERDev CERTest CER
    SA–T[15]9.2110.46
    LAS[28]10.56
    DE3D115.1717.3113.7815.9211.8513.52
    DE4D113.7015.8412.7814.8011.2112.95
    DE5D115.9218.3813.4615.3011.5713.90
    DE4D211.2313.4510.6912.558.8010.34
    下载: 导出CSV

    表 3  不同语言模型对声学模型的影响

    Table 3.  Effects of different language model weights on the acoustic model %

    Value of LMDev CERTest CER
    0.28.9110.47
    0.38.8010.34
    0.48.8910.45
    下载: 导出CSV
  • [1] Hinton G, Deng L, Yu D, et al. Deep neural networks for acoustic modeling in speech recognition: the shared views of four research groups. IEEE Signal Process Mag, 2012, 29(6): 82
    [2] Graves A, Mohamed A, Hinton G E. Speech recognition with deep recurrent neural networks // 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. Vancouver, 2013: 6645
    [3] Seltzer M L, Ju Y C, Tashev I, et al. In-car media search. IEEE Signal Process Mag, 2011, 28(4): 50
    [4] 俞栋, 邓力. 解析深度学习: 语音识别实践. 俞凯, 钱彦旻, 译. 5版. 北京: 电子工业出版社, 2016

    Yu D, Deng L. Analytical Deep Learning: Speech Recognition Practice. Yu K, Qian Y M, Translated. 5th ed. Beijing: Publishing House of Electronic Industry, 2016
    [5] Peddinti V, Wang Y M, Povey D, et al. Low latency acoustic modeling using temporal convolution and LSTMs. IEEE Signal Process Lett, 2018, 25(3): 373
    [6] Povey D, Cheng G F, Wang Y M, et al. Semi-orthogonal low-rank matrix factorization for deep neural networks // Conference of the International Speech Communication Association. Hyderabad, 2018: 3743
    [7] 刑安昊, 张鹏远, 潘接林, 等. 基于SVD的DNN裁剪方法和重训练. 清华大学学报: 自然科学版, 2016, 56(7):772

    Xing A H, Zhang P Y, Pan J L, et al. SVD-based DNN pruning and retraining. J Tsinghua Univ Sci Technol, 2016, 56(7): 772
    [8] Graves A, Fernandez S, Gomez F, et al. Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks // Proceedings of the 23rd International Conference on Machine Learning. Pittsburgh, 2006: 369
    [9] Zhang Y, Pezeshki M, Brakel P, et al. Towards end-to-end speech recognition with deep convolutional neural networks // Conference of the International Speech Communication Association. California, 2016: 410
    [10] Zhang W, Zhai M H, Huang Z L, et al. Towards end-to-end speech recognition with deep multipath convolutional neural networks // 12th International Conference on Intelligent Robotics and Applications. Shenyang, 2019: 332
    [11] Zhang S L, Lei M. Acoustic modeling with DFSMN-CTC and joint CTC-CE learning // Conference of the International Speech Communication Association. Hyderabad, 2018: 771
    [12] Dong L H, Xu S, Xu B. Speech-transformer: a no-recurrence sequence-to-sequence model for speech recognition // IEEE International Conference on Acoustics, Speech and Signal Processing. Calgary, 2018: 5884
    [13] Graves A. Sequence transduction with recurrent neural networks // Proceedings of the 29th International Conference on Machine Learning. Edinburgh, 2012: 235
    [14] Rao K, Sak H, Prabhavalkar R. Exploring architectures, data and units for streaming end-to-end speech recognition with RNN-transducer // 2017 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU). Okinawa, 2017
    [15] Tian Z K, Yi J Y, Tao J H, et al. Self-attention transducers for end-to-end speech recognition // Conference of the International Speech Communication Association. Graz, 2019: 4395
    [16] Bu H, Du J Y, Na X Y, et al. Aishell-1: an open-source mandarin speech corpus and a speech recognition baseline[J/OL]. arXiv preprint (2017-09-16)[2019-10-10]. http://arxiv.org/abs/17-09.05522.
    [17] Battenberg E, Chen J T, Child R, et al. Exploring neural transducers for end-to-end speech recognition // 2017 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU). Okinawa, 2017: 206
    [18] Williams R J, Zipser D. Gradient-based learning algorithms for recurrent networks and their computational complexity // Back-propagation: Theory, Architectures and Applications. 1995: 433
    [19] Huang G, Liu Z, Maaten L V D, et al. Densely connected convolutional networks // IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, 2017: 4700
    [20] 曹毅, 黄子龙, 张威, 等. N-DenseNet的城市声音事件分类模型. 西安电子科技大学学报: 自然科学版, 2019, 46(6):9

    Cao Y, Huang Z L, Zhang W, et al. Urban sound event classification with the N-order dense convolutional network. J Xidian Univ Nat Sci, 2019, 46(6): 9
    [21] 张顺, 龚怡宏, 王进军. 深度卷积神经网络的发展及其在计算机视觉领域的应用. 计算机学报, 2019, 42(3):453

    Zhang S, Gong Y H, Wang J J. The development of deep convolutional neural networks and its application in computer vision. Chin J Comput, 2019, 42(3): 453
    [22] 周飞燕, 金林鹏, 董军. 卷积神经网络研究综述. 计算机学报, 2017, 40(6):1229 doi:  10.11897/SP.J.1016.2017.01229

    Zhou F Y, Jin L P, Dong J. Review of convolutional neural networks. Chin J Comput, 2017, 40(6): 1229 doi:  10.11897/SP.J.1016.2017.01229
    [23] 易江燕, 陶建华, 刘斌, 等. 基于迁移学习的噪声鲁棒性语音识别声学建模. 清华大学学报: 自然科学版, 2018, 58(1):55

    Yi J Y, Tao J H, Liu B, et al. Transfer learning for acoustic modeling of noise robust speech recognition. J Tsinghua Univ Sci Technol, 2018, 58(1): 55
    [24] Xue J B, Han J Q, Zheng T R, et al. A multi-task learning framework for overcoming the catastrophic forgetting in automatic speech recognition[J/OL]. arXiv preprint (2019-04-17)[2019-10-10]]. https://arxiv.org/abs-/1904.08039.
    [25] Mikolov T, Sutskever I, Chen K, et al. Distributed representations of words and phrases and their compositionality // Proceedings of the 26th International Conference on Neural Information Processing Systems - Volume 2.Canada, 2013: 3111
    [26] Povey D, Ghoshal A, Boulianne G, et al. The Kaldi speech recognition toolkit // IEEE 2011 Workshop on Automatic Speech Recognition and Understanding. Big Island, 2011
    [27] Paszke A, Gross S, Chintala S, et al. Automatic differentiation in PyTorch // 31st Conference on Neural Information Processing Systems. Long Beach, 2017
    [28] Shan C, Weng C, Wang G, et al. Component fusion: learning replaceable language model component for end-to-end speech recognition system // IEEE International Conference on Acoustics, Speech and Signal Processing. Brighton, 2019: 5361
  • [1] 刘帅,  王旭东,  吴楠.  一种基于卷积神经网络的CSI指纹室内 . 工程科学学报, doi: 10.13374/j.issn2095-9389.2020.12.09.003
    [2] 印象,  马博渊,  班晓娟,  黄海友,  王宇(通讯作者),  李松岩.  智慧医疗-面向显微影像的多聚焦多图融合中失焦扩散效应消除方法 . 工程科学学报, doi: 10.13374/j.issn2095-9389.2021.01.12.002
    [3] 张桃红,  范素丽,  郭徐徐,  李倩倩.  基于数据融合的智能医疗辅助诊断方法 . 工程科学学报, doi: 10.13374/j.issn2095-9389.2021.01.12.003
    [4] 宋洪庆, 都书一, 周园春, 王宇赫, 王九龙.  油气资源开发的大数据智能平台及应用分析 . 工程科学学报, doi: 10.13374/j.issn2095-9389.2020.07.21.001
    [5] 王振阳, 江德文, 王新东, 张建良, 刘征建, 赵宝军.  基于支持向量回归与极限学习机的高炉铁水温度预测 . 工程科学学报, doi: 10.13374/j.issn2095-9389.2020.05.28.001
    [6] 丛明, 吴童, 刘冬, 杨德勇, 杜宇.  基于监督学习的前列腺MR/TRUS图像分割和配准方法 . 工程科学学报, doi: 10.13374/j.issn2095-9389.2019.10.10.006
    [7] 高洋, 王礼伟, 任望, 谢丰, 莫晓锋, 罗熊, 王卫苹, 杨玺.  基于强化学习的工控系统恶意软件行为检测方法 . 工程科学学报, doi: 10.13374/j.issn2095-9389.2019.09.16.005
    [8] 徐聪, 李擎, 张德政, 陈鹏, 崔家瑞.  文本生成领域的深度强化学习研究进展 . 工程科学学报, doi: 10.13374/j.issn2095-9389.2019.06.16.030
    [9] 白志程, 李擎, 陈鹏, 郭立晴.  自然场景文本检测技术研究综述 . 工程科学学报, doi: 10.13374/j.issn2095-9389.2020.03.24.002
    [10] 李小倩,  何伟,  朱士强,  李月华,  谢天.  基于环境语义信息的同步定位与地图构建方法综述 . 工程科学学报, doi: 10.13374/j.issn2095-9389.2020.11.09.006
    [11] 张永峰, 陆志强.  基于集成神经网络的剩余寿命预测 . 工程科学学报, doi: 10.13374/j.issn2095-9389.2019.10.10.005
    [12] 李梅, 郭飞, 张立中, 王波, 张俊岭, 李兆桐.  基于TATLNet的输电场景威胁检测 . 工程科学学报, doi: 10.13374/j.issn2095-9389.2019.09.15.004
    [13] 周珂, 张浩博, 付冬梅, 赵志毅, 曾惠.  复杂环境下一种基于SiamMask的时空预测移动目标跟踪算法 . 工程科学学报, doi: 10.13374/j.issn2095-9389.2019.06.06.005
    [14] 赵坤, 刘立, 孟宇, 孙若灿.  弱光照条件下交通标志检测与识别 . 工程科学学报, doi: 10.13374/j.issn2095-9389.2019.08.14.003
    [15] 陈鹏, 李擎, 张德政, 杨宇航, 蔡铮, 陆子怡.  多模态学习方法综述 . 工程科学学报, doi: 10.13374/j.issn2095-9389.2019.03.21.003
    [16] 王志明, 刘志辉, 黄洋科, 邢宇翔.  基于深度学习的高效火车号识别 . 工程科学学报, doi: 10.13374/j.issn2095-9389.2019.12.05.001
    [17] 曲悦, 钱旭, 宋洪庆, 何杰, 李剑辉, 修昊.  基于机器学习的北京市PM2.5浓度预测模型及模拟分析 . 工程科学学报, doi: 10.13374/j.issn2095-9389.2019.03.014
    [18] 李江昀, 赵义凯, 薛卓尔, 蔡铮, 李擎.  深度神经网络模型压缩综述 . 工程科学学报, doi: 10.13374/j.issn2095-9389.2019.03.27.002
    [19] 于露, 金龙哲, 王梦飞, 徐明伟.  基于深度学习的人体低氧状态识别 . 工程科学学报, doi: 10.13374/j.issn2095-9389.2019.06.014
    [20] 陈恒志, 杨建平, 卢新春, 余相灼, 刘青.  基于极限学习机(ELM)的连铸坯质量预测 . 工程科学学报, doi: 10.13374/j.issn2095-9389.2018.07.007
  • 加载中
图(6) / 表 (3)
计量
  • 文章访问数:  1517
  • HTML全文浏览量:  500
  • PDF下载量:  65
  • 被引次数: 0
出版历程
  • 收稿日期:  2020-01-12
  • 网络出版日期:  2020-12-22

基于DL-T及迁移学习的语音识别研究

doi: 10.13374/j.issn2095-9389.2020.01.12.001
    基金项目:  国家自然科学基金资助项目(51375209);江苏省“六大人才高峰”计划资助项目(ZBZZ–012);江苏省研究生创新计划资助项目(KYCX18_0630, KYCX18_1846);高等学校学科创新引智计划资助项目(B18027)
    通讯作者: E-mail:caoyi@jiangnan.edu.cn
  • 中图分类号: TN912.3

摘要: 为解决RNN–T语音识别时预测错误率高、收敛速度慢的问题,本文提出了一种基于DL–T的声学建模方法。首先介绍了RNN–T声学模型;其次结合DenseNet与LSTM网络提出了一种新的声学建模方法— —DL–T,该方法可提取原始语音的高维信息从而加强特征信息重用、减轻梯度问题便于深层信息传递,使其兼具预测错误率低及收敛速度快的优点;然后,为进一步提高声学模型的准确率,提出了一种适合DL–T的迁移学习方法;最后为验证上述方法,采用DL–T声学模型,基于Aishell–1数据集开展了语音识别研究。研究结果表明:DL–T相较于RNN–T预测错误率相对降低了12.52%,模型最终错误率可达10.34%。因此,DL–T可显著改善RNN–T的预测错误率和收敛速度。

English Abstract

张威, 刘晨, 费鸿博, 李巍, 俞经虎, 曹毅. 基于DL-T及迁移学习的语音识别研究[J]. 工程科学学报. doi: 10.13374/j.issn2095-9389.2020.01.12.001
引用本文: 张威, 刘晨, 费鸿博, 李巍, 俞经虎, 曹毅. 基于DL-T及迁移学习的语音识别研究[J]. 工程科学学报. doi: 10.13374/j.issn2095-9389.2020.01.12.001
ZHANG Wei, LIU Chen, FEI Hong-bo, LI Wei, YU Jing-hu, CAO Yi. Research on automatic speech recognition based on a DL–T and transfer learning[J]. Chinese Journal of Engineering. doi: 10.13374/j.issn2095-9389.2020.01.12.001
Citation: ZHANG Wei, LIU Chen, FEI Hong-bo, LI Wei, YU Jing-hu, CAO Yi. Research on automatic speech recognition based on a DL–T and transfer learning[J]. Chinese Journal of Engineering. doi: 10.13374/j.issn2095-9389.2020.01.12.001
  • 语音识别是人机交互的一项关键技术,近年来,基于深度学习的语音识别技术取得了跨越式的发展[1-2],其在语音搜索、个人数码助理及车载娱乐系统[3]等领域得到了广泛应用。鉴于声学建模是语音识别技术的关键,因此国内外学者对其开展了广泛研究[4-15],主要可划分为4类:(1)隐马尔科夫模型[4-7](Hidden Markov model, HMM);(2)连接时序分类[8-11](Connectionist temporal classification, CTC);(3)序列到序列(Sequence to sequence, S2S)模型[12];(4) 循环神经网络转换器[13-15](Recurrent neural network–transducer, RNN–T)。

    (1) 第1类基于HMM构建声学模型,用神经网络描述声学特征的概率分布,有效弥补了高斯混合模型对于语音特征建模能力不足的缺点,从而提升声学模型准确率[4]。其中,Peddinti等[5]探索了神经网络-隐马尔可夫模型(Neural network–hidden Markov model, NN–HMM)的声学模型;Povey等[6]构建了因式分解的时延神经网络模型;刑安昊等[7]提出了深度神经网络(Deep neural network, DNN)裁剪方法,使得DNN性能损失降低。(2)第2类方法基于CTC构建端到端声学模型,无需时间维度上帧级别对齐标签,极大地简化了声学模型训练流程[8-11]。Graves[8]首次构建了神经网络–连接时序分类(Neural network–CTC, NN–CTC)声学模型并验证了其对于声学建模的有效性;Zhang等[9]探索了深度卷积神经网络–连接时序分类(DCNN–CTC)模型;Zhang等[10]构建了多路卷积神经网络–连接时序分类声学模型,使得音节错误率相对降低12.08%;Zhang等[11]提出了连接时序分类–交叉熵训练方法。(3)第3类方法旨在将声学特征编码成高维向量,再解码成识别结果。基于自注意力模型,Dong等[12]构建了端到端语音识别声学模型。(4)第4类方法则基于RNN–T构建声学模型,该方法对CTC输出独立性假设进行优化,并联合训练声学模型与语言模型进一步提升声学模型准确率[8]。Graves等[13]首次验证了RNN–T对于构建声学建模的可行性;Rao等[14]提出了适用于RNN–T的预训练方法;Tian等[15]构建了SA–T声学建模方法并结合正则化方法提高声学模型准确率。

    值得指出的是:CTC是最早提出的端到端语音识别方法,由于其建模过程简便且训练模型容易,因此得到了广泛研究[8-11],但CTC存在输出独立性假设且无法与语言模型联合训练问题[15]。为解决上述问题,RNN–T通过引入解码网络,不仅解决了CTC输出独立性假设问题且可联合语言模型进行训练。

    综上所述,本文首先基于RNN–T模型探索不同编码、解码网络层数对其预测错误率影响;其次,在上述模型的基础上结合DenseNet与LSTM网络提出了DL–T声学模型;然后,为进一步提高其准确率,提出了适合DL–T的迁移学习方法;最后,基于Aishell–1[16]数据集开展语音识别研究,其结果验证了DL–T兼具预测错误率低及收敛速度快的优点。

    • RNN–T是由Graves等[13]提出的一种语音识别声学建模方法,该方法可分为编码网络(Encoder network)、解码网络(Decoder network)以及联合网络(Joint network)三部分[17],其模型结构如图1所示。

      图  1  RNN–T声学模型结构图

      Figure 1.  Acoustic model of RNN–T

      设给定序列X=(x1, x2$, \cdots $, xt$, \cdots $, xT)表示输入T(1≤tT)帧声学特征序列,对应标签序列y=(y1, y2$, \cdots $, yu$ , \cdots$,yU),其中U(1≤uU)表示标签长度。如图1所示,编码网络将输入声学特征映射为声学特征向量ft,编码结果如下式所示:

      $${{{f}}_t} = {f^{{\rm{Enc}}}}\left( {{{{x}}_t}} \right)$$ (1)

      其中,fEnc(·)表示深度神经网络构建的函数,该文编码层均采用BLSTM网络,其具体计算如式(2)~(7)所示:

      $${{{i}}_t} = \sigma \left( {{{{W}}_{{\rm{i}}x}}{{{x}}_t} + {{{W}}_{{\rm{ih}}}}{{{h}}_{t - 1}} + {{{W}}_{{\rm{is}}}}{{{s}}_{t - 1}} + {{{b}}_{\rm{i}}}} \right)$$ (2)
      $${{{z}}_t} = \sigma \left( {{{{W}}_{{\rm{z}}x}}{{{x}}_t} + {{{W}}_{{\rm{zh}}}}{{{h}}_{t - 1}} + {{{W}}_{{\rm{zs}}}}{{{s}}_{t - 1}} + {{{b}}_{\rm{z}}}} \right)$$ (3)
      $${{{s}}_t} = {{{z}}_t}{{{s}}_{t - 1}} + {{{i}}_t}{{\phi}} \left( {{{{W}}_{{\rm{s}}x}}{{{x}}_t} + {{{W}}_{{\rm{sh}}}}{{{h}}_{t - 1}} + {{{b}}_{\rm{s}}}} \right)$$ (4)
      $${{{o}}_t} = \sigma \left( {{{{W}}_{{\rm{o}}x}}{{{x}}_t} + {{{W}}_{{\rm{oh}}}}{{{h}}_{t - 1}} + {{{W}}_{{\rm{os}}}}{{{s}}_{t - 1}} + {{{b}}_{\rm{o}}}} \right)$$ (5)
      $${{{h}}_t} = {{{o}}_t}{{\phi}} \left( {{{{s}}_t}} \right)$$ (6)
      $${{{f}}_t} = \left[ {{{\mathop {{h}}\limits^ \to }_t};{{\mathop {{h}}\limits^ \leftarrow }_t}} \right]$$ (7)

      式(2)~(7)中,itztstothtft分别代表t时刻输入门、遗忘门、中间状态、输出门、隐藏值向量和输出向量;WixWihWis分别表示输入到输入门、输入门到隐藏值向量权值以及输入门到中间状态的权值;WzxWzhWzs分别表示输入到遗忘门、遗忘门到隐藏值向量权值以及遗忘门到中间状态的权值;WoxWohWos分别表示输入到输出门、输出门到隐藏值向量权值以及输出门到中间状态的权值;WsxWsh分别表示中间状态到输入门与隐藏值向量的权值;bibzbsbo分别代表输入门、遗忘门、中间状态和输出门偏置矩阵;σ(·)、ϕ(·)分别表示sigmoid及Tanh激活函数;$\left[ {{{\mathop {{h}}\limits^ \to }_t};{{\mathop {{h}}\limits^ \leftarrow }_t}} \right]$表示拼接前向隐藏向量${\mathop {{h}}\limits^ \to} _t$与后向隐藏向量${\mathop {{h}}\limits^ \leftarrow} _t$得到编码网络结果ft

      图1所示,RNN–T引入解码网络对CTC输出独立性假设进行优化,该网络对上一时刻非空预测结果进行再编码,其结果如式(8)所示:

      $${{{g}}_u} = {f^{{\rm{Dec}}}}\left( {{{{y}}_{u - 1}}} \right)$$ (8)

      同理,fDec(·)表示深度神经网络构建的函数,且该文解码层均采用LSTM网络,具体计算与式(2)~(6)一致,解码网络最终结果guht相等。

      联合网络将编码网络与解码网络组合(图1),得到组合序列,再通过Softmax函数得到下一时刻概率分布,其计算如式(9)~(10)所示:

      $${{{w}}_{t,u}} = {f^{{\rm{Joint}}}}\left( {{{{f}}_t},{\kern 1pt} {\kern 1pt} {{{g}}_u}} \right)$$ (9)
      $$p\left( {k|t,u} \right) = {\rm{Softmax}}\left( {{{{w}}_{t, u}}} \right)$$ (10)
      $${L_{{\rm{RNN-T}}}} = -\ln P\left( {{{{y}}^*}|{{X}}} \right)$$ (11)

      式(9)~(10)中,ftgu分别表示编码向量与解码向量,并将上述二者组合成联合向量wt,u,进而通过Softmax函数计算其后验概率。式(11)表示RNN–T损失函数,其值可通过前向–后向算法计算。其中,y*表示给定序列的标签,由于式(10)结果均可微。因此,可通过随时间反向传播(Back-propagation through time, BPTT)算法[18]进行参数训练。

    • DenseNet是由Huang等[19]提出的一种深度学习算法,其采用密集连接方式加强特征的信息重用,从而提升网络的性能,其模型结构如图2所示。曹毅等[20]结合DenseNet和N阶马尔可夫模型提出了N阶DenseNet,该模型在避免梯度消失的前提下有针对性地减少了特征图层之间的连接,极大地减少了特征冗余,使得模型的收敛速度更快。式(12)可用于表示DenseNet计算结果:

      $${{{x}}_l} = {H_l}\left( {\left[ {{{{x}}_0},{\kern 1pt} {\kern 1pt} {{{x}}_1}, \cdot \cdot \cdot ,{\kern 1pt} {\kern 1pt} {{{x}}_{l - 1}}} \right]} \right)$$ (12)

      图  2  DenseNet模型结构图

      Figure 2.  Model structure of DenseNet

      其中,l表示当前层数,[x0, x1$, \cdots $, xl−1]表示拼接前l–1层的特征图,Hl表示拼接前l−1层特征图,xl表示第l层特征图。

      受上述算法启发,首先使用DenseNet提取原始特征的高维信息,其不仅提升特征的信息重用[21],而且可以减轻梯度问题[22];然后利用LSTM网络序列建模时的优势,对提取的高维信息进行序列建模;最终构建DL–T声学模型,其具体编码网络模型结构如图3所示。

      图  3  DL–T编码网络结构图

      Figure 3.  Encoder network structure of a DL–T

    • 迁移学习(Transfer learning, TL)是深度学习优化算法中的研究热点,其旨在基于源域在解决任务中获得知识进而改善目标任务的算法。近年来,国内外已有不少学者在此领域进行深入研究[15, 23-24]。Tian等[15]将预训练模型作为RNN–T的初始模型,在此基础上进行再训练,使得RNN–T训练难度降低;易江燕等[23]用迁移学习方法对带噪语音进行声学建模,该方法利用老师模型指导学生模型进行训练,提高带噪语音的鲁棒性;Xue等[24]基于多任务学习理论,对声学模型进行再训练,从而降低模型的错误率。

      有鉴于此,为进一步提高声学模型准确率,本文拟用迁移学习方法对声学模型进行优化。该方法在初始模型的基础上融合优化算法重训练得到最终模型,其训练方法如图4所示。

      图  4  迁移学习方法结构图

      Figure 4.  Method of transfer learning

      图4中,虚线部分表示初始训练模型,其包含编码网络、解码网络及联合网络3部分,其具体工作原理如下:

      (1)首先以声学特征序列X为编码网络输入;

      (2)其次,用字序列y通过词嵌入[25]变换作为解码网络输入,该输入序列将高维稀疏字序列映射低维密集的特征空间,从而减少输入参数量便于模型训练;

      (3)最后,联合网络将编码网络与解码网络相结合,通过softmax函数输出结果。

      实线为迁移学习部分,该部分RNN–T结构与初始模型一致,将初始模型参数重训练得到迁移学习之后的模型,其计算结果如式(13)所示:

      $${D_{{\rm{fi}}}}\left( {{P_{\rm{f}}}\parallel {P_{\rm{i}}}} \right) \equiv - \ln P\left( {{{{y}}^ * }|{{X}}} \right)$$ (13)

      其中,PiPf分别表示初始模型以及迁移学习模型的参数,其中Pi=P(ki|ti, ui), Pf=P(kf|tf, uf);Dfi(·)为本文迁移学习的优化目标,其用Pi通过参数优化得到Pf,旨在最小化Dfi(·)目标函数。

    • 为验证DL–T声学模型相较于RNN–T训练时收敛速度更快且具有良好的准确率,本节基于Aishell–1数据集在实验平台上开展语音识别的研究。

    • 实验采用Aishell–1[16]数据集进行实验,该数据集是中文语音标准数据集,其采样率为16000 Hz,其中训练集、验证集以及测试集分别包含120098、14326以及7176条标准语料,数据总时长约为178 h,并且训练集、验证集和测试集语料间均无交叠。

    • 为验证DL–T兼具预测错误率低与收敛速度快的优点,基于Aishell–1数据集,论文将开展声学模型研究,其具体参数配置如下:

      (1)特征提取:基于kaldi[26]语音识别开发包提取80维FBank特征,其中窗长25 ms,帧移为10 ms,然后左拼接3 帧[15],共320 维,用其作为声学模型输入。训练阶段,对所有语料按帧由短到长进行排序,共4335个字作为建模单元。

      (2)声学模型参数:本文基于Pytorch[27]构建声学模型。初始训练阶段,优化准则采用随机梯度下降,学习率初始设置为0.001;迁移学习阶段,优化准则不变,但学习率降为0.00001。且所有训练阶段,Linear和DenseNet网络均采用反向传播算法进行训练,LSTM模型采用BPTT算法进行优化参数。RNN–T基线模型中,编码网络设置DenseNet为4层,特征图增长率[19-20]为4,初始输入为单通道的语音特征;采用3层BLSTM模型进行序列建模,隐藏神经元个数为320;解码网络设置为1层单向LSTM网络,神经元数目为320;联合网络采用2层全连接网络,其神经元数目依次为512和4335。

      (3)解码:本文采用束搜索对最后概率分布进行解码[13],解码宽度为10。并且,采用训练集数据构建5–元语言模型对声学模型结果进行修正,初始设置语言模型权重为0.3,式(14)表示RNN–T声学模型与语言模型联合解码定义:

      $${{{Y}}_{{\rm{final}}}} = \mathop {{\rm{Argmax}}}\limits_{{{{y}}^*}} \left( {{P_{{\rm{RNN - T}}}}\left( {{{{y}}^*}|{{X}}} \right) + \alpha \cdot {P_{{\rm{LM}}}}\left( {{{{y}}^*}} \right)} \right)$$ (14)

      其中,PRNN–T(y*|X)与PLM(y*)分别表示RNN–T声学模型以及LM生成y*的概率,α代表语言模型权重,最终通过Argmax(·)函数将上述计算结果映射为对应的序列Yfinal

    • RNN–T基线模型可为DL–T提供对比模型并能验证其声学模型的有效性。为得到RNN–T基线模型,基于3.2中设置的初始实验参数,对基线模型中不同参数进行对比研究。首先对编码网络中BLSTM网络的层数进行实验,得到编码阶段最优模型;其次,再增加解码网络中单向LSTM层数;最终采用最低的错误率(CER)模型作为基线(Baseline)模型,具体实验结果如表1所示。

      表 1  RNN–T基线模型实验结果

      Table 1.  Experimental results of RNN–T’s baseline %

      Acoustic modelInitial modelTLTL+LM
      Dev CERTest CERDev CERTest CERDev CERTest CER
      RNN-T[15]10.1311.82
      E3D117.6918.9214.4216.3112.0713.57
      E4D115.0317.3913.6615.5811.2513.07
      E5D119.6222.3514.1416.2211.8913.53
      E4D212.1214.5410.7412.749.1310.65

      表1中Dev CER、Test CER分别表示验证集错误率和测试集错误率。其中,“E3D1”表示编码网络中BLSTM层数为3,解码网络中LSTM网络层数为1;“E3D1(TL)”表示“E3D1”声学模型经过迁移学习(TL)训练得到的模型;迁移学习与语言模型共同优化下,得到“E3D1(TL+LM)”声学模型。

      表1不难看出:

      (1)编码网络初始设为3层,随其层数增加,模型预测错误率出现先增后减趋势,当模型编码层数为4,且解码层数为2时,声学结果达到最优,其测试集错误率降至14.54%;

      (2)RNN–T经过重训练可使得声学模型错误率降低1.80%~6.13%,验证了迁移学习可进一步提高RNN–T声学模型准确率的结论;

      (3)语言模型和声学模型联合解码使得RNN–T的效果得到极大提升,相较于文献[15],“E4D2(TL+LM)”声学模型在验证集与测试集的预测错误率分别相对降低9.87%和9.90%,模型的错误率降至10.65%。

      综上可得:(1)“E4D2(TL+LM)”为本文构建的RNN–T声学模型,其错误率最低,选其作为基线模型具有合理性;(2)迁移学习可进一步降低初始模型错误率,通过插入语言模型可使得模型达到最优。

    • 为验证DL–T声学模型相较于RNN–T训练收敛速度快、预测错误率低。基于3.2节设置DL–T初始参数训练声学模型,并与3.3.1节中RNN–T的实验结果进行对比,其实验损失函数曲线与错误率曲线如图5图6所示。

      图  5  基线模型实验曲线图。(a)初始训练损失值曲线图;(b)迁移学习损失值曲线图;(c)初始训练错误率曲线图;(d)迁移学习错误率曲线图

      Figure 5.  Curves of the baseline model:(a) loss curve on initial training stage; (b) loss curve on transfer learning stage; (c) prediction error rate curve on initial training stage; (d) prediction error rate curve on transfer learning stage

      图  6  DL–T实验曲线图。(a)不同声学模型初始训练损失值曲线图;(b)不同声学模型迁移学习损失值曲线图;(c)不同声学模型初始训练错误率曲线图;(d)不同声学模型迁移学习错误率曲线图

      Figure 6.  Curves of the DenseNet–LSTM–Transducer: (a) loss curve of different acoustic models on initial training stage; (b) loss curve of different acoustic models on transfer learning stage; (c) prediction error rate curve of different acoustic models on initial training stage; (d) prediction error rate curve of different acoustic models on transfer learning stage

      图5中,“DE3D1”表示编码网络为DenseNet–LSTM结构(DenseNet结构与3.2节参数一致),其LSTM层数为3,解码网络中LSTM网络层数为1的DL–T声学模型。RNN–T以及DL–T实验结果分别用虚线、实线表示。图5(a)5(c)分别表示初始训练阶段损失值曲线与错误率曲线,图5(b)5(d)分别表示迁移学习阶段损失值曲线与错误率曲线。

      图5(a)5(b)可看出:(1)随着迭代次数的增加,声学模型逐渐趋于收敛,损失值最终收敛到一个固定范围内;(2)在初始训练阶段,DL–T收敛速度相较于RNN–T更快;在重训练阶段,RNN–T声学模型损失值减小至0.25左右,DL–T可减小至0.15以下,证明了DL–T相较于RNN–T训练收敛速度更快。

      图5(c)5(d)可看出:(1)随着迭代次数的增加,声学模型预测错误率逐渐降低,最终降至12.0% ~ 15.0%范围内;(2)初始训练阶段,RNN–T与DL–T预测错误率曲线均呈下降趋势,但DL–T错误率相较于RNN–T低;重训练阶段,RNN–T预测错误率降至13.5% ~ 15.0%范围内,DL–T预测错误率最低降至13.0%以下,该结果进一步验证了DL–T可显著降低声学模型预测错误率。其具体实验结果如表2所示。

      表 2  DL-T实验结果

      Table 2.  Experimental results of DL–T %

      Acoustic modelInitial modelTLTL+LM
      Dev CERTest CERDev CERTest CERDev CERTest CER
      SA–T[15]9.2110.46
      LAS[28]10.56
      DE3D115.1717.3113.7815.9211.8513.52
      DE4D113.7015.8412.7814.8011.2112.95
      DE5D115.9218.3813.4615.3011.5713.90
      DE4D211.2313.4510.6912.558.8010.34

      表2为实验具体结果,本文为得到最优DL–T声学模型。首先,DenseNet与解码网络层数不变,分析编码网络中不同BLSTM层数对于DL–T的影响,从表2可得出,“DE4D2”为最优的DL–T声学模型。然后固定编码网络不变,探索不同解码网络层数对模型的影响,从表2可得,当其层数为2时,模型达到最优,即为“DE4D2”模型,最终在测试集错误率可达13.45%。从表2可得以下结论:(1)迁移学习对于DL–T效果显著,使得模型的错误率降低0.90%~3.08%,再次验证了其对于模型训练的优越性;(2)语言模型的线性插入可进一步降低声学模型的错误率,最优声学模型错误率降低至10.34%;(3)必须指出的是:本文提出最优的DL–T声学模型相较于SA–T声学模型[15],在验证集和测试集上的预测错误率分别降低4.45%、1.15%,其相较于LAS声学模型[28]在测试集上,错误率相对降低2.08%,证明了DL–T擅长声学建模。

      为分析RNN–T与DL–T的训练与识别复杂度,分别选用“E4D2”与“DE4D2”两种代表性声学模型对其单轮训练时间与单句解码耗时进行实验分析。实验结果表明:(1)“E4D2”与“DE4D2”单轮训练时间分别约为150 s和155 s,“DE4D2”相较于前者单轮训练时间只增加约5 s,说明DL–T对RNN–T训练时间影响较小;(2)“E4D2”与“DE4D2”单句解码耗时分别约为910 ms与915 ms,“DE4D2”相较于前者单句解码耗时仅相对增加0.55%,实验结果进一步验证了DL–T对于识别复杂度的影响较小。

      为进一步验证不同语言模型权重对于声学模型结果的影响,表3给出了不同语言模型权重对于模型“DE4D2”的影响,语言模型的权重分别设置为0.2、0.3和0.4。从表3实验结果可得出,当权重值为0.3时,声学模型的错误率最低,达到10.34%,声学模型结果为最优。

      表 3  不同语言模型对声学模型的影响

      Table 3.  Effects of different language model weights on the acoustic model %

      Value of LMDev CERTest CER
      0.28.9110.47
      0.38.8010.34
      0.48.8910.45

      值得指出的是:综合表1表2表3实验结果可得出,DL–T相较于本文RNN–T基线模型,在验证集、测试集错误率分别相对降低3.61%和2.94%,进一步验证了DL–T相较于RNN–T可显著降低其预测错误率,其最优模型的具体训练过程曲线图如图6所示。

      为进一步展示最优声学模型实验过程,图6(a)6(d)展示了“E4D1”、“E4D2”、“DE4D2”三种不同声学模型的不同实验结果,其中模型“DE4D2”为本文最佳结果,模型的最终错误率降至10.34%。图6(a)6(c)表示初始训练结果,图6(b)6(d)表示迁移学习结果。由图6(a)图6(b)可以得出:(1)随着迭代次数增加,模型趋于收敛,最终损失值收敛在0.05~0.40范围内;(2)“DE4D2”模型在初始训练时相较于其他模型收敛速度最快,再次验证了DL–T可有效解决RNN–T收敛速度较慢的问题。

      图6(c)图6(d)可以得出:(1)三种声学模型错误率总体呈下降趋势,其错误率最终降到10.0%~14.0%区间;(2)结合表1表2结果可知,“DE4D2”相较于“E4D1”、“E4D2”在测试集上错误率降低2.73%和0.31%,再次证明本文提出的DL–T模型可显著降低模型错误率。

      综合表1表2图5图6可得以下结论:

      (1)从表1图5可得出:论文构建的RNN–T基线模型相较于文献[15]基线模型,其验证集与测试集预测错误率分别降低9.87%、9.90%,证明了本文构建的基线模型的有效性;

      (2)基于图5图6可得出,DL–T模型收敛速度相较于RNN–T模型更快,其值收敛于0.01~0.4范围,验证了DL–T可有效改善RNN–T收敛速度;

      (3)从表1表2可得出,DL–T相较于RNN–T基线模型在验证集及测试集错误率分别相对降低3.61%、2.94%,其最终错误率降至10.34%,表明DL–T可降低声学模型预测的错误率;

      (4)值得指出的是:“DE4D2(TL+LM)”模型相较于SA–T模型[15],在验证集和测试集上分别相对降低4.45%、1.15%,且其相较于LAS模型[28]在测试集上预测错误率降低2.08%,进一步证明了DL–T可显著降低声学模型错误率及其对于声学建模的优越性。

    • 以 RNN–T 端到端语音识别声学模型为研究对象,针对其在语音识别时存在预测错误率高、收敛速度慢的问题,提出了 DL–T 声学模型及适用于 DL–T 的迁移学习方法。

      (1)在研究RNN–T声学模型的基础上,搭建了该声学模型系统。

      (2)提出了一种DL–T声学建模方法,通过在编码网络中融入DenseNet网络结构,其不仅能提取语音高维特征便于序列建模,又可加快模型训练的收敛速度。

      (3)提出了一种适用于DL–T的迁移学习方法,该方法主要在初始模型上重训练得到更优声学模型,其可显著地提升声学模型准确率。

      (4)基于Aishell–1开展了语音识别的研究,结果表明,相较于文献[15]基线模型RNN–T,DL–T在验证集及测试集预测错误率分别相对降低13.13%、12.52%,且其相较于SA–T、LAS声学模型测试集预测错误率分别相对降低1.15%、2.08%,进一步证明了DL–T可提升声学模型训练收敛速度。

      论文研究内容对以 RNN-T 构建的语音识别声学模型在模型优化、理论研究与工程应用等方面均具有一定的指导意义。

参考文献 (28)

目录

    /

    返回文章
    返回