当前位置:首页 >> 中医美容 >> 基本上基于C++语言编写的开源语音识别系统:WAV2LETTER++

基本上基于C++语言编写的开源语音识别系统:WAV2LETTER++

发布时间:2024-10-09

随着大众所对于叫停时话音标记(automatic speech recognition,ASR)技术关注的长时间加强,在数以百计开源该软件生态村中会话音标记该软件的系统与IDE该软件猛增。其中会仅限于Kaldi、ESPNet、OpenSeq2Seq和Eesen。在无论如何十年的发展中会,这些开放性从未从传统的基于隐构造性三维(Hidden Markov Models,HMM)和很低斯融合三维(Gaussian Mixture Models,GMM)发展到基于前端到前端的神经局域网三维。许多也就是说的ASRIDE都不是基于歌声单位(phonemes)的而是用作基于图形单位(graphemes)的前端到前端电磁建模。本篇文章所介绍的ASRIDE也是如此。

激发这样的发生变化主要有都有两方面原因:1、前端到前端三维颇为比较简单;2、此三维与HMM/GMM的系统之间原有的相差正在急剧缩小。

本文向大众所展示了一款也就是说基于深度研习的话音标记核心——w2letter++,w2letter++几乎基于C++自然语言编写并用作了能最大化提升高效率的ArrayFire张量库。很低效能结构可以放缓渐进速度,而渐进速度很多时候又是实际上是非研究与训练属于自己资料库或任务三维的成功的不可忽视参数。

作者通过与其他存留常见的主要的开源话音SMART相比较,确定了w2letter++在一定几乎比其他从未构建过的前端到前端话音标记神经局域网训练速度快超过两倍以上。

其中会阐述了w2letter++为什么才会借助于传统意义C++自然语言对神经局域网透过的其设计,以及C++为话音SMART造成的好处:

用C++作为也就是说第三广泛用作的面向对象自然语言,只能几乎控制很低效能任务关键标准型的系统的所有资源。来得不可忽视的是,C++中会所有着的静态资料各种类标准型可以在对大规模程序透过编译时捕捉所有两国政府不匹配错误。借助于传统意义C++自然语言对神经局域网透过其设计,我们可以在不不惜牺牲面向对象简易度的几乎写出保持很低高效率与很低易用性的该软件。

w2letter++的其设计主要能做到三项用作需求:首先,IDE必须可以在包含数千小时话音资料的资料库中会很低效的训练三维。其次,必须能尽量比较简单地合并与表达属于自己局域网结构和损失函数,尽可能精简其他代码的采取行动。第三,从三维研究到三维布防的切线确实在确保研究的灵活性的一新尽量做到简洁、直白并经常性对新代码的需求。

w2letter++采用了ArrayFire作为张量库,并支持数种前端到前端三维,每个三维分别由“局域网”和“标准”两部分合组。同时w2letter++的训练管线为用作者用作不同的特征、开放性与构建参数透过实验发放了来得大的灵活性。训练程序可以在三种Mode下运行:-train(阳叫停(flat-start)训练),continue(从若有位置继续)和fork(例如转移研习)。并用作来得很低效的cuDNN演算法扩展了核心ArrayFire CUDA尾前端。

w2letter++是几乎用作C++编写的的系统,它事实上可以很比较简单的和存留的用任何自然语言编写的应用程序透过整合。由于它用作的C++自然语言有着静态变量且面向对象,所以它可以来得好地适应大规模开发需求。

本文仅割去了评注中会的一些关键论述,有助于使阅读者能对w2letter++有初步的认识,如想通过来得为详细的论点和论据认识到w2letter++为什么能发放很低效的话音标记能力?可在“劳格高科技部落格”来对这篇评注透过来得深入和详尽的认识到。

评注:劳格高科技 岳昕阳

评注绑定:

标题作者:Vineel Pratap, Awni Hannun等

标题绑定:

英太青和布洛芬哪个副作用小
新乐敦滴眼液和乐珠滴眼液区别是什么
秋季腹泻有哪些症状
拉肚子肠胃炎吃什么药
急性冠脉综合征吃脉血康有用吗
大便失禁
八子补肾胶囊多少钱
坦洛新治晚上尿频吗
女生护肤
高血压伴前列腺增生吃什么药好
友情链接: