|
百度人工智能深度学习研发又有新进展。
据科技媒体《麻省理工科技评论》近日报道,百度研发的深度语音文本阅读系统,可极大程度上减少幕后精调的工作量,让机器只需几小时就能学会“说话”,完全无需人类干预。
百度方面向澎湃新闻确认了其在深度学习领域的这一最新研究成果。
此前,导航、语音闹钟、手机接听系统等语音合成应用,都需要用到文本转语音系统,而这一功能的实现都需要记录某个人的大量语音数据才能生成新句子。一旦说话人有所改变,或者单词重音发生变化,就需要重新录音,生成新数据库,直接增加了幕后精调的工作量,提高人工干预成本。
百度运用深度学习技术将文本分割为最小单位,生成被称之为“现象(phenomes)”的声音片段,随后,再运用语音合成网络重新生成这些声音。这种方法的不同之处在于,深度学习可以自己完成训练过程,基本不需要人工进行微调。而百度这一技术已经领先与谷歌DeepMind去年推出的WaveNet(编注:WaveNets是2016年9月谷歌推出的一种卷积神经网络,能够模拟任意一种人类声音。当时,这一计划能将模拟生成的语音与人类声音之间的差异降低了50%以上)——在培训阶段仍然需要微调,而且需要大量的计算资源。
《麻省理工科技评论》的文章以单词“Hello”来介绍百度深度语音合成技术是如何实现的。百度系统会将“Hello”分割为以下“现象”:(无声, HH)、 (HH, EH)、 (EH, L)、 (L, OW)、 (OW, 无声)。然后再将这些输入到语音合成系统来“说”出单词。
不过,百度研发的深度语音文本阅读系统的实现需要大量的计算资源。真实语音的采码率为48赫兹,因此电脑生成样本的时间只有20微秒。但是语音合成过程涉及多个层面,每个层面都要保证在1.5微秒中完成工作,才能跟上生成速度。对此,百度研究员对MIT表示:“要执行实时对接,我们必须保证不能重复计算任何结果,将整个处理模型存储在缓存之中(不是主内存),然后优化利用可用的计算单元。”
据悉,百度深度语言合成系统在亚马逊的Mechanical Turk上进行了众包理解测试。测试内容包括让多个试用人员将生成音频与真人原声录音做对比,然后对音频质量进行打分。结果显示,通过百度深度学习技术生成的音频质量很高。百度表示,百度深度语音合成达到了比实时还快的速度,不仅能够实时生成音频,从而可以广泛应用于直播中。 |
免责声明:
1、本内容转载于网络,版权归原作者所有!
2、本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
3、本内容若侵犯到你的版权利益,请联系我们,会尽快给予删除处理!
|