解析深度学习:语音识别实践

解析深度学习:语音识别实践

作者:[美] 俞栋[美] 邓力

出版社:电子工业

出版年:2016年7月

ISBN:9787121287961

所属分类:网络科技

书刊介绍

《解析深度学习:语音识别实践》内容简介

本书是首部介绍语音识别中深度学习技术细节的专著。全书首先概要介绍了传统语音识别理论和经典的深度神经网络核心算法。接着全面而深入地介绍了深度学习在语音识别中的应用,包括“深度神经网络-隐马尔可夫混合模型”的训练和优化,特征表示学习、模型融合、自适应,以及以循环神经网络为代表的若干先进深度学习技术。本书适合有一定机器学习或语音识别基础的学生、研究者或从业者阅读,所有的算法及技术细节都提供了详尽的参考文献,给出了深度学习在语音识别中应用的全景。
俞栋,1998年加入微软公司,现任微软研究院首席研究员、浙江大学兼职教授和中科大客座教授。他是语音识别和深度学习方向的资深专家,出版了两本专著,发表了150多篇论文,是近60项专利的发明人及有广泛影响力的深度学习开源软件CNTK的发起人和主要作者之一。他在基于深度学习的语音识别技术上的工作带来了语音识别研究方向的转变,极大地推动了语音识别领域的发展,并获得2013年IEEE信号处理协会最佳论文奖。俞栋博士现担任IEEE语音语言处理专业委员会委员,曾担任IEEE/ACM音频、语音及语言处理汇刊、IEEE信号处理杂志等期刊的编委。
邓力,世界著名人工智能、机器学习和语音语言信号处理专家,现任微软首席人工智能科学家和深度学习技术中心研究经理。他在美国威斯康星大学先后获硕士和博士学位,然后在加拿大滑铁卢大学任教获得终身正教授。其间,他还任麻省理工学院研究职位。1999年加入微软研究院历任数职,并在2014年初创办深度学习技术中心,主持微软公司和研究院的人工智能和深度学习领域的技术创新。邓立博士的研究方向包括自动语音与说话者识别、口语识别与理解、语音-语音翻译、机器翻译、语言模式、统计方法与机器学习、听觉和其他生物信息处理、深层结构学习、类脑机器智能、图像语言多模态深度学习,商业大数据深度分析等。他在上述领域做出了重大贡献,是ASA(美国声学学会)会士、IEEE(美国电气和电子工程师协会)会士和理事、ISCA(国际语音通信协会)会士,并凭借在深度学习与自动语音识别方向做出的杰出贡献荣获2015年度IEEE信号处理技术成就奖。同时,他也曾在顶级杂志和会议上发表过与上述领域相关的300余篇学术论文,出版过5部著作,发明及合作发明了超过70多项专利。邓立博士还担任过IEEE信号处理杂志和《音频、语音与语言处理学报》(IEEE/ACMTransactionsonAudio,Speech&anguageProcessing)的主编。
译者:俞凯,IEEE高级会员,上海交通大学计算机科学与工程系特别研究员。清华大学本科、硕士,英国剑桥大学工程系博士。长期从事智能语音及语言处理、人机交互、模式识别及机器学习的研究和产业化工作。他是中组部"千人计划"(青年项目)获得者,国家自然科学基金委优秀青年科学基金获得者,上海市"东方学者"特聘教授;作为共同创始人和首席科学家创立"苏州思必驰信息科技有限公司"。现任中国声学学会语音语言、听觉及音乐分会执委会委员,中国计算机学会人机交互专委会委员,中国语音产业联盟技术工作组副组长。他的研究兴趣涉及语音识别、语音合成、口语理解、对话系统、认知型人机交互等智能语音语言处理技术的多个核心技术领域,在本领域的一流国际期刊和会议上发表论文80余篇,申请专利10余项,取得了一系列研究、工程和产业化成果。在InterSpeech及IEEESpokenLanguageProcessing等国际会议上获得3篇国际会议优秀论文奖,获得国际语音通信联盟(ISCA)2013年颁发的2008-2012ComputerSpeechandLanguage最优论文奖。受邀担任InterSpeech2009语音识别领域主席、EUSIPCO2011/EUSIPCO2014语音处理领域主席、InterSpeech2014口语对话系统领域主席等。他负责搭建或参与搭建的大规模连续语音识别系统,曾获得美国国家标准局(NIST)和美国国防部内部评测冠军;作为核心技术人员,负责设计并实现的认知型统计对话系统原型,在CMU组织的2010年对话系统国际挑战赛上获得了可控测试的冠军。作为项目负责人或Co-PI,他主持了欧盟第7框架PARLANCE、国家自然科学基金委、上海市教委、经信委,以及美国通用公司、苏州思必驰信息科技有限公司的一系列科研及产业化项目。2014年,因在智能语音技术产业化方面的贡献,获得中国人工智能学会颁发的"吴文俊人工智能科学技术奖"。
钱彦旻,上海交通大学计算机科学与工程系助理研究员,博士。分别在2007年6月和2013年1月于华中科技大学和清华大学获得工学学士和工学博士学位。2013年4月起,任上海交通大学计算机科与工程系理研究员。同时从2015年1月至2015年12月,在英国剑桥大学工程系机器智能实验室语音组进行访问,作为项目研究员与语音识别领域的著名科学家PhilWoodland教授和MarkGales教授开展合作研究。现为IEEE、ISCA会员,同时也是国际开源项目Kaldi语音识别工具包开发的项目组创始成员之一。此外,担任IEEETransactionsonAudio,Speech,andLanguageProcessing、SpeechCommunication、ICASSP、Interspeech、ASRU等国际期刊和会议的审稿人。目前在国内外学术刊物和会议上发表学术论文50余篇,GoogleScholar总引用数近1000次。其中包括在语音识别领域权威国际会议ICASSP、InterSpeech和ASRU上发表论文30余篇,申请国家专利共3项,已授权1项。2008年获科技奥运先进集体奖,2014年获中国人工智能学会颁发的"吴文俊人工智能科学技术奖进步奖"。曾作为负责人和主要参与者参加了包括英国EPSRC、国家自然科学基金、国家863等多个项目。目前的研究领域包括:语音识别、说话人和语种识别、自然语言理解、深度学习建模、多媒体信号处理等。

作品目录

内容简介
作者及译者简介
译者序

前言
术语缩写
符号
1、简介
第一部分
传统声学模型
2、混合高斯模型
3、隐马尔可夫模型及其变体
第二部分
深度神经网络
4、深度神经网络
5、高级模型初始化技术
第三部分
语音识别中的深度神经网络–隐马尔可夫混合模型
6、深度神经网络–隐马尔可夫模型混合系统
7、训练和解码的加速
8、深度神经网络序列鉴别性训练
第四部分
深度神经网络中的特征表示学习
9、深度神经网络中的特征表示学习
10、深度神经网络和混合高斯模型的融合
11、深度神经网络的自适应技术
第五部分
先进的深度学习模型
12、深度神经网络中的表征共享和迁移
13、循环神经网络及相关模型
14、计算型网络
15、总结及未来研究方向
参考文献

相关推荐

微信二维码