深度学习:语音识别技术实践

深度学习:语音识别技术实践

作者:柳若边 编著

出版社:清华大学

出版年:2019年4月

ISBN:9787302516927

所属分类:诗歌文集

书刊介绍

《深度学习:语音识别技术实践》内容简介

语音识别已经逐渐进入人们的日常生活。语音识别技术是涉及语言、计算机、数学等领域的交叉学科。本书介绍了包括C#、Perl、Python、Java在内的多种编程语言实践,开源语音识别工具包Kaldi的使用与代码分析,深度学习的开发环境搭建,卷积神经网络,以及语音识别中常见的语言模型——N元模型和依存模型等,让读者快速了解语音识别基础,掌握开发语音识别程序的算法。
本书从语音识别的基础开始讲起,并辅以翔实的案例,既适合需要具体实现语音识别的程序员使用,也适合有一定机器学习或语音识别基础的学生、研究者或从业者阅读。
柳若边,猎兔搜索团队核心成员,曾供职于中国万网、三星等多家业内知名公司,现任某教育培训机构专业讲师。猎兔搜索创立于2004年,专注于自然语言处理等人工智能领域的技术开发与实现。在北京和上海等地均有猎兔培训的学员,猎兔搜索出版的相关技术图书读者遍及全国各省(市、区)及海外华人圈。

作品目录

作者简介
内容简介
前言
第1章:语音识别技术
1.1、总体结构
1.2、Linux基础
1.3、安装Micro编辑器
1.4、安装Kaldi
1.5、yesno例子
1.6、构建一个简单的ASR
1.7、Voxforge例子
1.8、数据准备
1.9、加权有限状态转换
1.10、语音识别语料库
1.11、Linux
shell脚本基础
第2章:C#开发语音识别
2.1、准备开发环境
2.2、计算卷积
2.3、记录语音
2.4、读入语音信号
2.5、离散傅里叶变换
2.6、移除静音
第3章:Perl开发语音识别
3.1、变量
3.2、多维数组
3.3、常量
3.4、操作符
3.5、控制流
3.6、文件与目录
3.7、例程
3.8、执行命令
3.9、正则表达式
3.10、命令行参数
第4章:Python开发语音识别
4.1、Windows操作系统下安装Python
4.2、Linux操作系统下安装Python
4.3、选择版本
4.4、开发环境
4.5、注释
4.6、变量
4.7、数组
4.8、列表
4.9、元组
4.10、字典
4.11、控制流
4.12、模块
4.13、函数
4.14、读写文件
4.15、面向对象编程
4.16、命令行参数
4.17、数据库
4.18、日志记录
4.19、异常处理
4.20、测试
4.21、语音活动检测
4.22、使用numpy
第5章:Java开发语音识别
5.1、实现卷积
5.2、KaldiJava
5.3、TensorFlow的Java接口
第6章:语音信号处理
6.1、使用FFmpeg
6.2、标注语音
6.3、时间序列
6.4、端点检测
6.5、动态时间规整
6.6、傅里叶变换
6.7、MFCC特征
6.8、说话者识别
6.9、解码
第7章:深度学习
7.1、神经网络基础
7.2、卷积神经网络
7.3、搭建深度学习开发环境
7.4、nnet3实现代码
7.5、编译Kaldi
7.6、端到端深度学习
7.7、Dropout解决过度拟合问题
7.8、矩阵运算
第8章:语言模型
8.1、概率语言模型
8.2、KenLM语言模型工具包
8.3、ARPA文件格式
8.4、依存语言模型
附录

相关推荐

微信二维码