Python自然语言处理实战:核心技术与算法

Python自然语言处理实战:核心技术与算法

作者:涂铭刘祥刘树春

出版社:机械工业

出版年:2018年5月

ISBN:9787111597674

所属分类:历史文化

书刊介绍

《Python自然语言处理实战:核心技术与算法》内容简介

自然语言处理是一门融语言学、计算机科学、数学于一体的学科,比较复杂,学习门槛高,但本书巧妙地避开了晦涩难懂的数学公式和证明,即便没有数学基础,也能零基础入门。本书专注于中文的自然语言处理,以Python及其相关框架为工具,以实战为导向,详细讲解了自然语言处理的各种核心技术、方法论和经典算法。三位作者在人工智能、大数据和算法领域有丰富的积累和经验,是阿里巴巴、前明略数据和七牛云的资深专家。同时,本书也得到了阿里巴巴达摩院高级算法专家、七牛云AI实验室Leader等专家的高度评价和鼎力推荐。全书一共11章,在逻辑上分为2个部分:第一部分(第1、2、11章)主要介绍了自然语言处理所需要了解的基础知识、前置技术、Python科学包、正则表达式以及Solr检索等。第二部分(第5-10章)第3-5章讲解了词法分析相关的技术,包括中文分词技术、词性标注与命名实体识别、关键词提取算法等。第6章讲解了句法分析技术,该部分目前理论研究较多,工程实践中使用门槛相对较高,且效果多是依赖结合业务知识进行规则扩展,因此本书未做深入探讨。第7章讲解了常用的向量化方法,这些方法常用于各种NLP任务的输入。第8章讲解了情感分析相关的概念、场景以及一般做情感分析的流程,情感分析在很多行业都有应用。第9章介绍了机器学习的重要概念,同时重点突出NLP常用的分类算法、聚类算法,还介绍了几个案例。第10章节介绍了NLP中常用的一些深度学习算法,这些方法比较复杂,但是非常实用,需要读者耐心学习。
涂铭:阿里巴巴数据架构师,对大数据、自然语言处理、Python、Java相关技术有深入的研究,积累了丰富的实践经验。曾就职于北京明略数据,是大数据方面的高级咨询顾问。在工业领域参与了设备故障诊断项目,在零售行业参与了精准营销项目。在自然语言处理方面,担任导购机器人项目的架构师,主导开发机器人的语义理解、短文本相似度匹配、上下文理解,以及通过自然语言检索产品库,在项目中构建了NoSQL+文本检索等大数据架构,也同时负责问答对的整理和商品属性的提取,带领NLP团队构建语义解析层。
刘祥:百炼智能自然语言处理专家,主要研究知识图谱、NLG等前沿技术,参与机器自动写作产品的研发与设计。曾在明略数据担当数据技术合伙人兼数据科学家,负责工业、金融等业务领域的数据挖掘工作,在这些领域构建了诸如故障诊断、关联账户分析、新闻推荐、商品推荐等模型。酷爱新技术,活跃于开源社区,是Spark MLlib和Zeppelin的Contributor。
刘树春:七牛云高级算法专家,七牛AI实验室NLP&OCR方向负责人,主要负责七牛NLP以及OCR相关项目的研究与落地。在七牛人工智能实验室期间,参与大量NLP相关项目,例如知识图谱、问答系统、文本摘要、语音相关系统等;同时重点关注NLP与CV的交叉研究领域,主要有视觉问答(VQA),图像标注(Image Caption)等前沿问题。曾在Intel DCSG数据与云计算部门从事机器学习与云平台的融合开发,项目获得IDF大奖。硕士就读于华东师范大学机器学习实验室,在校期间主攻机器学习,机器视觉,图像处理,并在相关国际会议发表多篇SCI/EI论文。

作品目录

序一
序二
前言
第1章:NLP基础
1.1、什么是NLP
1.2、NLP的发展历程
1.3、NLP相关知识的构成
1.4、语料库
1.5、探讨NLP的几个层面
1.6、NLP与人工智能
1.7、本章小结
第2章:NLP前置技术解析
2.1、搭建Python开发环境
2.2、正则表达式在NLP的基本应用
2.3、Numpy使用详解
2.4、本章小结
第3章:中文分词技术
3.1、中文分词简介
3.2、规则分词
3.3、统计分词
3.4、混合分词
3.5、中文分词工具——Jieba
3.6、本章小结
第4章:词性标注与命名实体识别
4.1、词性标注
4.2、命名实体识别
4.3、总结
第5章:关键词提取算法
5.1、关键词提取技术概述
5.2、关键词提取算法TF/IDF算法
5.3、TextRank算法
5.4、LSA/LSI/LDA算法
5.5、实战提取文本关键词
5.6、本章小结
第6章:句法分析
6.1、句法分析概述
6.2、句法分析的数据集与评测方法
6.3、句法分析的常用方法
6.4、使用Stanford
Parser的PCFG算法进行句法分析
6.5、本章小结
第7章:文本向量化
7.1、文本向量化概述
7.2、向量化算法word2vec
7.3、向量化算法doc2vec/str2vec
7.4、案例:将网页文本向量化
7.5、本章小结
第8章:情感分析技术
8.1、情感分析的应用
8.2、情感分析的基本方法
8.3、实战电影评论情感分析
8.4、本章小结
第9章:NLP中用到的机器学习算法
9.1、简介
9.2、几种常用的机器学习方法
9.3、分类器方法
9.4、无监督学习的文本聚类
9.5、文本分类实战:中文垃圾邮件分类
9.6、文本聚类实战:用K-means对豆瓣读书数据聚类
9.7、本章小结
第10章:基于深度学习的NLP算法
10.1、深度学习概述
10.2、神经网络模型
10.3、多输出层模型
10.4、反向传播算法
10.5、最优化算法
10.6、丢弃法
10.7、激活函数
10.8、实现BP算法
10.9、词嵌入算法
10.10、训练词向量实践
10.11、朴素Vanilla-RNN
10.12、LSTM网络
10.13、Attention机制
10.14、Seq2Seq模型
10.15、图说模型
10.16、深度学习平台
10.17、实战Seq2Seq问答机器人
10.18、本章小结
第11章:Solr搜索引擎
11.1、全文检索的原理
11.2、Solr简介与部署
11.3、Solr后台管理描述
11.4、配置schema
11.5、Solr管理索引库
11.6、本章小结

相关推荐

微信二维码