《Python自然语言处理(影印版)》提供了非常易学的自然语言处理入门介绍,该领域涵盖从文本和电子邮件预测过滤,到自动总结和翻译等多种语言处理技术。在《Python自然语言处理(影印版)》中,你将学会编写Python程序处理大量非结构化文本。你还将通过使用综合语言数据结构访问含有丰富注释的数据集,理解用于分析书面通信内容和结构的主要算法。
《Python自然语言处理》准备了充足的示例和练习,可以帮助你:
从非结构化文本中抽取信息,甚至猜测主题或识别“命名实体”;
分析文本语言结构,包括解析和语义分析;
访问流行的语言学数据库,包括WordNet和树库(treebank);
从多种语言学和人工智能领域中提取的整合技巧。
《Python自然语言处理(影印版)》将帮助你学习运用Python编程语言和自然语言工具包(NLTK)获得实用的自然语言处理技能。如果对于开发Web应用、分析多语言新闻源或记录濒危语言感兴趣——即便只是想从程序员视角观察人类语言如何运作,你将发现《Python自然语言处理》是一本令人着迷且极为有用的好书。
Preface
1.Language Processing and Python
1.1 Computing with Language: Texts and Words
1.2 A Closer Look at Python: Texts as Lists of Words
1.3 Computing with Language: Simple Statistics
1.4 Back to Python: Making Decisions and Taking Control
1.5 Automatic Natural Language Understanding
1.6 Summary
1.7 Further Reading
1.8 Exercises
2.Accessing Text Corpora and Lexical Resources
2.1 Accessing Text Corpora
2.2 Conditional Frequency Distributions
2.3 More Python: Reusing Code
2.4 Lexical Resources
2.5 WordNet
2.6 Summary
2.7 Further Reading
2.8 Exercises
3.Processing Raw Text
3.1 Accessing Text from the Web and from Disk
3.2 Strings: Text Processing at the Lowest Level
3.3 Text Processing with Unicode
3.4 Regular Expressions for Detecting Word Patterns
3.5 Useful Applications of Regular Expressions
3.6 Normalizing Text
3.7 Regular Expressions for Tokenizing Text
3.8 Segmentation
3.9 Formatting: From Lists to Strings
3.10 Summary
3.11 Further Reading
3.12 Exercises
4.Writing Structured Programs
4.1 Back to the Basics
4.2 Sequences
4.3 Questions of Style
4.4 Functions: The Foundation of Structured Programming
4.5 Doing More with Functions
4.6 Program Development
4.7 Algorithm Design
4.8 A Sample of Python Libraries
4.9 Summary
4.10 Further Reading
4.11 Exercises
5.Categorizing andTagging Words
5.1 Using a Tagger
5.2 Tagged Corpora
5.3 Mapping Words to Properties Using Python Dictionaries
5.4 Automatic Tagging
5.5 N-Gram Tagging
5.6 Transformation-Based Tagging
5.7 How to Determine the Category of a Word
5.8 Summary
5.9 Further Reading
5.10 Exercises
6.Learning to Classify Text
6.1 Supervised Classification
6.2 Further Examples of Supervised Classification
6.3 Evaluation
6.4 Decision Trees
6.5 Naive Bayes Classifiers
6.6 Maximum Entropy Classifiers
6.7 Modeling Linguistic Patterns
6.8 Summary
6.9 Further Reading
6.10 Exercises
7.Extracting Information from Text
7.1 Information Extraction
7.2 Chunking
7.3 Developing and Evaluating Chunkers
7.4 Recursion in Linguistic Structure
7.5 Named Entity Recognition
7.6 Relation Extraction
7.7 Summary
7.8 Further Reading
7.9 Exercises
8.Analyzing Sentence Structure
8.1 Some Grammatical Dilemmas
8.2 Whats the Use of Syntax?
8.3 Context-Free Grammar
8.4 Parsing with Context-Free Grammar
8.5 Dependencies and Dependency Grammar
8.6 Grammar Development
8.7 Summary
8.8 Further Reading
8.9 Exercises
9.Building Feature-Based Grammars
9.1 Grammatical Features
9.2 Processing Feature Structures
9.3 Extending a Feature-Based Grammar
9.4 Summary
9.5 Further Reading
9.6 Exercises
10.Analyzing the Meaning of Sentences
10.1 Natural Language Understanding
10.2 Propositional Logic
10.3 First-Order Logic
10.4 The Semantics of English Sentences
10.5 Discourse Semantics
10.6 Summary
10.7 Further Reading
10.8 Exercises
11.Managing Linguistic Data
11.1 Corpus Structure: A Case Study
11.2 The Life Cycle of a Corpus
11.3 Acquiring Data
11.4 Working with XML
11.5 Working with Toolbox Data
11.6 Describing Language Resources Using OLAC Metadata
11.7 Summary
11.8 Further Reading
11.9 Exercises
Afterword: The Language Challenge
Bibliography
NLTK Index
General Index
《解放企业》内容简介:环境无时不变,现代企业无时不受到调整自身旧惯例、适应新挑战的压力。是否在严峻的现实考验面前保持清醒的
Bitcoinisstartingtocomeintoitsownasadigitalcurrency,buttheblockchaintechnologybe...
《傅雷谈达·芬奇》内容简介:本书选取傅雷讨论达·芬奇艺术的文章,并选择达·芬奇最有代表性的绘画、素描作品,加上内容详实的作
色彩是需要设计的,色彩是设计的一部分。色彩怎么设计才算好?特定项目的色彩设计思考脉络是什么样的?对待他人作品,有没有可以
這是一趟有錢也買不到的日本設計之旅!本書直擊博報堂、SAMURAI等目前日本超夯的廣告設計公司,深入設計師們的工作現場,訪問當今
网络操作系统Linux管理与配置 本书特色 陈志涛主编的《网络操作系统Linux管理与配置》是21世纪高职高专IT类专业系列教材之一。教材内容贯彻“工学结合”指...
HeadFirst设计模式(中文版) 内容简介 强大的写作阵容。本书作者Eric Freeman;ElElisabeth Freeman是作家、讲师和技术顾问。...
尽管CD、DVD和因特网等电子介质发展迅猛,但印刷品设计依然比以往更为丰富、更具挑战性。可以将数字化设计与印刷品区分的惟一设计
《寻找语文王国(基础知识篇)》内容简介:爱听故事是孩子的天性。《寻找语文王国》以“万里路”和“万卷书”兄妹俩寻找“语文王国
你早该掌握的办公技能-Word/Excel/PowerPoint案例与技巧一本通-含DVD光盘1张 本书特色 《你早该掌握的办公技能--Word\\Excel\...
《城乡一体化发展》内容简介:这是一本全方位展现苏南地区在现代化建设中城乡一体化发展成就的重要著作。在本书作者秉持客观公正的
《当戈壁遇见长江》内容简介:戈壁挑战赛是中国企业家的练兵场,是对个人意志、体能素质、战略战术和团队协作等方面的综合考验。在
《大学生心理健康》内容简介:近年来,大学生中存在的心理障碍问题日益受到社会的关注,为了帮助大学生尽快适应大学的学习和生活,
《数字娱乐设计史》以电子游戏发展史为主线,结合电影、音乐与流行文化的发展趋势,对电影、音乐及大众流行文化的演进作了详尽的
本书从软件开发者角度出发,详细介绍了现代计算机体系结构,重点讲解如何处理存储器问题以及如何写出能直接与底层硬件交互并充分
软件测试方法与技术实践指南ASP.NET版 内容简介 本书以实际项目为原型、关键的理论与丰富的实践为指导,贯彻了先进的项目管理理念与全程质量管理思想。通过asp...
《人间一格》内容简介:本书是青年作家、知名媒体人格子首部随笔集。这是一部极具个人风格的作品,是中文随笔的一次全新尝试。从童
《NO.1法则》由坂上仁志著。大约10年前,作者白手起家创办了日本一流的公司,那之后,有许多人问他:“为什么您可以创办日本最一
信息可视化致力于创建那些以直观方式传达抽抽象信息的手段和方法。可视化的表达形式与交互技术则是利用人类眼睛通往心灵深处的广
Simulink是MathWorks公司推出的基于Matlab平台的著名的仿真环境。Simulink作为一种专业和功能强大且操作简单的仿真工具,目前已被