首页
发现
标签
搜索
APP下载
注册
登录
首页
发现
榜单
标签
收录
APP下载
注册
登录
Python 自然语言处理 第二版
文档评分:
65.6 (
0 个有效评分
)
文档语言:
中文
章节数量:
0
阅读人次:
96483
收藏数量:
0
整理分享:
管理员
阅读
收藏
下载
分享
阅读
收藏
下载
分享
文档标签
自然语言
葡萄牙语
例子
数词
语言
和数
英语
文档概述
这是一本关于自然语言处理的书。所谓“自然语言”,是指人们日常交流使用的语言,如英语,印地语,葡萄牙语等。相对于编程语言和数学符号这样的人工语言,自然语言随着一代人传给另一代人而不断演化,因而很难用明确的规则来刻画。从广义上讲,“自然语言处理”(Natural Language Processing 简称 NLP)包含所有用计算机对自然语言进行的操作。举个极端的例子,它可以是简单的通过计数词出现的频率来比较不同的写作风格。另外一个极端的例子,NLP 包括完全“理解”人所说的话,至少要能达到对人的话语作出有效反应的程度。
文档
目录
文档
评论 (
0
)
结语
initializers
destructors
Python 自然语言处理 第二版
说明(重要)
前言
1. 语言处理与 Python
1.1 Python 入门
1 语言计算:文本和单词
1.2 NLTK 入门
1.3 搜索文本
1.4 词汇计数
2.2 索引列表
2.3 变量
2.4 字符串
3.1 频率分布
3 计算语言:简单的统计
3.2 细粒度的选择词
3.3 词语搭配和双连词
3.4 计数其他东西
4.2 对每个元素进行操作
4.3 嵌套代码块
4.4 条件循环
5 自动理解自然语言
5.1 词意消歧
Docutils System Messages
2. 获得文本语料和词汇资源
1 获取文本语料库
1.1 古腾堡语料库
1.2 网络和聊天文本
1.3 布朗语料库
1.4 路透社语料库
1.5 就职演说语料库
1.6 标注文本语料库
1.8 文本语料库的结构
1.9 加载你自己的语料库
2 条件频率分布
2.1 条件和事件
2.2 按文体计数词汇
2.3 绘制分布图和分布表
2.4 使用双连词生成随机文本
3.3 模块
3.2 函数
4 词汇资源
4.1 词汇列表语料库
4.2 发音的词典
4.4 词汇工具:Shoebox 和 Toolbox
4.3 比较词表
5 WordNet
5.1 意义与同义词
5.2 WordNet 的层次结构
5.3 更多的词汇关系
6 小结
5.4 语义相似度
8 练习
7 深入阅读
3 处理原始文本
3.1 从网络和硬盘访问文本
3.2 字符串:最底层的文本处理
3.3 使用 Unicode 进行文字处理
3.4 使用正则表达式检测词组搭配
3.6 规范化文本
3.7 用正则表达式为文本分词
3.8 分割
3.9 格式化:从列表到字符串
3.10 小结
3.11 深入阅读
4 编写结构化程序
3.12 练习
4.1 回到基础
4.2 序列
4.3 风格的问题
4.4 函数:结构化编程的基础
4.5 更多关于函数
4.6 程序开发
4.7 算法设计
4.10 深入阅读
4.11 练习
1 使用词性标注器
5. 分类和标注词汇
2 已经标注的语料库
2.2 读取已标注的语料库
2.1 表示已经标注的词符
2.3 通用词性标记集
2.4 名词
2.5 动词
2.7 未简化的标记
2.6 形容词和副词
2.8 探索已标注的语料库
3.1 索引列表 VS 字典
3 使用 Python 字典映射单词到其属性
3.3 定义字典
3.4 默认字典
3.6 复杂的键和值
3.5 递增地更新字典
3.7 反转字典
4.1 默认标注器
4.2 正则表达式标注器
4.3 查询标注器
5 N-gram 标注
4.4 评估
5.2 分离训练和测试数据
5.1 一元标注
5.3 一般的 N-gram 标注
5.5 标注生词
5.4 组合标注器
5.7 准确性的极限
5.6 存储标注器
6 基于转换的标注
7.1 形态学线索
7 如何确定一个词的分类
7.2 句法线索
10 练习
6. 学习分类文本
1.1 性别鉴定
1 有监督分类
1.2 选择正确的特征
1.3 文档分类
1.4 词性标注
1.5 探索上下文语境
1.7 其他序列分类方法
1.6 序列分类
2 有监督分类的更多例子
2.1 句子分割
2.3 识别文字蕴含
2.2 识别对话行为类型
2.4 扩展到大型数据集
3.1 测试集
3 评估
3.3 精确度和召回率
3.2 准确度
3.4 混淆矩阵
4 决策树
3.5 交叉验证
4.1 熵和信息增益
5 朴素贝叶斯分类器
5.1 底层的概率模型
7. 从文本提取信息
1 信息提取
2.1 名词短语词块划分
2 词块划分
2.2 标记模式
2.3 用正则表达式进行词块划分
2.4 探索文本语料库
2.5 词缝加塞
3 开发和评估词块划分器
2.6 词块的表示:标记与树
3.1 读取 IOB 格式与 CoNLL2000 语料库
3.2 简单的评估和基准
3.3 训练基于分类器的词块划分器
4 语言结构中的递归
4.1 用级联词块划分器构建嵌套结构
4.2 Trees
5 命名实体识别
4.3 树遍历
6 关系抽取
8 深入阅读
7 小结
9 练习
8. 分析句子结构
1.1 语言数据和无限可能性
1 一些语法困境
3.3 句法结构中的递归
4.2 移进-归约分析
4.3 左角落分析器
5 依存关系和依存文法
5.2 扩大规模
6.1 树库和语法
6 语法开发
6.2 有害的歧义
9. 构建基于特征的语法
1.1 句法协议
1 语法特征
1.2 使用属性和约束
1.3 术语
2.1 包含和统一
2 处理特征结构
3 扩展基于特征的语法
3.1 子类别
3.2 核心词回顾
3.4 无限制依赖成分
3.3 助动词与倒装
4 小结
3.5 德语中的格和性别
6 练习
5 深入阅读
10. 分析句子的意思
1 自然语言理解
3 一阶逻辑
1.1 查询数据库
3.1 句法
3.3 一阶逻辑语言总结
3.2 一阶定理证明
3.5 独立变量和赋值
3.6 量化
3.8 模型的建立
3.7 量词范围歧义
4 英语句子的语义
4.1 基于特征的语法中的合成语义学
4.5 再述量词歧义
4.3 量化的 NP
4.2 λ演算
5 段落语义层
5.1 段落表示理论
5.2 段落处理
11. 语言学数据管理
1 语料库结构:一个案例研究
1.2 主要设计特点
1.1 TIMIT 的结构
1.3 基本数据类型
2 语料库生命周期
2.1 语料库创建的三种方案
2.3 维护与演变
2.2 质量控制
3 数据采集
3.1 从网上获取数据
3.2 从字处理器文件获取数据
3.3 从电子表格和数据库中获取数据
3.4 转换数据格式
3.5 决定要包含的标注层
3.6 标准和工具
4 使用 XML
3.7 处理濒危语言时特别注意事项
4.1 语言结构中使用 XML
4.3 ElementTree 接口
4.2 XML 的作用
4.4 使用 ElementTree 访问 Toolbox 数据
5 使用 Toolbox 数据
4.5 格式化条目
5.1 为每个条目添加一个字段
5.2 验证 Toolbox 词汇
6 使用 OLAC 元数据描述语言资源
6.1 什么是元数据?
6.2 OLAC:开放语言档案社区
6.3 传播语言资源
后记:语言的挑战
Index
相关书籍
Python 2 语言参考
Nodejs学习笔记
go 语言框架 gin中文文档
Go语言四十二章经
Hprose for Node.js 用户手册
Julia 1.0 中文文档
GO 命令教程
Phalcon7 内核开发手册
Python 资源大全中文版
Go语言(Golang)编码规范
通过例子学 Rust
PHP 最佳实践(译)
×
分享,让知识传承更久远
×
文档下载
请下载您需要的格式的文档,随时随地,享受汲取知识的乐趣!
PDF
文档
EPUB
文档
MOBI
文档