学习吧(EduBoo.COM) 本次搜索耗时 8.874 秒,为您找到 16 个相关结果.
  • 6. 学习分类文本

    6. 学习分类文本1 有监督分类 1.1 性别鉴定 1.2 选择正确的特征 1.3 文档分类 1.4 词性标注 1.5 探索上下文语境 1.6 序列分类 1.7 其他序列分类方法 2 有监督分类的更多例子 2.1 句子分割 2.2 识别对话行为类型 2.3 识别文字蕴含 2.4 扩展到大型数据集 3 评估 3.1 测试集 3.2 准确度 3.3 精确度和召回...
  • 11. 语言学数据管理

    11. 语言学数据管理1 语料库结构:一个案例研究 1.1 TIMIT 的结构 1.2 主要设计特点 1.3 基本数据类型 2 语料库生命周期 2.1 语料库创建的三种方案 2.2 质量控制 2.3 维护与演变 3 数据采集 3.1 从网上获取数据 3.2 从字处理器文件获取数据 3.3 从电子表格和数据库中获取数据 3.4 转换数据格式 3.5 决定要包含...
  • 3.2 函数

    3.2 函数 3.2 函数 假设你正在分析一些文本,这些文本包含同一个词的不同形式,你的一部分程序需要将给定的单数名词变成复数形式。假设需要在两个地方做这样的事,一个是处理一些文本,另一个是处理用户的输入。 比起重复相同的代码好几次,把这些事情放在一个函数中会更有效和可靠。一个函数是命名的代码块,执行一些明确的任务,就像我们在1中所看到的那样。一个函数...
  • 前言

    前言读者 Python 3 和 NLTK 3 软件安装需求 自然语言工具包 (NLTK) 教师请看 本书使用的约定 使用例子代码 致谢 关于作者 版税 前言 这是一本关于自然语言处理的书。所谓“自然语言”,是指人们日常交流使用的语言,如英语,印地语,葡萄牙语等。相对于编程语言和数学符号这样的人工语言,自然语言随着一代人传给另一代人而不断演化,因而很难用...
  • 9 练习

    9 练习 9 练习 ☼ IOB 格式分类标注标识符为I 、O 和B 。三个标签为什么是必要的?如果我们只使用I 和O 标记会造成什么问题? ☼ 写一个标记模式匹配包含复数中心名词在内的名词短语,如”many/JJ researchers/NNS”, “two/CD weeks/NNS”, “both/DT new/JJ positions/NNS”。通...
  • 2.2 按文体计数词汇

    2.2 按文体计数词汇 2.2 按文体计数词汇 在1中,我们看到一个条件频率分布,其中条件为布朗语料库的每一节,并对每节计数词汇。FreqDist() 以一个简单的列表作为输入,ConditionalFreqDist() 以一个配对列表作为输入。 >>> from nltk . corpus import brown >>> cfd ...
  • 10 练习

    10 练习 10 练习 ☼ 网上搜索“spoof newspaper headlines”,找到这种宝贝:British Left Waffles on Falkland Islands 和 Juvenile Court to Try Shooting Defendant。手工标注这些头条,看看词性标记的知识是否可以消除歧义。 ☼ 和别人一起,轮流挑选...
  • 2.3 识别文字蕴含

    2.3 识别文字蕴含 2.3 识别文字蕴含 识别文字蕴含(RTE)是判断文本 T 的一个给定片段是否蕴含着另一个叫做“假设”的文本(已经在5讨论过)。迄今为止,已经有 4 个 RTE 挑战赛,在那里共享的开发和测试数据会提供给参赛队伍。这里是挑战赛 3 开发数据集中的文本/假设对的两个例子。标签 True 表示蕴含成立,False 表示蕴含不成立。 ...
  • 3.4 计数其他东西

    3.4 计数其他东西 3.4 计数其他东西 计数词汇是有用的,我们也可以计数其他东西。例如,我们可以查看文本中词长的分布,通过创造一长串数字的列表的FreqDist ,其中每个数字是文本中对应词的长度: >>> [ len ( w ) for w in text1 ] ![[ 1 ]](/ projects / nlp - py - ...
  • 1.3 基本数据类型

    1.3 基本数据类型 1.3 基本数据类型 图 1.3:基本语言数据类型——词汇和文本:它们的多样性中,词汇具有记录结构,而已标注文本具有时间组织。 不考虑它的复杂性,TIMIT 语料库只包含两种基本数据类型,词典和文本。正如我们在2.中所看到的,大多数词典资源都可以使用记录结构表示,即一个关键字加一个或多个字段,如1.3所示。词典资源可能是一个传...