• 1.2 NLTK 入门

    1.2 NLTK 入门

    在进一步深入之前,应先安装 NLTK 3.0,可以从http://nltk.org/ 免费下载。按照说明下载适合你的操作系统的版本。

    安装完 NLTK 之后,像前面那样启动 Python 解释器,在 Python 提示符后面输入下面两个命令来安装本书所需的数据,然后选择book集合,如1.1所示。

    1. >>> import nltk
    2. >>> nltk.download()

    Images/nltk-downloader.png

    图 1.1:下载 NLTK Book 集:使用nltk.download() 浏览可用的软件包.下载器上Collections 选项卡显示软件包如何被打包分组,选择book 标记所在行,可以获取本书的例子和练习所需的全部数据。这些数据包括约 30 个压缩文件,需要 100MB 硬盘空间。完整的数据集(即下载器中的all)在本书写作期间大约是这个大小的 10 倍,还在不断扩充。

    一旦数据被下载到你的机器,你就可以使用 Python 解释器加载其中一些。第一步是在 Python 提示符后输入一个特殊的命令,告诉解释器去加载一些我们要用的文本:from nltk.book import * 。这条语句是说“从 NLTK 的book 模块加载所有的东西”。这个book 模块包含你阅读本章所需的所有数据。。在输出欢迎信息之后,将会加载几本书的文本(这将需要几秒钟)。下面连同你将看到的输出一起再次列出这条命令。注意拼写和标点符号的正确性,记住不要输入>>>

    1. >>> from nltk.book import *
    2. *** Introductory Examples for the NLTK Book ***
    3. Loading text1, ..., text9 and sent1, ..., sent9
    4. Type the name of the text or sentence to view it.
    5. Type: 'texts()' or 'sents()' to list the materials.
    6. text1: Moby Dick by Herman Melville 1851
    7. text2: Sense and Sensibility by Jane Austen 1811
    8. text3: The Book of Genesis
    9. text4: Inaugural Address Corpus
    10. text5: Chat Corpus
    11. text6: Monty Python and the Holy Grail
    12. text7: Wall Street Journal
    13. text8: Personals Corpus
    14. text9: The Man Who Was Thursday by G . K . Chesterton 1908
    15. >>>

    任何时候我们想要找到这些文本,只需要在 Python 提示符后输入它们的名字:

    1. >>> text1
    2. <Text: Moby Dick by Herman Melville 1851>
    3. >>> text2
    4. <Text: Sense and Sensibility by Jane Austen 1811>
    5. >>>

    现在我们可以和这些数据一起来使用 Python 解释器,我们已经准备好上手了。