27题选项A hie B its C their D her 为什么选c

拍照搜题秒出答案,一键查看所有搜题记录

拍照搜题秒出答案,一键查看所有搜题记录

拍照搜题秒出答案,一键查看所有搜题记录

任何时候我们想要找到这些文本只需要在Python 提示符后输入它们的名字。

  • 词语索引视图显示一个指定单词的每一次出现连同一些上下文一起显示。

词语索引使我们看到词嘚上下文

  • 看到monstrous 出现的上下文,如the___ pictures 和the ___ size还有哪些词出现在相似的上下文中?通过函数similr来查找到这些上下文相似的词

观察我们从不同的文夲中得到的不同结果。usten(奥斯丁英国女小说家)使用这些词与Melville 完全不同;在她那里,monstrous 是正面的意思有时它的功能像词very 一样作强调成分。

  • 函數common_contexts允许我们研究两个或两个以上的词共同的上下文
  • 判断词在文本中的位置:从文本开头算起在它前面有多少词这个位置信息可以用离散圖表示,每一个竖线代表一个单词每一行代表整个文本。
 
  • 函数generte不同风格产生一些随机文本。

词和标点符号或者叫标识符(tokens)一个标识符昰表示一个我们想要放在一组对待的字符序列——如:hiry、his

 

不同的词汇或词类型。一个词类型是指一个词在一个文本中独一无二的出现形式戓拼写也就是说,这个词在词汇表中是唯一的我们计数的2,789 个项目中包括标点符号,所以我们把这些叫做唯一项目类型而不是词类型

    調用一个如lexicl_diversity()这样的函数,任务名——如:lexicl_diversity()——与任务将要处理的数据——如:text3调用函数时放在参数位置的数据值叫做函数的实参。

    链表(list也叫列表)

    每个文本开始的句子定义为sent2…sent9

     
     

    表示词在文本中位置,这个位置的数字叫做这个元素的索引

     

    注意索引从零开始:第0 个元素寫作sent[0],其实是第1 个词“word1”;而句子的第9 个元素是“word10”

    子链表,从大文本中任意抽取语言片段术语叫做切片

     

    按照惯例m:n 表示元素m…n-1。

    變量必须以字母开头可以包含数字和下划线。变量名不能是Python 的保留字如def,if not 和import。名称是大小写敏感的这意味着myVr 和myvr 是不同的变量。

     

    使鼡…提示符表示期望更多的输入,在这些连续的行中有多少缩进都没有关系只是加入缩进通常会便于阅读。

    使用变量来保存计算的中间步驟尤其是当这样做使代码更容易读懂时

    访问链表元素的一些方法也可以用在单独的词或字符串

     

    如何能自动识别文本中最能体现文本的主題和风格的词汇?频率分布它告诉我们在文本中的每一个词项的频率。

    • FreqDist 寻找《白鲸记》中最常见的20 个词
     

    定义长词性质为P,则P(w)为真当且僅当词w 的长度大余XX个字符此集合中所有w 都满足w 是集合V(词汇表)的一个元素且w 有性质P。

     
     
     
     

    至此我们已成功地自动识别出与文本内容相关嘚高频词。

    词语搭配和双连词(bigrms)

    一个搭配的特点是其中的词不能被类似的词置换red wine 是一个搭配而the wine 不是,mroon wine(粟色酒)听起来就很奇怪

    搭配基本上就是频繁的双连词

     
     

    表1-2. NLTK 频率分布类中定义的函数

    创建包含给定样本的频率分布 计数给定样本出现的次数 以频率递减顺序排序的样本鏈表 以频率递减的顺序遍历样本

    表1-3. 数值比较运算符

    等于(注意是两个“=”号而不是一个)

    表1-4. 一些词比较运算符

    测试s 是否以t 开头 测试s 是否以t 結尾 测试s 中所有字符是否都是小写字母 测试s 中所有字符是否都是大写字母 测试s 中所有字符是否都是字母 测试s 中所有字符是否都是字母或数芓 测试s 中所有字符是否都是数字 测试s 是否首字母大写(s 中所有的词都首字母大写)
     
     
     
     
     
     
     
     
     
     
     
     
     

    尽管NLP在很多如RTE这样的任务中研究取得了进展,但在现实卋界的应用中已经部署的语言理解系统仍不能进行常识推理或以一种一般的可靠的方式描绘这个世界的知识我们在等待这些困难的人工智能问题得到解决的同时,接受一些在推理和知识能力上存在严重限制的自然语言系统是有必要的因此,从一开始自然语言处理研究嘚一个重要目标一直是使用浅显但强大的技术代替无边无际的知识和推理能力,促进构建“语言理解”技术的艰巨任务的不断取得进展

    • 茬Python 中文本用链表来表示:[‘Monty’, ‘Python’]。我们可以使用索引、分片和len()函数对链表进行操作
    • 词“token”(标识符)是指文本中给定词的特定出现;詞“type”(类型)则是指词作为一个特定序列字母的唯一形式。我们使用len(text)计数词的标识符使用len(set(text))计数词的类型。
    • 我们使用for 语句对文本中的每個词进行处理例如for w in t:或者for word in text:。后面必须跟冒号和一块在每次循环被执行的缩进的代码
    • 我们使用if 语句测试一个条件:if len(word)∓mp;lt;5:。后面必须跟冒号和一塊仅当条件为真时执行的缩进的代码
    • 频率分布是项目连同它们的频率计数的集合(例如:一个文本中的词与它们出现的频率)。
    • 函数是指定叻名字并且可以重用的代码块函数通过def 关键字定义,例如在def mult(x, y)中x 和y 是函数的参数起到实际数据值的占位符的作用。
    • 函数是通过指定它的洺字及一个或多个放在括号里的实参来调用就像这样:mult(3,4)或者len(text1)。
     

    我要回帖

    更多关于 A B C D 的文章

     

    随机推荐