kb体育(中国)官方网站-登录入口






咨(zī)询热线:021-80392549

kb体育(中国)官方网站-登录入口 QQ在线 kb体育(中国)官方网站-登录入口 企(qǐ)业微信
kb体育(中国)官方网站-登录入口
kb体育(中国)官方网站-登录入口 资讯(xùn) > AI挖掘技(jì)术 > 正文

自然语言处(chù)理入门教程

2020/05/253514

自然语言处理入门教程

自然语言处(chù)理(NLP)是计算机科学领域和人工智能(néng)领域(yù)中的一个分支,它与计算机和人(rén)类之间使用自然语言进行互动(dòng)密切(qiē)相关。NLP的最终目标是使(shǐ)计算(suàn)机能够像人类(lèi)一样理解语言。它是虚拟(nǐ)助手、语音识(shí)别(bié)、情感分析、自动文本摘要(yào)、机器翻译(yì)等的驱动力。在这篇文章中,你将学(xué)习到自然语言处理的基础知识(shí),深入了(le)解到它的一些技术(shù),了解到NLP如何从深度学(xué)习的最新进展。

1.简介

自然语言(yán)处(chù)理(NLP)是计算机(jī)科学、语言学和机器学(xué)习的交叉点,它关注(zhù)计算机与人类之间使用自然语言中的沟通交流。总之,NLP致力(lì)于让计算机(jī)能(néng)够理(lǐ)解和生成人(rén)类语言。NLP技术(shù)应用于(yú)多个领域,比如(rú)天猫精灵和Siri这样的语(yǔ)音助手(shǒu),还(hái)有机(jī)器翻译和文(wén)本过滤等。机器学习是受NLP影响最深远的领域之一,尤为突出的是深度(dù)学习技术。该(gāi)领域分(fèn)为以下三个(gè)部分:

1.语音识别:将口语翻译成文本。

2.自然语言理解:计算(suàn)机理解人类的能力(lì)。

3.自(zì)然语言生成:计算机生成(chéng)自然语言。

2.为什么(me)NLP很(hěn)难

人(rén)类语言有(yǒu)其特殊性。人(rén)类语言(yán)专门用于传达讲话(huà)者和写作(zuò)者(zhě)的意思,即(jí)使小孩子能(néng)够很快学会,它依然是一(yī)个复杂的系统。它的另一个显著之处在于它完全(quán)与符号有关。Chris Manning(斯坦福教(jiāo)授)表示,它是(shì)一个(gè)离散的、象征(zhēng)性的、绝对的信号系统(tǒng),这意(yì)味着(zhe)人们可以(yǐ)通过使用(yòng)不同的方(fāng)式传达相同的含义,比(bǐ)如演说,手势(shì),信号等。人类大脑对这些符号的编码是持续的激活模式,在这个模式(shì)中(zhōng),符号通过声音和视觉的连(lián)续信号实现(xiàn)传输。

由于其复杂(zá)性(xìng),理解人类语言被认为是一项艰巨的任务(wù)。例如,在句(jù)子中排列单(dān)词有无数种不同的(de)方法。此(cǐ)外(wài),一个单词可以有多种含义,并且正确解释句子(zǐ)需要恰(qià)当的语境信(xìn)息。每种语言(yán)或多或少都是独特且含(hán)糊的。比(bǐ)如:“The Pope’s baby steps on gays”,这句(jù)话(huà)显然有两种(zhǒng)截(jié)然不同的解释,这是反映(yìng)NLP中的困难之(zhī)处的一个很好的例子(zǐ)。

随着计算(suàn)机对语言(yán)的理解愈渐完美,将会产生可以处理互联网上全(quán)部信息的人工智能(AI),继而产(chǎn)生(shēng)强人工智能(AGI)。

3.句法(fǎ)和语义分(fèn)析

句法分析和语义分析是理(lǐ)解自然语言的两种主要(yào)方(fāng)法(fǎ)。语(yǔ)言是一组意义的语句,但是什么使语句有意义呢?实际(jì)上,你可以(yǐ)将有(yǒu)效性分(fèn)为(wéi)两类:句法(fǎ)和语义。术(shù)语“句法”是指文本的语法结构,而术语“语义”是指由(yóu)它表达的含义。但是,句法上正确的语(yǔ)句不必在语义(yì)上(shàng)正确(què)。只需看看(kàn)下面的例子。语句“cow kow supremely”在(zài)语法上是有效的(主语-动(dòng)词-副词),但没(méi)有任何意义(yì)。

句法分析:

自然语言处理入门教(jiāo)程

句(jù)法分析,也称为语法分析或解析,是通过遵循正式(shì)语法规则来分析自然语言的过程(chéng)。语法规则适用于单词和词组,而不是(shì)单个单(dān)词。语法分(fèn)析主要为(wéi)文本分(fèn)配语义(yì)结构(gòu)。

语义分(fèn)析:

我们理解他人的语言(yán)是一(yī)种无意识的(de)过程(chéng),依赖于(yú)直觉和对语言本身的认识。因(yīn)此,我们理(lǐ)解语言的方式很大程度上取决于意义和语境(jìng)。计算机(jī)却不能依赖(lài)上述方法(fǎ),需要采用不(bú)同的途径。 “语义”这个词是一个语言术语(yǔ),意(yì)思(sī)与意义或逻(luó)辑相近。

因此(cǐ),语(yǔ)义分析(xī)是理解单词、符号和(hé)语句(jù)结(jié)构的(de)含义和(hé)解释的过程,这使计算机能(néng)够以(yǐ)人类的方式理(lǐ)解部分涉及(jí)意义(yì)和语境的(de)自然语言(yán)。为什(shí)么说(shuō)只能部分理解呢(ne)?是因为语义分析是NLP中最棘(jí)手的部分之一,仍未完全解决(jué)。例如,语音识别技术已非常(cháng)成熟,并且工作近乎(hū)完美,但仍然(rán)缺乏在自然语言理(lǐ)解(jiě)(例如(rú)语义)中的熟练(liàn)程度。手机基本上可以理解我(wǒ)们所说的内容,但通(tōng)常(cháng)无法用它做任何(hé)事情(qíng),因为它不了解(jiě)其背后意义(yì)。

4.理解(jiě)文本的技巧

下面我们将(jiāng)讨论多种用(yòng)于自然语言处理的(de)现行技术。

什么是解析?首先(xiān),让(ràng)我们看一下词典释义:

解析—“将句子(zǐ)分解为其组(zǔ)成部分,并阐述各部(bù)分的(de)句(jù)法角色。”

实际上解释(shì)的已经非(fēi)常到位,但它(tā)可以更全面一(yī)些。解析是(shì)指计算机对句子的形式分析(xī),其结果是一个(gè)解析(xī)树,这个解(jiě)析树可以可视化(huà)地显示句子(zǐ)成分之间的(de)句法关系(xì),用(yòng)于进一步处(chù)理和(hé)理解(jiě)。

在下(xià)面你可以看到句子“The thief robbed the apartment”的解析树(shù),以及由它传达(dá)的三种(zhǒng)不同信息类型的描(miáo)述。

自然(rán)语(yǔ)言(yán)处理入门教(jiāo)程

我(wǒ)先看(kàn)单(dān)个单词(cí)正上方的(de)字(zì)母(mǔ),它们用于显示每个单词的词性(名(míng)词-N,动词(cí)-V和限定词-DT)。我们再看解析树中更高(gāo)的层级,一些(xiē)单词进行层次分组(zǔ)组成(chéng)短语。例如,“the thief”是一个名词(cí)短(duǎn)语(NP),“robbed the apartment”是一(yī)个(gè)动词短语(VP),这些短语(yǔ)一起形成一个句子(S),在(zài)树中(zhōng)标记在更高的层(céng)级(jí)。

这些(xiē)短语以(yǐ)名词为主体(tǐ),包(bāo)含一个或多个单词(cí),可(kě)能还包含描(miáo)述(shù)性词语(yǔ)、动词或副词,简言之,就是把(bǎ)把名词和与(yǔ)其(qí)相关的单词组合在一起。

从解析树中还能看出(chū),单词的表述结构影响其在句中的语法关系(xì)。例(lì)如,在此结构中,“thief”是“robbed”的主语。

结合结构来看,动(dòng)词“robbed”,上(shàng)方标有“V”,更(gèng)上(shàng)一(yī)级(jí)标有(yǒu)“VP”;主语“thief”,上方标(biāo)有N和“NP”,通过“S”联系在一(yī)起。这就(jiù)像主语(yǔ)—动词关系(xì)的模板,同样还有许多其他类型的关系(xì)。

词干提取:

词干提取是一种来(lái)自形态学和信息检索的技术,在NLP中用于预(yù)处理和效率提升。但是,我们首先看(kàn)一下词典(diǎn)中的释义:词干(gàn) — “起(qǐ)源(yuán)于或由其引(yǐn)起。”

基本上,“词干(gàn)提取(qǔ)”是将单词进行缩减(jiǎn)得到词干的过程,而“词干(gàn)”的实际意义是是在删(shān)除单词(cí)的所有的前缀后缀(zhuì)之后保留的一部分。例如,“touched”,它的词干(gàn)是“touch”,同时(shí)“touch”也(yě)是“touching”等词的词干。

为什么需要词干?因为我们会遇到不同的词汇变形(xíng),而实际上它们具有相同的词干和意义。举例来说:

# I was taking a ride in the car

# I was riding in the car.

这两个句子(zǐ)意思(sī)是一致的,ride和riding的用法(fǎ)也是相同的。

词汇表中所有的单词有不(bú)同的注释,其中还包括(kuò)大量实际意义相同的单词,要存储它们,需要(yào)一个庞大数据库,但是通过词干(gàn)提取,仅关(guān)注单词的词(cí)干,可(kě)以很好地解决这个问题。现行的通用(yòng)算法之一是1979年的“Porter Stemming Algorithm”(波特词干算法(fǎ)),非常使用便捷。

文字分割:

NLP中的(de)文本分割是将文(wén)本转换为有意义的单元(yuán)的过程,可以(yǐ)是单(dān)词、句子、也(yě)可以(yǐ)是(shì)不同的主题(tí)或潜在的(de)意图等。在(zài)文本分割(gē)中(zhōng),文(wén)本(běn)根据不同语种被分割(gē)为成份单词,由(yóu)于人类(lèi)语言的复杂性,通常比较难(nán)。举个例子,在英(yīng)语(yǔ)中利(lì)用空格来分(fèn)隔单词(cí),相对高(gāo)效实用,但(dàn)是(shì)也有像“ice box”这类词(cí)语的例外,ice和(hé)box这两个由空格隔开(kāi)的词合并一起(qǐ)使用才有原本含义的,所以人们有时把它写作“ice-box”,那(nà)么就给文字分(fèn)割带来了难题。

命名实体识(shí)别(bié):

命名实体识别(NER)用于(yú)确定文本中哪些词条属于(yú)命(mìng)名实体,这些(xiē)词条可以(yǐ)被定(dìng)位(wèi)并归入预定义(yì)的类别,类别(bié)的范(fàn)围包括人名,组(zǔ)织,地点,还有货币价值和百分比。

看下面的例子:

NER之(zhī)前:Martin bought 300 shares of SAP in 2016.

NER之后(hòu):[Martin]Person bought 300 shares of [SAP]Organization in [2016]Time.

关系抽取:

关系提取采用“命名实体识别(bié)(NER)”的命名实体,并识别它们之间的语(yǔ)义(yì)关(guān)系。这可能意味着它能够发现文本中(zhōng)词语之间的关联性,例如谁与谁结婚,某人在哪个公(gōng)司工作等(děng)。这(zhè)个(gè)问题也可(kě)以转换为分类(lèi)问(wèn)题,然后为(wéi)每种关系类型训练机器学习模型。

情感(gǎn)分析:

通过情感(gǎn)分析,我们想要确定例如说(shuō)话(huà)者或作者关于文(wén)档(dàng),互动或事件的态度(dù)(例如情绪)。因此,需要理解文本(běn)以预测潜在意图是(shì)一种自然语言处理问题。情绪主要分为积极,消(xiāo)极和中性两类。通过使用情(qíng)感分析,我们希望根据他撰写的(de)关于(yú)产品的评论来(lái)预测(cè)客户对产品的看法和态度(dù)。因此,情(qíng)感分析广泛应(yīng)用于评论,调查,文档等等(děng)

如(rú)果你对(duì)使用(yòng)Python中(zhōng)的某些(xiē)技术感兴趣,可以查看(kàn)我创(chuàng)建(jiàn)的(de)Python的自然语言工(gōng)具包(bāo)(NLTK)的Jupyter Notebook。你还可以查看我的博(bó)客(kè)文章,了解如何(hé)使用Keras构建神经网(wǎng)络,我将训练(liàn)神经网(wǎng)络进行(háng)情感分析。

5.深度(dù)学习和NLP

深度学(xué)习和自然语言(yán)的(de)核心是“词义(yì)”,在这里(lǐ),单词(cí)用一个实数向(xiàng)量来表(biǎo)示。因(yīn)此,通过(guò)向量来代表(biǎo)单词(cí)单词,我们可以将单词置于高维(wéi)度(dù)的空间(jiān)中,由向量表示的(de)单词起到语义空间(jiān)的作用。这仅仅意味着在该高维向量空间中,形近意近的单词倾向(xiàng)于聚集在一(yī)起。下图中,可以看到单(dān)词含义的直观(guān)展示:

自(zì)然语言处理入门教程

在此空间中,如果(guǒ)想要(yào)知道某(mǒu)一组聚集成类的单词的含(hán)义,可(kě)以(yǐ)通过使用主成(chéng)分(fèn)分析法(PCA),也可(kě)以(yǐ)使用降维法。但这些方法太简单并且(qiě)会遗漏(lòu)了周边的大量信息,因而产(chǎn)生误差。在研究的初始阶段(duàn),这些(xiē)方法很好用,(如数据科学中的逻辑或线性回归)但并不是(shì)前沿(yán)技术。

我们还可以将单词的一部分当作向量,这些向量可以代(dài)表单(dān)词的含义。想(xiǎng)象一(yī)下“undesirability”这个(gè)词。使用“形态学方(fāng)法”,它涉及一个词所具有的不同(tóng)部(bù)分,我们认为它由词素(sù)(单词部分(fèn))构(gòu)成:“Un + desire + able + ity”。每个(gè)语素都有自己的向量。这允许我们构建一个神(shén)经网络,它可以构成一(yī)个更大的(de)单位的(de)意义(yì),而更大的单位又由所(suǒ)有(yǒu)这些语素组成。

深(shēn)度学习还可以通过创(chuàng)建句法分(fèn)析(xī)器(qì)来理解(jiě)句子(zǐ)的结构,谷(gǔ)歌正在使(shǐ)用这样的依赖解析(xī)技(jì)术,在他(tā)们的“McParseface”和(hé)“SyntaxNet”(两种(zhǒng)语言解析器),不过更加宏大,更加复杂。

通过分(fèn)析句子结构,我们开(kāi)始理解句子的意(yì)义,可以从(cóng)单词的含义开(kāi)始,也可以(yǐ)从(cóng)整个短(duǎn)语和句子开始,无论单词的(de)意义、短(duǎn)语还是句子,都用向量(liàng)来表示。如果想(xiǎng)知道(dào)句子(zǐ)之间的关系,我们可以创(chuàng)建神经网络(luò)来帮助分析。

深度(dù)学习也(yě)适用于情感(gǎn)分析。请看这个电影评论:“这部电影不在乎是不是巧妙,也(yě)不在乎幽默与否(fǒu)”。传统的(de)机器学习算法会认为这(zhè)是一(yī)个积极的评论,因为“聪明”和“幽默”是积极的词汇(huì),但(dàn)是神经网(wǎng)络能够识别(bié)出它的真正(zhèng)含义。

另外,深度学习算法实现的机器翻(fān)译中,它从句子开始翻(fān)译,并生成一个向(xiàng)量,然后用另外一种语(yǔ)言(yán)生成(chéng)所需要的信息。

总而言之,NLP与深度学习相结合,就是表示(shì)单词、短语的向量,以(yǐ)及它们的含义(yì)。

关键(jiàn)词: AI挖掘技术(shù)




AI人工智能网声明:

凡资讯来源注明为(wéi)其他媒体来(lái)源的信息,均为转载自其他媒体(tǐ),并(bìng)不代表本网(wǎng)站赞同其观点,也不代(dài)表本(běn)网站对其真(zhēn)实性(xìng)负责。您若对该(gāi)文章内容有任何疑问或质疑,请(qǐng)立即与(yǔ)网(wǎng)站(www.jiangx.bijie.shanxi.linyi.jiaxing.zz.pingliang.ww38.viennacitytours.com)联系,本网(wǎng)站将(jiāng)迅速给您回(huí)应并做(zuò)处(chù)理。


联系电话(huà):021-31666777   新闻、技术文章投稿QQ:3267146135   投稿邮(yóu)箱:syy@gongboshi.com

工博(bó)士人工智能网
kb体育(中国)官方网站-登录入口
扫描二维码关(guān)注微信(xìn)
扫码反(fǎn)馈(kuì)

扫(sǎo)一扫(sǎo),反馈当前页面(miàn)

咨询反馈
扫码关注

微信公(gōng)众号

返回顶(dǐng)部

kb体育(中国)官方网站-登录入口

kb体育(中国)官方网站-登录入口