自(zì)然语言处理(NLP)的一般处理流程!
1. 什么是NLP
自然(rán)语言(yán)处理 (Natural Language Processing) 是人(rén)工智能(AI)的(de)一个子领域。自然(rán)语言处理是研究在人与人交互中以及在人与(yǔ)计算(suàn)机交互(hù)中的语(yǔ)言问题的一(yī)门学(xué)科。为了建(jiàn)设和(hé)完善语言模型,自然语(yǔ)言处理建(jiàn)立计(jì)算框架,提出(chū)相应的方法来(lái)不断的(de)完善设计各种实用系统,并探讨这些实(shí)用(yòng)系统(tǒng)的(de)评测方法。
2. NLP主要研究方向(xiàng)
信息抽(chōu)取:从给定文本(běn)中(zhōng)抽取重要的信息,比如时间、地(dì)点、人物、事件、原(yuán)因、结果(guǒ)、数字、日期、货币、专有名词等(děng)等。通(tōng)俗说来(lái),就是要了解(jiě)谁在什么时候、什么(me)原因、对谁、做了什么事(shì)、有什么结果。
文本生(shēng)成:机(jī)器像人一样使用自然语言进行表达(dá)和(hé)写作。依据输(shū)入的不同,文本生成(chéng)技(jì)术主要包括(kuò)数据到(dào)文本(běn)生成和文本到文本生(shēng)成。数据(jù)到文本生成是指将包含键值对的数据转化为自然语言文(wén)本;文本到文本(běn)生(shēng)成对输入(rù)文本进行(háng)转化(huà)和处(chù)理从而产(chǎn)生新的文本。
问答系统:对一个自然语言表达的问题,由问答系统给出(chū)一个(gè)精准(zhǔn)的答案。需要对自然语言查询语(yǔ)句进行某种程度的语义分析,包括实体链接、关系识别,形成逻辑表达式,然(rán)后到(dào)知识库中查找可能的候选答案并通过一个排序机制找(zhǎo)出最佳的答案。
对话系统:系统通过一系列的对话,跟用户进行聊天、回答、完成(chéng)某一项任(rèn)务。涉及(jí)到(dào)用户意图理(lǐ)解、通用聊天引擎、问答(dá)引擎、对(duì)话管理等技术。此外,为了(le)体现上下(xià)文相关,要具备多轮对话(huà)能力。
文本挖掘:包括文本聚类、分类、情(qíng)感分析以(yǐ)及对(duì)挖掘的信息和知识的可视化(huà)、交互式的表达界(jiè)面。目前主(zhǔ)流的技术都是(shì)基于统计机器学习的。
语音识别和(hé)生(shēng)成(chéng):语(yǔ)音识别是将输(shū)入计算机的语(yǔ)音符号识别(bié)转(zhuǎn)换成书面语表示(shì)。语音生成又称文(wén)语转换(huàn)、语音合成,它(tā)是指将书面文本自动转换成对应的语音表(biǎo)征。
信息过滤:通过计算机系统自动识别和过滤符合特定条件的文档信息。通常指网络有害信息(xī)的自动识(shí)别和(hé)过滤,主(zhǔ)要用于(yú)信(xìn)息安全和防护,网络(luò)内容管理等。
舆情分析:是指收集和处理海量信息,自动化地对网络舆情进行分析(xī),以(yǐ)实现及时应对网络(luò)舆情(qíng)的目的。
信息检索:对(duì)大规模的文档进行索(suǒ)引。可(kě)简单对文档中的词汇(huì),赋之以(yǐ)不同的权重来建立(lì)索引,也可建(jiàn)立更加深层的索引(yǐn)。在(zài)查询(xún)的时候,对输入的查询表达(dá)式比如一个检(jiǎn)索词或者一个句子进(jìn)行(háng)分析(xī),然后在索(suǒ)引里面查找(zhǎo)匹配(pèi)的候选文档,再根(gēn)据一个排序机制把候选文档排序(xù),最(zuì)后输出排序得分最高的文档。
机器翻译:把输入的(de)源(yuán)语言文本(běn)通过自动翻译获得另外一种语言的(de)文本。机(jī)器翻译(yì)从最早的(de)基于(yú)规则(zé)的(de)方法到(dào)二十(shí)年前的基于统计的方法(fǎ),再到今天的基于神经网(wǎng)络(编码-解码)的(de)方法,逐渐(jiàn)形成了(le)一套比较严谨的方法体(tǐ)系。
3. NLP的发展
1950年前:图灵测(cè)试 1950年前阿兰·图灵图(tú)灵(líng)测试:人(rén)和机器(qì)进(jìn)行交流,如果人无法判断(duàn)自己交流(liú)的对象是人还是机(jī)器,就说明这个(gè)机器具有智(zhì)能。
1950-1970:主流:基于规则形式语言理论
乔姆(mǔ)斯基(jī),根据数学中的公理(lǐ)化方法研究自然语言,采用代数和集合论(lùn)把形(xíng)式语(yǔ)言定义为符(fú)号的序列。他(tā)试(shì)图(tú)使(shǐ)用有限的规则描述(shù)无限的语言现象,发现(xiàn)人(rén)类普遍的语言机制,建立所谓(wèi)的普(pǔ)遍语法。
1970-至今:主流(liú):基于统计 谷歌、微软、IBM,20世(shì)纪70年代(dài),弗(fú)里德里克·贾里尼克及其(qí)领导的IBM华生实验室将语(yǔ)音识别率从(cóng)70%提升到90%。 1988年,IBM的彼得·布(bù)朗(lǎng)提出了基于统计的机器翻(fān)译(yì)方法。 2005年,Google机器翻译打败基(jī)于规则(zé)的Sys Tran。
2010年以后:逆袭:机器(qì)学习
AlphaGo先后战胜李世石、柯洁等,掀(xiān)起人工(gōng)智能(néng)热潮。深度学习、人工(gōng)神经网络成为热词。领(lǐng)域:语音(yīn)识别(bié)、图像识别、机器翻译、自动驾驶(shǐ)、智能家居。
4. NLP任务的一(yī)般步骤
下面图片看不(bú)清楚的,可以百度(dù)脑图(tú)查(chá)看,点击(jī)链接
5. NLP、CV,选哪个?
NLP:自然语言(yán)处理,数据是文本。
CV:计算(suàn)机视觉,数据是图像。
两者属于不同的(de)领域,在遇到这个问题(tí)的时候,我也是犹(yóu)豫了很久,想了(le)很多,于(yú)是乎(hū)得(dé)出一(yī)个结论:都(dōu)是利用(yòng)深度学(xué)习去解决现(xiàn)实(shí)世界存在的问题,离开了CV,NLP存活不(bú)了;离(lí)开(kāi)了NLP,CV存活不了。两者就像兄弟姐妹(mèi)一样,整个“家庭”不能分割但个体又(yòu)存(cún)在(zài)差异!
NLP/CV属于两个不同的研究领域,都是很(hěn)好的领域(yù),可以根据自(zì)己的爱好作出适合自己的选择(zé),人(rén)工智能是一个多学科交(jiāo)叉的领域,需要(yào)的(de)不仅(jǐn)仅是单方面的能力,而(ér)是(shì)多(duō)方面的能力(lì)。对(duì)于每个人来说(shuō)都有自(zì)己的侧(cè)重点(diǎn),选择自己擅(shàn)长的领域里持续深耕,就会有所成就(jiù)!