與大多數(shù)機(jī)器學(xué)習(xí)或人工智能技術(shù)一樣,自然語言處理也是一種綜合技術(shù),涉及多種技能、技術(shù)和領(lǐng)域。本論文主要研究實(shí)現(xiàn)人與計(jì)算機(jī)通過自然語言進(jìn)行有效通信的各種理論和方法。在數(shù)據(jù)科學(xué)領(lǐng)域,自然語言處理是最熱門的課題之一。接下來小編就給大家介紹一下什么是自然語言?什么是自然語言處理,一起來看看吧。
什么是自然語言處理?
簡而言之,自然語言處理(簡稱NLP),即使用計(jì)算機(jī)來處理、理解和使用人類語言(例如中文、英文等),屬于人工智能的一個(gè)分支,也就是計(jì)算機(jī)科學(xué)和語言學(xué)的交叉學(xué)科,也就是計(jì)算語言學(xué),也就是計(jì)算語言學(xué)。因?yàn)樽匀徽Z言是人類有別于其他動(dòng)物的基本特征。如果沒有語言,人類的思維也就無從談起,因此自然語言處理體現(xiàn)了人工智能的最高任務(wù)和最高境界,即只有當(dāng)計(jì)算機(jī)具備了處理自然語言的能力時(shí),機(jī)器才能達(dá)到真正智能。
自然語言處理的研究內(nèi)容主要有語法分析、語義分析和篇章理解等。就應(yīng)用而言,自然語言處理有著廣闊的應(yīng)用前景。尤其是在信息時(shí)代,自然語言處理的應(yīng)用范圍非常廣泛,包括:機(jī)器翻譯、手寫和印刷體字符識別、語音識別和文語轉(zhuǎn)換、信息檢索、信息提取和過濾、文本分類和聚類、輿情分析和視角挖掘等,涉及到數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、知識獲取、知識工程、人工智能研究以及語言計(jì)算等領(lǐng)域。
值得注意的是,自然語言處理的興起與具體的機(jī)器翻譯任務(wù)密切相關(guān)。“機(jī)器翻譯”是指用計(jì)算機(jī)自動(dòng)翻譯一種自然語言到另一種自然語言。因此,翻譯工作十分耗費(fèi)時(shí)間和精力。在需要翻譯某些專業(yè)領(lǐng)域的文獻(xiàn)時(shí),翻譯者更需要了解該領(lǐng)域的基礎(chǔ)知識。全世界有超過數(shù)千種語言,而聯(lián)合國一國就擁有6種以上的工作語言。機(jī)器翻譯若能在不同語言之間實(shí)現(xiàn)精確轉(zhuǎn)換,將大大提高人類交流和理解的效率。
當(dāng)前,人們對自然語言處理的認(rèn)識主要有兩種:一種是基于規(guī)則的理性主義,另一種是基于統(tǒng)計(jì)的經(jīng)驗(yàn)主義。從理性主義角度看,人類語言主要是通過語言規(guī)則來生成和描述的,所以只要能以適當(dāng)?shù)男问奖磉_(dá)人類語言規(guī)則,就能理解人類語言,實(shí)現(xiàn)語言間翻譯等各種自然語言處理任務(wù)。實(shí)證主義理論認(rèn)為,語言統(tǒng)計(jì)知識是從語言數(shù)據(jù)中提取出來的,有效地構(gòu)建了語言統(tǒng)計(jì)模型。所以,只要有足夠的統(tǒng)計(jì)語言數(shù)據(jù),人類語言就是可以被理解的。但在面對充滿模糊和不確定性的現(xiàn)實(shí)世界中,兩種方法都面臨著各自不能解決的問題。
舉例來說,人類語言盡管有一定的規(guī)則,但在實(shí)際使用中經(jīng)常會(huì)出現(xiàn)很多噪音和不規(guī)范現(xiàn)象。理性方法的一個(gè)大缺點(diǎn)是不夠穩(wěn)健,只要與規(guī)則稍有偏差就不能解決。而且,對于經(jīng)驗(yàn)方法來說,它并不能無限制地獲取語言數(shù)據(jù)進(jìn)行統(tǒng)計(jì)學(xué)習(xí),因而也就不可能完全理解人類語言。80年代以來,以語言規(guī)則為基礎(chǔ)的理性主義方法不斷受到質(zhì)疑,大規(guī)模語言數(shù)據(jù)處理成為當(dāng)前及今后一個(gè)時(shí)期自然語言處理的主要研究對象。在自然語言處理中,統(tǒng)計(jì)學(xué)習(xí)方法越來越受到重視,越來越多地采用計(jì)算機(jī)自動(dòng)學(xué)習(xí)方法來獲取語言知識。
邁入21世紀(jì),我們已進(jìn)入以互聯(lián)網(wǎng)為主要標(biāo)志的海量信息時(shí)代,大量信息大多用自然語言表達(dá)。大量的信息,一方面為計(jì)算機(jī)學(xué)習(xí)人類語言提供了更多的“素材”,另一方面,也為自然語言處理提供了更廣闊的應(yīng)用領(lǐng)域。比如,作為自然語言處理的重要應(yīng)用,搜索引擎逐漸成為人們獲取信息的重要工具。
百度、谷歌等搜索引擎巨頭應(yīng)運(yùn)而生;機(jī)器翻譯也從實(shí)驗(yàn)室走向了百姓家,谷歌、百度等公司提供機(jī)器翻譯和基于海量網(wǎng)絡(luò)數(shù)據(jù)的輔助翻譯;基于自然語言處理的中文(如搜狗、微軟、谷歌等輸入法)成為電腦用戶必不可少的工具;擁有語音識別功能的電腦和手機(jī)也大行其道,幫助用戶更有效地學(xué)習(xí)。總而言之,隨著因特網(wǎng)的普及和大量信息的產(chǎn)生,自然語言處理在人們的日常生活中發(fā)揮著越來越大的作用。但是,面對海量、大規(guī)模的文本數(shù)據(jù),如何有效利用海量信息,人們逐漸認(rèn)識到,僅僅依靠統(tǒng)計(jì)方法已不能迅速有效地從海量數(shù)據(jù)中學(xué)習(xí)語言知識。
自2013年發(fā)布word2vec技術(shù)以來,基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)技術(shù)開始廣泛應(yīng)用于自然語言處理領(lǐng)域,分布式語義表示和多層網(wǎng)絡(luò)體系結(jié)構(gòu)的深度學(xué)習(xí)具有強(qiáng)大的擬合和學(xué)習(xí)能力,顯著提高了自然語言處理的各項(xiàng)任務(wù)的性能,成為現(xiàn)階段自然語言處理的主要技術(shù)方案。
深度學(xué)習(xí)是一種純數(shù)據(jù)驅(qū)動(dòng)的技術(shù),需要從大規(guī)模標(biāo)注數(shù)據(jù)中學(xué)習(xí)與特定任務(wù)相關(guān)的復(fù)雜模式。一些學(xué)者開始探索深度學(xué)習(xí)模型,如ELMo,GPT,BERT等,它們可以被看作是對從大規(guī)模數(shù)據(jù)中學(xué)習(xí)知識的極端探索;另一方面,現(xiàn)有的深度學(xué)習(xí)技術(shù)還沒有考慮到人類積累的大量知識(包括語言知識、世界知識、常識知識、認(rèn)知知識、行業(yè)知識等等),如果把深度學(xué)習(xí)看作是經(jīng)驗(yàn)主義的方法,把符號知識看作是理性主義的方法,那么如何才能充分發(fā)揮基于規(guī)則的理性主義方法和基于統(tǒng)計(jì)的經(jīng)驗(yàn)主義方法的優(yōu)勢,使兩者相互補(bǔ)充,更好、更快地進(jìn)行自然語言處理,仍是我們需要探索的重要課題。
作為一門剛剛興起了不到一個(gè)世紀(jì)的新學(xué)科,自然語言處理正在飛速發(fā)展。縱觀自然語言處理的發(fā)展過程,它并非一帆風(fēng)順,有過低谷,也有過高潮。目前我們正面臨著新的機(jī)遇和挑戰(zhàn)。比如,目前的搜索引擎基本上還停留在關(guān)鍵字匹配上,缺乏對自然語言的深度處理和理解。目前,語音識別、文字識別、問答系統(tǒng)、機(jī)器翻譯等技術(shù)也僅能達(dá)到非常基礎(chǔ)的水平。路途遙遠(yuǎn),自然語言處理作為一門高度交叉的新興學(xué)科,不管是探索自然的本質(zhì),還是應(yīng)用于實(shí)踐,都必然會(huì)有意想不到的驚喜,而且發(fā)展得異常迅速。以上就是小編為大家介紹的什么是自然語言,什么是自然語言處理,希望對您有幫助。
[免責(zé)聲明]
文章標(biāo)題: 什么是自然語言?什么是自然語言處理?
文章內(nèi)容為網(wǎng)站編輯整理發(fā)布,僅供學(xué)習(xí)與參考,不代表本網(wǎng)站贊同其觀點(diǎn)和對其真實(shí)性負(fù)責(zé)。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時(shí)溝通。發(fā)送郵件至36dianping@36kr.com,我們會(huì)在3個(gè)工作日內(nèi)處理。