知識圖譜(Knowlegraph)首先是谷歌提出的,大家都知道谷歌是一款搜索引擎。知識圖譜出現前,使用谷歌、百度搜索時,搜索結果是很多頁面,根據搜索結果的頁面主題點擊鏈接,可以看到具體的內容。知識圖譜出現之后,搜索結果會以一定的組織結構呈現。那么知識圖譜構建技術包括哪些?接下來小編為你詳細介紹。
知識圖譜構建技術
資料獲取是建立知識圖譜的第一步。當前,根據來源渠道的不同,知識圖譜數據源可以分為兩類:一類是業務本身的數據,這些數據通常包含在行業內的數據庫表中,并以結構化的方式存儲,即非公開或半公開的數據;另一類是網絡上公開、抓取的數據,這些數據通常以網頁的形式存在,是非結構化的。
根據數據結構的不同,可以分為三種類型:結構化數據、半結構化數據和非結構化數據。根據不同的數據類型,我們采用不同的方法進行處理。
提取信息的關鍵問題是如何從異構數據源中自動提取信息以獲取候選知識單元。正如前面所說,獲取知識有兩種渠道,前者只需簡單的預處理就可以作為后續AI系統的輸入,但是后者通常需要借助自然語言處理等技術來提取結構化信息,這就是提取信息的難點問題,所涉及的關鍵技術包括實體提取、關系提取和屬性提取。
(1)實體提取(EntityExtraction)/命名實體識別(NameEntityRecognition)
實體提取又稱命名實體識別(NER),是指從文本數據集中自動識別命名實體,其目的是在知識圖中建立節點。實體提取的質量(精度和召回率)對后續知識的獲取效率和質量有很大影響,因此是信息提取中最基本、最關鍵的部分。實體類型主要包括三類和七類:實體(包括姓名、地名、機構名稱)、時間類別(日期、時間)、數字類別(貨幣,百分比)。
起初,實體識別通常采用人工預定義實體分類系統的方法,但隨著技術的不斷進步,這種舊的方法已難以適應時代的需要,因此面向開放領域的實體識別和分類具有很大的研究價值。
在開放域的實體識別和分類研究中,不需要也不可能為每個領域或實體類別建立單獨的語料庫作為培訓集。因此,研究者面臨的主要挑戰是如何從給定的少量實體實例中自動找到具有區別力的模型。
一個想法是根據已知的實體實例進行特征建模,利用該模型處理大量數據集,得到新的命名實體列表,對新的實體進行建模,反復生成實體標記語料庫。
另外一個想法是使用搜索引擎的服務器日志,事先不給出實體分類等信息,而是根據實體的語義特征,從搜索日志中識別出命名實體,然后用聚類算法對所識別的實體對象進行聚類。
(2)關系抽取(RelationExtraction)
文實體中提取文本語料后,得到的是一系列離散的命名實體(節點),為了獲取語義信息,還需要從相關語料中提取實體之間的關聯(邊),以便將多個實體或概念聯系起來,形成網絡知識結構。研究性關系抽取技術,就是研究如何解決從文本語料中提取實體之間的關系。
(3)屬性提取(AttributeExtraction)
提取屬性的目的是從不同的信息源中收集具體實體的屬性信息,從而完成對實體屬性的完整描述。比如針對某個手機,可以從互聯網上獲取多源(異構)數據,獲取其品牌、配置等信息。
若將實體的屬性值視為一個特殊的實體,則屬性抽取實際上也是一個關系抽取。百科全書網站提供的半結構化數據是通用領域屬性抽取研究的主要數據來源,但是具體到特定的應用領域,涉及到大量的非結構化數據,屬性抽取仍是一個巨大的挑戰。
信息抽取后,信息單元之間的關系是扁平化的,缺乏層次性和邏輯性,同時存在大量冗余甚至錯誤的信息碎片。知識整合,簡單理解,就是整合多個知識庫中的知識,形成一個知識庫的過程。在這個過程中,主要的關鍵技術包括指代消解、實體消歧和實體鏈接。不同的知識庫收集知識有不同的側重點。對于同一個實體,有知識庫的可能側重于自一方面的描述,有些知識庫可能側重于描述實體與其他實體的關系。知識整合的目的是整合不同的知識庫,從而獲得實體的完整描述。
知識融合旨在解決如何整合同一實體或概念的多源描述信息。
(1)指代消解(CoreferenceResolution)
CoreferenceeResolution中,字面上的翻譯應該是共指消解,但是在大多數博客或論壇中,通常被稱為指代消解。一般而言,指代分為三類(NLP領域通常只關注前兩類):
首先,回指(也稱為指示性指示),相應的單詞是anaphora,指當前的指示性單詞與上述單詞、短語或句子(句群)有密切的語義關聯,它指向另一個單詞(稱為先行單詞),它依賴于先行單詞的解釋,具有不對稱性和非傳遞性;
第二,共指(又稱同指),相應的詞為coreference,指的是兩個名詞(包括代名詞、名詞短語)指向現實世界中的同一參考體,這種指的是脫離上下文依然成立。共指消解技術主要用于解決多個指的對應相同物體的問題。
第三,下指,相應的單詞是cataphora,與回指正好相反,是指代詞的解釋取決于代詞后面的某些單詞、短語或句子(句群)的解釋。下面圖中的he和his都指的是后面的Lord:
因此,根據以上描述,個人認為將CoreferenceResolution翻譯成指代消解更為合適。
(2)實體消歧(EntityDisambiguation)
有的實體寫法不同,但指向同一實體,如NewYork代表紐約,而NYC代表紐約。這樣,實體消歧就能減少實體的種類,減少圖譜的稀疏。
物理消歧是專門用來解決同名物理產生歧義的技術,通過物理消歧,可以根據當前的語境,準確地建立物理鏈接,物理消歧主要采用聚類法。實際上還可以看作是基于上下文的分類問題,類似于詞性消歧和詞義消歧。
(3)實體鏈接(EntityLinking)
物理鏈接(entitylinking)是指從非結構化數據(如文本)或半結構化數據(如表格)中提取物理對象,并將其鏈接到知識庫中對應的物理對象的操作。它的基本思想是先根據給定的物理指標項目,從知識庫中選擇一組候選物理對象,然后通過相似度計算將指標項目鏈接到正確的物理對象。
實體鏈接是從半結構化數據和非結構化數據中提取的數據。除了半結構化數據和非結構化數據,還有一個更方便的數據源——結構化數據,比如外部知識庫和關系數據庫。這部分結構化數據的處理是知識合并的內容。一般來說,知識合并主要分為兩類:整合外部知識庫,主要處理數據層與模式層的沖突。有RDB2RDF等DB2RDF等方法。
以上就是知識圖譜構建技術包括哪些的全部內容,希望對你有所幫助。知識圖譜是一種特殊的語義網絡,它利用實體、關系、屬性等基本單位,用符號的形式來描述物理世界中不同概念之間的關系。在信息搜索、推薦系統和問答系統中,知識圖譜有著重要的意義。
[免責聲明]
文章標題: 知識圖譜構建技術包括哪些?
文章內容為網站編輯整理發布,僅供學習與參考,不代表本網站贊同其觀點和對其真實性負責。如涉及作品內容、版權和其它問題,請及時溝通。發送郵件至36dianping@36kr.com,我們會在3個工作日內處理。