知識圖譜讓知識比數據更重要,得知識者得天下
作者:趙滿滿
編輯:益韓
編審:楊小天
頭圖來源:freepic
近年來,人工智能相關技術持續演進,與云計算、大數據、物聯網、5G等技術不斷融合,成為引領未來的新興戰略性技術,是驅動新一輪科技革命和產業變革的重要力量。
在新科技革命和產業變革的大背景下,人工智能產業化和商業化進程不斷提速,正在加快與千行百業深度融合,正在促進新興產業之間、新興產業與傳統產業之間以及技術與社會的跨界融合發展。
中國軟件網、海比研究院認為,人工智能與產業深度融合,將成為企業釋放數字化疊加倍增效應、加快戰略新興產業發展、構筑綜合競爭優勢的必然選擇,全面梳理人工智能技術、應用的發展態勢,對推動人工智能持續健康發展至關重要。
為此,中國軟件網、海比研究院特別推出了“人工智能行業洞察”系列報道,通過對人工智能技術、應用、企業等深度報道,助力企業數字化、智能化。
目前,中國軟件網、海比研究院已經推出的AI報道包括:
·數據不出門就能被利用,聯邦學習讓機器學習工程化
·HR擁抱人工智能,8大場景重塑無限可能
·一文透視“北京智源大會”十大AI熱點
·讓機器人解惑傳道,對話式AI能否為企業帶來巨量的業務
·MLOps:讓AI應用周期從9個月縮短到幾天
·超大規模與輕量化模型,誰會成為AI主流?
·大型機沒有滅亡,反而正成為AI、混合云的寵兒
·向死而生,浴火重生,創新能讓AI芯片新生?
·從蜂擁而上到紛紛退場,AI芯片誰在“裸泳”?
·谷歌微軟阿里華為都愛上大模型,AI開發邊界被打破
一家企業成功IPO,可以通過知識圖譜平臺從招股書、年報、公司公告、券商研究報告、新聞等半結構化表格和非結構化文本數據中,批量自動抽取公司的股東、子公司、供應商、客戶、合作伙伴、競爭對手等信息,構建出公司的知識圖譜。
當某個宏觀經濟事件或者企業相關事件發生時,券商分析師、交易員、基金公司基金經理等投資研究人員可以通過此圖譜做更深層次的分析,做出更好的投資決策。
類似的例子還有,利用企業和個人銀行資金交易、工商、稅務、通信、出行、住宿等信息的關聯知識圖譜,輔助公安機關快速破案。利用知識圖譜,幫助銀行,法制欺詐,等等。
海比研究院認為,期初知識圖譜(KnowledgeGraph)旨在實現更智能的搜索引擎,目前知識圖譜已被廣泛應用于智能搜索、智能問答、個性化推薦、情報分析、反欺詐等領域。在人工智能的下半場,知識圖譜在具備能理解、會思考、可解釋等特征的認知智能突破自身天花板的前沿才得以蓬勃發展,并迅速得到應用。
打開知識圖譜的大門
在過去的十年的時間里,知識圖譜已經潛入到我們的日常生活,無論是通過語音助手如Alexa、Siri或GoogleAssistant直觀的搜索結果,還是通過電商智能推薦,提供個性化的購物體驗,我們每天都在不斷與知識圖譜進行交互。
然而,知識圖譜和底層的圖數據庫對大多數人來說仍然是一個謎,大多數人甚至沒有意識到我們對技術的依賴度。
2012年,Google正式提出了知識圖譜(KnowledgeGraph)的概念,初衷是為了優化搜索引擎返回的結果,增強用戶搜索質量和體驗。
知識圖譜是一種基于圖的數據結構,由節點和邊組成,每個節點表示一個“實體”,每條邊為實體與實體間的“關系”,其中實體指的可以是現實世界中的事物,比如人、地名、公司、電話、動物等;關系則用來表達不同實體之間的某種聯系。
通俗地講,知識圖譜就是把所有不同種類的信息連接在一起而得到的關系網絡,本質上是一種揭示實體之間關系的語義網絡,因此知識圖譜提供了從“關系”的角度來分析問題的能力。
更進一步,艾瑞資訊在其報告中認為,知識圖譜是一種用圖模型來描述知識和建模世界萬物之間關聯關系的大規模語義網絡,是大數據時代知識表示的重要方式之一。
相對于傳統的知識表示,知識圖譜具有規模巨大、語義豐富、質量精良與結構友好等特點,宣告知識工程進入了一個新的時代。
InfoQ的報告認為,知識圖譜是實現人工智能從“感知”躍升到“認知”的基礎。在內容維度,知識圖譜是一種表達規范、關聯性強的高質量數據表示;在技術維度,知識圖譜可解釋為一種使用圖結構描述知識和建模萬物關聯關系的技術方法。
許多組織已經在使用知識圖譜技術來幫助自己保持領先地位。
知識圖譜和圖數據庫已被用于幾乎所有的行業,盡管這些公司將知識圖譜用于不同的用例,但最終的規則是相同的:從各種數據孤島中獲取大量數據并為其增加價值,以便可以以有意義和更智能的方式使用和重用它。
知識圖譜的價值維度首先是有助于實現業務戰略高度的行業數據治理;其次,基于語義連接實現知識融合和可解釋性,成為人類思維與機器路徑思維的轉換器;最后,實現對推理和決策的有力支撐,使其在更多領域得以廣泛應用。
知識圖譜得到快速發展源于四個原因:
合并不同的數據孤島。兩個不同部門的工作會重疊,而兩個部門都懶得相互溝通,這種情況經常發生,根本危害是兩個部門將精力都浪費在已經擁有的知識上,或者讓員工不斷地重新學習東西。知識圖譜有助于打破不同的數據孤島,為用戶提供在全球組織中的所有知識。
整合結構化和非結構化數據。積累數據并不意味著只是組裝文檔和Excel工作表。知識圖譜技術能夠以有意義的方式連接不同類型的數據,并支持比大多數知識管理系統更豐富的數據服務。在人工智能和機器學習技術的幫助下,組織將提取和發現更深入、更微妙的模式。
通過更快地發現事物來做出更好的決策。在計算機出現之前,尋找信息就意味著要翻閱成堆的文件,找到一個特定的句子或者數字等。使用知識圖譜技術可以緩解這種情況,它提供了更豐富、更深入的搜索結果,有助于為特定問題提供相關事實和上下文答案,而不是提供包含許多相關文檔和消息卻沒有實際價值。一個成熟的知識圖譜可以為企業提供堅實的基礎設施和任何智能應用的基礎。
通過標準讓用戶的數據庫經得起未來考驗。沒有高質量的數據,就不可能獲得高質量的知識。有了企業知識圖譜,組織在管理數據模型時將受益于其數據的更高可重用性,因為其知識圖譜符合W3C標準,而且還允許重用公開可用的行業知識,以及多語言同義詞庫的ISO標準,也能確保完全控制自己的知識圖譜。
知識圖譜,成為AI的投資風口
不管是從國內,還是從國外來看,知識圖譜都是一個風口,并成為AI發展中最重要的一個風口。
投資的一大方向是知識圖譜平臺。如知識圖譜平臺“Stardog”獲得了300萬美元新資金,將其B輪融資擴展至1140萬美元。Stardog的企業知識圖譜平臺可以創建靈活、可重用的數據層,用于跨數據孤島回答復雜查詢。Stardog根據數據的含義統一數據,創建一個連接的知識網絡,為企業的業務提供動力。
在國內,柯基數據完成數千萬元A輪融資,這是最近幾年柯基數據完成的第三輪融資。柯基數據成立于2015年,專注于知識圖譜認知智能平臺產品及行業解決方案,成立6年來自主研發了可視化智能爬蟲、NLP模型平臺、知識圖譜構建及動態運維平臺、智能問答、智能檢索、智能推薦等全棧認知智能技術平臺產品,擁有核心自主知識產權40多項。
另一方個方向是行業知識圖譜方面。今年3月,達觀數據宣布完成C輪5.8億元融資,刷新了中國自然語言處理與知識圖譜領域的融資記錄。本輪融資將強化達觀數據在文本智能處理領域的領先優勢,帶動NLP、RPA、OCR等核心產品的科技創新和產業應用。達觀在文本語義分析與知識圖譜方面進行了深度研發,申請了100余項國家技術發明專利。
將AI知識圖譜結合多組學分析技術運用于解決衰老問題的MetanovasBiotech公司,在今年也宣布完成近千萬美元天使輪融資。據了解,MetanovasBiotech于2021年初成立于波士頓和上海,旨在將人工智能與生命科學相結合,利用深度學習、知識圖譜、多組學分析來理解復雜的生物網絡,破譯復雜的疾病機制,通過調節疾病網絡的機制進行產品開發,如延緩衰老和預防神經退行性疾病、代謝類疾病的產品。
Metanovas現有的平臺包括Meta-KG知識圖譜平臺、Meta-Omics多組學分析與計算平臺,Meta-NLP臨床與文獻數據挖掘平臺等。其中,公司與清華大學藥學院共同展開的NAD+有關的抗衰老研究的項目在體外實驗獲得初步驗證,AI預測驗證成功率遠超傳統實驗系統性篩選水平。
安全自動化防御平臺中科微瀾也完成千萬元天使輪融資,用于加速打造基于認知智能技術的新一代安全動態防御產品體系。中科微瀾創新性的將知識圖譜等人工智能技術應用于網絡安全領域,自研了VulGraph漏洞圖譜,通過智能化的漏洞管理建立動態防御平臺Vtopia,提升企業對安全威脅的防護能力,對于攻擊自動化具有先發優勢,并實現攻防認知差逆轉。
金融大數據及知識圖譜服務提供商知因智慧宣布完成億元級B輪融資。知因智慧依托與中科院大學合作的AI實驗室,以AI賦能傳統金融機構,利用大數據、知識圖譜和機器學習算法,旨在建立連接金融機構和產業機構的產融云圖,提供企業洞察、智能風險、精準營銷、供應鏈金融等場景服務。
知識圖譜成為風口的“三大奧秘”。
知識圖譜成為風口的一個主要原因是知識圖譜的核心技術發展需要投入。知識圖譜的構建技術主要包含知識圖譜表示、知識存儲、知識抽取、知識融合、知識推理等重要組成部分,同與深度學習的融合發展。
艾瑞咨詢的報告就認為,推力和拉力的共同作用促進了知識圖譜發展,其構建中的核心產業主要包括Schema三元組模型構建、實體標注等技術,知識圖譜管理平臺與建模服務、垂直行業的知識圖譜應用產品及解決方案等。
另一個原因是知識圖譜產業快速發展。專家認為,知識圖譜產業涉及數據采集標注、云服務、硬件資源、數據庫等數據和技術支撐;同時涉及從事知識圖譜的設計與構建,包括提供用于知識圖譜分析、應用的各類套件工具及解決方案;在應用端,知識圖譜主要與AI相關技術結合,深度應用于垂直領域。
第三個主要原因就是認知智能創造的市場足夠誘人。據艾瑞咨詢統計推算,2019年知識圖譜核心產品的市場規模約為65.0億元,仍有較大發展空間,預計2024年將突破200億元,年復合增長率達到20.4%。
此外,知識圖譜技術的應用也進一步帶動傳統企業智能運維效率升級。2019年中國知識圖譜技術帶動經濟增長規模達391.8億元,預計到2024年將突破1000億元。
應用不斷擴大,知識圖譜“五大”典型應用場景
知識圖譜技術是人工智能技術的重要組成部分,以結構化的方式描述客觀世界中的概念、實體及其鍵的關系。它提供了一種更好地組織、管理和理解互聯網海量信息的能力,將互聯網的信息表達成更接近于人類認知世界的形式。
因此,建立一個具有語義處理能力與開放互聯能力的知識庫,主要用于搜索結果優化,隨著電商、互聯網金融等興起,逐漸在智能推薦、智能客服、金融風控、安全與安防、能源等探索和應用。
第一,搜索優化。2010年前后,搜索引擎用戶體驗的主要挑戰在于搜索需求和搜索結果難以匹配,依賴“關鍵字搜索”技術返回包含關鍵字的網頁列表需要進一步瀏覽網頁,并過濾掉大量無用信息。
2012年5月,Google公司為了支撐其語義搜索推出KnowledgeGraph,知識圖譜由此誕生,目前已成為全球最大的知識圖譜。
GoogleKnowledgeGraph通過Google搜索引擎結果頁面表示,根據人們搜索的內容提供信息。該知識圖譜由超過5億個對象組成,從Freebase、維基百科,CIA世界概況等獲取數據。
隨后年,微軟開始構建MicrosoftSatori知識圖譜來增強Bing搜索能力。Facebook發布OpenGraph應用于社交網絡智能搜索。在國內搜狗知立方上線,成為國內首個搜索引擎“中文知識圖譜”。
利用知識圖譜技術可以直接給出用戶想要的搜索結果,而不再是各類鏈接。知識圖譜用文本和知識融合的閱讀理解模型,使搜索結果更理解客戶需求。
第二,電商與零售。對于電商平臺來說,交易量和客戶活躍度是其核心競爭力,而客戶一般都是通過搜索獲得想要的商品,越精準的搜索結果,客戶使用越多。
因此,百度、搜狗、阿里巴巴、美團、騰訊等不斷摸索,紛紛嘗試構建自己的知識圖譜平臺。
百度知識圖譜覆蓋覆蓋人物、影視、音樂、文學、商品、餐飲、旅游、出行、金融、教育、房產、醫療等細分領域。
搜狗知立方是國內首個搜索引擎“中文知識圖譜”,通過整合海量的互聯網碎片化信息,對搜索結果進行重新優化計算,把最核心的信息展現給用戶。搜狗語音助手實現搜狗知立方數據的接入,標志著搜狗知立方正式進入無線領域。
美團知識圖譜團隊從2018年開始構建美團大腦,現階段,美團大腦已覆蓋了數十億實體,數百億三元組,覆蓋餐飲、外賣、酒店等場景。
騰訊知識圖譜(TencentKnowledge Graph,TKG),是一個集成圖數據庫、圖計算引擎和圖可視化分析的一站式平臺。在金融、安全、泛互聯網、政府、企業等領域中,海量數據之間彼此關聯產生了數以萬億計的數據,這種復雜的關聯關系數據隱藏著大量的業務信息和商業價值。
伴隨新零售等新趨勢的崛起,電商企業對數據互聯的應用需求擴展到線上線下相結合、實物與虛擬相結合的復雜交易場景。在數據組織方式上,對知識融合和知識推理能力提出了新挑戰。
除了優化搜索結果,知識圖譜還可以幫助電商以及社交平臺解決一些智能推薦問題,而不是“買了啥,推薦啥”或者“推薦的商品與客戶無關聯”,促進用戶購買。
知識圖譜用于追加銷售和交叉銷售策略,根據個人購買行為和人口群體的熱門購買趨勢推薦產品。
阿里電商認知圖譜AliCoCo支持了阿里巴巴集團核心電商的多個業務應用。通過對用戶需求的統計,相較于之前的商品管理體系,AliCoCo對于搜索中用戶需求的覆蓋率從35%提升至75%。
第三,金融風控。金融證券領域知識圖譜的應用具有廣覆蓋、深加工、淺表達等特征,為信貸、理財、保險、支付等領域實現輿情監控、知識發現、推理決策等提供了堅實支撐。
另一方面,銀行以及其他持牌金融公司、助貸機構、人工智能公司等開始將知識圖譜應用于風險控制,特別是識別團伙欺詐,也應用于小微企業信貸、消費信貸、信用卡申請等反欺詐業務,還可以用來識別會計造假。知識圖譜的推理能力和可解釋性,在金融場景中具有天然的優勢。
艾瑞咨詢報告認為,傳統風控系統逐漸力有不逮,而應用機器學習算法和知識圖譜的智能風控系統在風險識別能力和大規模運算方面具有突出優勢,逐漸成為金融領域風控反欺詐的主要手段。
第四,安保與醫療。知識圖譜從大數據中深度挖掘關聯關系,可準實時分析多至千億級海量關系數據,轉化為關系圖譜數據,支撐公安機關展開情報研判分析、犯罪團伙跟蹤以及重大事情預警等。
醫療機構及互聯網平臺產生了大量的醫療數據,形成了豐富的醫療知識體系。利用識圖譜,有助于實現醫學文獻、臨床試檢方案、基因組數據、患者病歷等各類知識的關聯與整合,進而為醫生的臨床診斷提供輔助決策,通過各類應用平臺為公眾提供高質量的醫療信息服務。
平安智慧醫療推出的中文醫療知識圖譜,集成了60萬醫學概念、530萬醫學關系、千萬醫學證據,覆蓋核心醫學概念,并基于此開發多個智能服務應用場景。
第五,能源。華為云知識計算解決方案幫助企業通過構建知識平臺打造企業統一的知識體系。中國石油與華為云基于此平臺,打造了“中國石油認知計算平臺”,在對地震資料進行自動拾取的實際應用中,基于不足5%的樣本基礎,實現了超過94%的預測精度,并將原2人月的工作量縮短至7 小時自動完成。
雖然知識圖譜應用行業和場景不斷擴大,但是這只是知識圖譜萬里長征跨出的第一步,需要不斷發展專業的知識圖譜平臺和圖數據庫,需要專業知識的積累,更需要專業AI技術與專業領域人才。
所幸的是,中國在知識圖譜等認知智能技術發展上,與發達國家同步,在應用上更是走到前面。
科技媒體·企業演化科學·戰略托管綜合體
本文作者系趙滿滿
尋求報道,以及對相關話題感興趣,請評論區留言
本文來自微信公眾號“中智觀察”(ID:Hapiweb-soft6),作者:海比研究院,36氪經授權發布。