中科大腦知識圖譜平臺建設及業務實踐
“為了支持城市復雜場景下各類需求,中科大腦知識圖譜團隊設計開發了一套包含本體可視化設計、數據映射、數據抽取、數據寫入、圖數據探索的一體化平臺,而本文則詳細介紹了他們的業務背景、技術選型、平臺建設等內容。”
01 背景介紹
中科大腦作為一家城市級的數字資產運營商,一方面要對各種類型的數據進行高效存儲,另一方面面臨如何將各類數據充分利用的問題,傳統 NoSQL、SQL 不能完全滿足數據的存儲和利用,以圖數據庫為基礎的知識圖譜一定程度上可以解決這些問題,知識圖譜組件(KBU)是腦庫城市大腦產品的核心部件。
中科大腦內部對知識圖譜的需求,總體來說有以下 3 方面:
- 政務知識圖譜,將政策法規、證件材料、事項流程、組織架構等信息納入知識圖譜。目前建設了面向公安戶政、電子政務領域事項辦理知識圖譜,針對不同的職能部門建設有不同的知識圖譜,提升了服務效率和質量。
- 資產設備管理圖譜,對城市中大量公共設施、不動產、物聯網設備等建立知識圖譜,形成聯動管理與運維。
- 事理知識圖譜,對城市重大事件、突發事件、集中投訴事件等建立事理圖譜,包括事件的時間、地點、主體及熱度等,發現事件間的關聯關系和演化規律,提供決策支持。 實踐中,不同板塊的知識圖譜間并非完全孤立,而是根據應用需求進行融合,充分發揮圖譜的關系鏈接特性,將城市本體要素打通,實現聯動,解決數據的關聯存儲和挖掘。
02 圖數據庫選型
在數據高度結構化、一致性強場景下,一般選擇使用傳統的關系型數據庫;在數據具有龐大潛在關聯場景下,圖數據存儲及基于此的知識圖譜技術將會是合理的選擇。 調研中發現,與關系數據庫或其他 NoSQL 數據庫相比,圖數據庫的數據模型也更加簡單,更具表現力。圖數據庫在社交網絡、金融風控、個性化推薦、網絡安全等領域應用廣泛。 我們在圖數據庫選型方面主要考慮點: 1)功能齊全、性能強大;2)項目開源,支持靈活的二次開發;3)安全可靠,國產優先;
中科大腦早起進行了一些性能和功能對比,也參考美團、騰訊相關測評,從測試結果看 Nebula Graph 在數據導入、實時寫入及多跳查詢方面性能均優于競品。此外,Nebula Graph 社區活躍,對相關 issue 的響應速度快,所以團隊最終選擇了基于 Nebula Graph 作為圖數據庫平臺基礎。
03 知識圖譜構建平臺
知識圖譜構建包括業務規則制定、本體構建、知識抽取、知識融合、數據存儲等流程,往往需要業務專家、工程、算法、項目管理等人員參與配合。有機整合以上環節和分工,將大大減少知識圖譜落地速度,目前尚未有開源產品滿足此需求。為了支持城市復雜場景下各類需求,我們設計開發了一套包含本體可視化設計、數據映射、數據抽取(結構化、非結構化)、數據寫入、圖數據探索的一體化平臺,平臺結構如圖。
- 項目管理
- 本體設計
- 數據抽取
- 圖探索
結構化數據導入和非結構數據化抽取結果將被寫入到 Nebula Graph 數據庫,圖探索可以方便地實現對寫入知識的查詢顯示,同時可以通過知識搜索框直接對點和邊信息進行搜索。構建者更加簡單地實現了知識檢索、探索和聚合。產品功能要點:
- 知識展現,為了能對圖譜有直觀查閱,在圖譜探索階段,加入了自動展示子圖功能,類似 Neo4j中
MATCH (n) RETURN n LIMIT 25)
,主要是通過簡單算法發現圖譜中心點,再由度數來控制從中心點出發的子圖大小,同時防止了展示爆炸。 - 知識搜索,支持點和邊進行模糊匹配,更好地實現知識發現和推薦;
- 知識計算,內置輕量級圖算法,可以對節點出入度、中心度、族群、相似節點類等進行計算。
為了滿足自身產品應用,我們基于 Nebula Graph、Elasticsearch、NetworkX 等底層接口,開發了一系列 API 應用接口,未來我們 API 接口實現也將積極參與到開源中。
04 業務落地
- 智能問答
- 知識指導與決策
- 知識流程推薦
05 合作 & 未來
目前公司腦庫與圖數據庫 Nebula Graph 完成了互操作性測試認證,技術人員積極參與開源社區項目,通過了知識圖譜專家級認證(NGCP)。未來我們持續支持國產數據庫,為社區積極貢獻代碼。
平臺方面在構建階段,將內置圖嵌入、圖學習、GNN 等圖算法、優化大規模圖算法性能,實現構建與應用一體化平臺,為數字資產的深層次挖掘和智能化應用賦能。
以上為中科大腦知識圖譜開發小組帶來的知識圖譜平臺建設和業務實踐方面的分享。