国产精一区二区_午夜视频99_免费白白视频_中文字幕一区免费

悅數圖數據庫:圖 + AI 在金融行業的應用及技術前瞻

Wey
+ 關注
2023-06-01 17:28
1444次閱讀

悅數圖數據庫:圖 + AI 在金融行業的應用及技術前瞻

非常開心有機會跟大家做一個分享。今天的主題是圖技術+ AI 在金融反欺詐領域的應用,我的分享內容與之呼應——就是 Graph 和 AI 結合金融領域的一些案例以及最近我們在做的一些大語言模型及前沿技術工具,讓我們看看每一個場景里這些新技術能給行業帶來什么樣的變化。

隨著金融業務線上化的普及,現在許多用戶會在金融 APP 客戶端上申請信用貸款,然后金融機構的系統里面就會關聯到申請人的一些信息,比如聯系人電話以及工作公司等。首先給大家展示的就是這個線上借貸場景的圖模型,目前比較快速直接的方式是把這個問題以圖的形式去表達,然后就可以去做一些基礎的圖模式匹配。

圖示  描述已自動生成

  • 線上借貸場景的圖模型

另外一個就是用標簽傳播(Label Spread)的方法去解決其他問題。比如說,從一個點開始找到符合條件的單子,然后我發現他用到了另一個設備,這個設備是跟另一個單子共享的——這個信息如果能夠被金融機構以毫秒級的速度獲得的話,不僅可以給領域專家拿來做一些及時的洞察分析,而且可以把它放在線上系統里作為提示風險的一個衡量指標。

img

  • 通過圖查詢語句來搜索群控設備

那隨之而來就有個問題,如果我們標記的高風險數據量不夠的話,怎么能夠提高這種特征風控的效果呢?

這里有另一個方法叫「標簽傳播」(Label Spread)。它其實基本上利用了這個標簽傳播 Label Propagation 的方法,但這個算法目標有一點變化,我們是想要基于少量標注的有高風險的信息在圖上做迭代,類似于標簽傳播,但我們目的并不是找出社區,而是擴展灰度的標簽。這個信息在有時候也是有提示意義的,它可以作為單獨的一個參考,給更復雜的風控系統當作一個考量維度。

圖示  描述已自動生成

除此之外的話還有一些利用到「機器學習」的方法,最直接也是比較傳統的方法,就是純利用數據屬性去做一些分類的模型,然后去定期地識別高風險的交易。當我們把圖屬性也考慮進來,比如說下面的 Demo,我們可以把社區聚集的信息也作為圖特征(Feature)的一部分,我們分出少量的社區,然后把這個社區的數字用 bitwise 的方式把它作為 feature。

我剛剛點了 Louvain 算法之后就可以很清晰地看到有聚集性的集群,不同社區可以使用不同的顏色去區分,這部分信息是可以作為傳統機器學習里邊的特征考量進來的,因為它體現了一定情況下這些實體之間潛在的關聯遠近程度,而這個信息在風險預測領域是非常有用的。

圖示  描述已自動生成

除此之外,比如說我們跑一個比較常見的節點重要度算法—— PageRank 算法,就可以看到這里最重要的就是「設備」 這個點跟很多信息都有關聯,通過 PageRank 值能夠體現節點被連接的程度,這個量化的值作為圖特征也是被證明有效的。

另外還有在機器學習領域比較流行的圖神經網絡(GNN),它是通過一種表示的形式和方法使得圖上鄰接的關系,以及它在這個函數迭代的過程,能夠充分地用點和其他點相鄰的關系以及點上屬性給體現出來,所以跟之前只是用圖特征這幾個維度數字作為輸入相比,能更好地把圖上點與點之間的關系利用起來。

圖示  描述已自動生成

這個例子我之前也分享過,圖左邊的 GNN 模型是一個節點的分類模型,目標就是預測圖上任意一個點是否有風險的分類;右邊就是線上系統最后落地的樣子。我們建立好圖建模信息之后,根據模型里面標注的提示高風險的點進行訓練,模型訓練好之后輸入任意一個子圖,它都可以預測出新的子圖上任意一個點的風險值,所以在一些金融風控的線上系統中每發現一個新的交易或者是一個請求過來,我們就把這個信息插到圖譜上,這樣就可以實時進行欺詐檢測。

第二部分給大家簡單介紹一下圖(Graph)和大語言模型(LLM)的結合點。

圖示  描述已自動生成

這張圖是講現在我們在大語言模型引領和賦能下可以怎樣實現比較智能的圖應用。基本上我把它分為接入層和連接層,當然連接層里邊是可以迭代的,每個小部分還可以內嵌一個大語言模型,然后提示給大語言模型,比如說 Cloud 或者是 OpenAI 的 GPT 的某一個版本,它就可以理解你的意圖,并且直接回答你的問題,也可以根據你的意圖再去調用我們已有的其他服務或者模型。

如果你想要做一些創造性的探索,它就可以幫你調某一個生成模型,比如說你想做某個服務的查詢,那像 OpenAI 有 API 或者是你自己用一些方式就可以去訪問互聯網。有了大語言模型這一層,使得以前比如專門做 NLP 或者翻譯等等很多以前看起來很難被智能化又非常昂貴的領域,現在都有了更多的備選方案。

圖示  描述已自動生成

在這里,圖數據庫可以做什么

首先,我們可以在接入層做一點事情。比如說我們想要在既定的一個大語言模型上做給定領域的知識問答,一個常見的情況就是我們需要額外同步專有的領域知識,但是這個同步是有限制的,不是所有模型都支持,而且有的時候比較昂貴。比如說我們要基于一個 100 兆的 PDF 作為上下文的背景知識來問問題,常見的方式就是把它給分割開來,比如說分成 100 份,然后每份的內容把它總結起來,然后放在 Vector search 里面做一個嵌入。

具體落地來說,比如你問一個問題,他會把這個問題跟你分割的每一個小塊的信息在向量空間里做一個距離的搜尋,取出離得最近的比如三塊的相關上下文內容,而把這個上下文和你這個問題一起丟給大語言模型——這是現在最直接的一個方法,但是它還是有問題。

首先就是這種方法雖然緩解了上下文過多的問題,但是也會丟失部分你要額外增加的背景知識,而且你缺失了節點與節點之間的關聯,是個割裂的知識塊。

其次,我們知道大語言模型有時候的回答不是穩定和可重現的,也不是那么專業可信。舉個例子,如果我們想要做一個在醫院里處理分診問題的智能問答機器人,這種情況下即使用非常智能的大語言模型,哪怕只有萬分之一的可能會給出很奇怪的結果,所帶來的負面影響都是不能承受的——因為它會影響人的生命和健康。這種領域的話,傳統方法其實是利用專業的知識圖譜(Knowledge Graph)基于基本的模式匹配之后給出一個確定的推理。

這時候就可以用圖(Graph) 去解決剛剛提到兩個問題,一個是當我們用 Vector search 去做切分的時候,我們可以利用知識圖譜提供全局視野。另一個就是我們在基于某個非結構化的海量上下文做問答的時候,比如說一個很大的網站和文檔知識庫,同時接入已有的知識圖譜話,就可以提供一個相對來說比較高可信度的推理。

圖示  描述已自動生成

這個圖就是剛剛我提到的知識嵌入(embedding)部分引入圖技術, 另一部分其實大語言模型本身是可以幫助圖的,就是我們去設置一個知識圖譜的時候,知識的梳理其實有時候是涉及到理解力的,這個時候大語言模型是能夠起到幫助作用的,而且有時候能夠替代一些以前必須得要領域專家引入的環節,相對來說更加的高效和自動化。

圖形用戶界面, 應用程序  描述已自動生成

關于前面提到的大語言模型的查詢層,實際上這個領域來說,到今天比較先進的方式是有一些人做了一些封裝,當然你可以自己直接從頭寫代碼去,中間只要插一個 Vector search 就能做 embedding 的事情。但是有些 dirty work 需要你額外去做,其實大家都做重復的一塊。再一個就是有的時候它中間不只是僅僅的去分割然后抽取,其實這是大體的思路,但實際上落地的時候會有很多小的細節的優化途徑,所以這個領域其實有一些抽象的中間層的庫,比較流行的,比如叫 Langchain 的一個項目。

其次還有個項目叫 LLAMA Index,大家感興趣的話可以去了解一下,基本上我給 LLAMA 外部知識圖譜這個概念,它能夠在建立正常的設置參數的過程中,同步地把信息里邊的知識總結出來,然后導入到外部的知識圖譜中去。

電腦螢幕畫面  描述已自動生成

另外,大語言模型也可以幫助很多系統去掉昂貴的人力投入環節。這里邊有幾個方面,一個是在知識抽取的過程中,我受到啟發很有名的項目叫 GraphGPT。基本上我就告訴大語言模型,你現在要幫我做一個知識解析的過程,就是你要從這一段文字里面解析出主謂賓的知識結構。在這個案例里,我給他了一段關于哈利波特的文字,最后他就幫我返回了一個一段 Json,就描述了這一段話里面的三元組的知識。最后我們把它渲染出來,就是一個關于哈利波特的知識圖譜。

悅數圖數據庫:圖 + AI 在金融行業的應用及技術前瞻

這只是一個很小的 demo,但圖譜其實表現地也很自然,大家只要做圖都會想到用大語言模型建立一個知識圖譜,現在跟以前的情況和需要的投入完全不同了。

另外一個大語言模型幫助到圖(Graph)的一個例子是是我另一個項目,這個項目寫得很早,基本上就是你提供給我圖上的 schema 以及你想要做的 query,它就可以幫你實時的去寫圖數據庫的查詢。

當然了,未來這些能力都會嵌在我們「悅數圖數據庫」各種各樣的產品里,也是蠻有意思,大家如果感興趣的話,可以找這個 Demo 玩一下。

圖表, 圖示  描述已自動生成

最后我想說其實圖天然是有可解釋性的,舉個例子,這個是我的另一篇文章里邊的例子,但是這個系統是一個推薦系統。我們知道上個禮拜 OpenAI 有篇文章講他們怎么利用 GPT-4 去為他們的 GPT-2 模型做模型里的可解釋性的分析,還挺酷的,其實利用圖的話也可以做一定的努力。

這個例子,其實就是我們一個很黑盒的推薦系統給出的結果,只要有這個結果里面涉及到實體做一個路徑查詢,我們通過圖數據庫是可以給出一定的可解釋性的,蠻有意思的。

最后一部分給大家介紹 Graph + AI 時代,悅數會打造怎么樣的產品以及能提供什么樣的方法論。

電腦螢幕的截圖  描述已自動生成

首先,悅數圖數據庫是原生分布式的,所以你可以很輕松地實時處理很大的數據集群。因為本質上,悅數圖數據庫的計算與存儲是分離的,它的計算層是無狀態的,這使得我們做了很多不同的計算層,其實對于圖來說都只是另一個異構的查詢或計算層而已,因此它的可擴展性非常好。?

除了內核數據庫之外,悅數還提供了自研的圖算法工具,我們可以在這上面自己實現或者是跑現有內置的各種圖的算法,目前也很受大家歡迎。其中「悅數圖分析」是我們推出的一個圖算法工具,這個是只有企業版本。它主要的優勢是有更高的資源使用率,然后性能也會更好一些。

img

  • 悅數可視化產品中的工作流操作展示

「悅數圖分析」還有一個優勢就是它能跟我們的可視化的工具有非常好的結合。剛才給大家演示的 Demo 就是在悅數的可視化工具里邊實現的。大家可以利用工作流快速去驗證一個想法,之后再在數據規模更大的情況下再進一步去做 Benchmark 或驗證,最后落地到真實的場景。比如這一步取什么樣的數據/怎么取,下一步做什么樣的運算,這一步運算的輸出和另一個運算輸出指向下一個任務后再輸出到哪里,這些過程在悅數的工具體系里都可以拖拉拽、零代碼地實現。

img

  • 基于 AI 工具生成的可視化圖數據集

然后,悅數也在做一些跟 AI 以及 GNN 結合的工具類產品。在這里給大家介紹的一個項目叫「AI Suite」,它其實是一個面向 Graph 和 AI 的一個 high level 的 API,它是個 Python 的庫,通過幾行代碼就可以把悅數圖數據庫上的信息讀到這個圖里邊,然后緊接著像這兩行就直接跑了一個 PageRank 算法,然后 AI 工具就可以自動把它畫出來。

另外還有跟最流行的兩個圖神經網絡(GNN)的框架之一,亞馬遜和紐約大學開源的圖深度學習框架 DGL 合作的項目,你可以很容易地把悅數圖數據庫里面的圖給它序列化成 DGL 的對象,然后在此基礎之上就可以很容易地做,比如說鏈路的預測、節點的分析等等。比如說我訓練好鏈路預測的模型之后,取一個點和跟它沒有相連的點,然后把數據這個喂給模型就可以做預測,比如某個人有可能想要看哪個電影,也是一個蠻有意思的一個工具。

以上就是我分享的內容,感謝大家的時間,歡迎大家關注我們的公眾號和官網,目前悅數圖數據庫在阿里云上支持免費試用,歡迎大家進一步了解,謝謝。

[免責聲明]

原文標題: 悅數圖數據庫:圖 + AI 在金融行業的應用及技術前瞻

本文由作者原創發布于36氪企服點評;未經許可,禁止轉載。

資深作者Wey
Wey
0
杭州悅數科技有限公司
實力廠商
實力廠商
優質服務
優質服務
及時響應
及時響應
立即詢價
相關文章
最新文章
查看更多
關注 36氪企服點評 公眾號
打開微信掃一掃
為您推送企服點評最新內容
消息通知
咨詢入駐
商務合作