干貨分享|基于實時圖技術的信用卡申請反欺詐應用
本文整理自普適智能 CTO 劉元弘在《圖創價值·圖+AI在金融行業的應用實踐》的現場分享,一起來看看圖數據庫在信用卡反欺詐場景的應用與優勢。
常見的信用卡欺詐風險主要包括欺詐申請、偽卡盜刷、套現等。其中,信用卡申請欺詐通常指犯罪分子使用不正當手段進行信用卡申請、為獲得信用額度偽造申請信息、冒用他人信息申請信用卡,或申請人信息真實但惡意騙取信用額度不還。
在信用卡業務實踐發展過程中,欺詐申請的金額損失往往在欺詐損失案件中占據了非常大的比例,因此欺詐申請識別,是所有信用卡發卡機構風險管理的一個重要組成部分。
隨著近些年金融線上化和渠道化的發展,信用卡申請欺詐逐漸呈現出兩大發展趨勢:
一個是犯罪分子集團化,越來越多欺詐是有組織的犯罪團伙行為,團伙案件對銀行造成的金額損失大、而且盜用信息還對銀行聲譽造成較大范圍影響;另一個是欺詐手段專業化,犯罪團伙的欺詐手段越來越專業化,為了保證申請提交率和申請通過率,在批量申請時,對申請信息、申請設備等進行專業包裝,加大了銀行反欺詐的難度。
在新發卡貸前審批反欺詐策略中,常見的做法是查詢申請人的人行征信、工商信息、學歷信息等,在自動化審批環節對一部分還款能力和還款意愿較好或較差的申請人進行通過或拒絕,剩下的部分流轉至人工審批。常見的流程如下:
在這個過程中,金融機構往往需要處理大量的申請信息和用戶數據,同時還涉及到人工審核效率及準確度的問題,因此需要我們搭建一套更智能且具有實時性的智能反欺詐系統來幫助金融機構實現更高效、更精確的新發卡貸前審批。
為什么用圖技術進行新發卡反欺詐
基于業務背景的介紹,傳統的信用卡審批流程中所使用的數據主要是統計學原理的規則或者模型,更多的是針對獨立個體的分析挖掘,但是當個體的特征稀疏時,則難以對個體做出全面有效的判斷。
特別是現在隨著欺詐手段呈現多樣化、專業化、團體化等特征,傳統的專家規則和機器學習模型對通過多層關系進行掩飾的復雜欺詐手段或者團伙欺詐難以識別。
另外,由于目前發卡、運營、催收等各個環節的數據之間缺少必要的邏輯視圖和交叉校驗,容易導致金融機構信息割裂,沒有統一的框架和視圖描述客戶的信用卡業務全生命周期,使得風控決策/人工審核時缺少必要的數據支撐。
而圖技術具有將實體間的復雜關系直觀展示并納入模型學習的特性,能夠為信用卡業務真實性審核提供更多維度的分析技術手段,恰好能彌補剛剛提到的傳統反欺詐手段的這些短板。
圖在新發卡反欺詐場景中的應用流程
首先是用戶發起進件流程,用戶申請進件后信息會進入到進件中心,進入進件中心的同時,系統會做兩個事情,一個是走實時流,另一個是離線流。
- 實時流
如果按照傳統走批的數據處理方式,可能第二天才會發現一些欺詐或作弊行為。像我們之前碰到有個團伙10分鐘之內提交了100多張新發卡申請,通過實時流是有可能在他們申請前幾張的時候就把它攔截下來,這就是實時的必要性。
走實時流,我們會讓進件中心把數據寫入到 kafka 里,然后通過一套實時引擎去監聽kafka,一旦監聽到有用戶提交進件,接下來就用我們的圖平臺快速地配置各種各樣的規則和指標,快速地用圖引擎掃一遍所有的指標來看看有沒有命中,并把結果寫入到消息隊列中,然后提供給下游的一些決策系統進行消費,同時會提供 API 給其他業務部門進行調用,幫助業務人員進行關聯決策。
- 離線流
除了走實時通道,我們也使用離線數據處理通道,就是下面的流程會進入到底層數倉,然后走Hive去進行T+1的離線構圖,主要是防止實時流程中存在數據沖突,我們可以通過離線進行校驗,之后再去進行整體更新。
所以我們實際在幫客戶做圖的時候,并不是靜態圖,或者每天更新一次的一個流程。我們一般會起多個流程,包括實時流,各種全量的離線流,去保證我們圖庫數據處理的及時性和有效性。
如何構建新發卡欺詐的圖譜
首先是本體模型,里面分為「點」代表的實體類型和「邊」代表的關系類型。實體類型包含個人、信用卡申請進件、公司、地址、聯系電話、設備號、地址、網格化坐標、車牌、營銷員、代理人等實體;關系類型則主要包含父母、子女、擔保人、家庭住址等關系的本體模型。
我們構建圖譜的數據來源主要是多個業務線的客戶數據,以及客戶標簽數據,另外包含一些外部數據。擁有豐富的數據源,一方面提高網絡的關聯程度,另一方面豐富實體的屬性,能夠為關系網絡特征挖掘提供良好的數據基礎。
利用圖技術的反欺詐應用
我們常用的圖的反欺詐分析主要通過四大類型完成,包含圖規則校驗、圖指標分析、社群分析和圖機器學習。
一、圖規則校驗 所謂“圖規則”本質上是一段判定的邏輯,這段邏輯是基于本體模型構建一個復雜圖的拓撲結構來進行表示和使用。業務可以使用圖規則功能,快速實現復雜關聯欺詐邏輯的可視化開發,校驗申請人提供的信息和數據庫中數據是否一致或不一致。
以下圖為例,我們看到圖1這個人和另外一個人是關聯的,它們同時關聯同一個電話和工作地址,所以我們就可以去構建這種圖的規則,然后去做一些規則校驗。比如圖1可能表示工作地址相同,電話是相同的,代表他填寫的信息是有效的。
再看圖2,右邊紅色的點代表一個人,這個人申請了一張信用卡,他填寫資料后又拉出了一個地址,地址的條件數量大于等于2,也就是這個人一張申請卡,卻存在兩個不同的地址,這對風控來說也是比較有效的指標。
能把圖規則做好,尤其是在銀行,重點在于兩個數據維度,一個是企業的維度,另一個是地址的維度,但是金融用戶一般有個痛點,就是每個人填寫信息時,每次填寫的地址不一定是一樣的,以前很多引擎沒辦法準確判斷這兩個地址是否是同一個。
為了強化反欺詐引擎的效果,在圖規則引擎之中引入了文本相似度算子,我們早期做過一些NLP的東西,所以我們把一些NLP尤其是關于地址對齊和企業名稱對齊的類型,構建了自己的算法,把這個算法加入到了模型中,它就可以配置一些更有意思的東西,比如:我個人關聯的地址,關聯的同事A、同事B、同事C等等,我們的地址可以填的不一樣,有的填了路,有的沒有填路,有的填了區,有的沒填區,其實這個很常見的,那我們就可以把所有填寫不同的地址聚合到一塊,去構建一些高質量的規則,幫助業務構建更強大的欺詐校驗能力。
地址和企業對齊準確率經過大型股份制銀行的業務校驗,準確率在98%以上。
二、圖指標分析
圖指標其實和原本的指標體系是完全一樣的,只是構建這個指標時會有幾個特殊點,通過維度、標簽、客群。邏輯就是先構建一個有效的關聯性,常用的一些構建關聯性的維度包括:同一單位、同一家庭、同一設備、同一LBS、同一聯系方式、同一推薦人、同一親屬等等,這就是我們說的關系維度。
我們會在關系維度上增加一些標簽,比如:用左邊和右邊關聯放到一塊,我們就可以構建成一個有效的規則。
舉例:
「同一單位」(左)關聯出的人在「黑名單」(右)的一個數目
「同一家庭」(左)關聯出了「申請被拒絕」(右)的情況
「同一設備」(左)關聯出其他人「逾期」(右)的情況
我們就可以把這些信息全部組合起來,結合我們自己的一個考慮,用維度關聯右邊這種常用的標簽和指標,構建一些有效的規則和邏輯,從而識別資料異常的申請人,或申請人關聯的特定客群。
我們在用圖的過程中,規則是全局的,需要有業務經驗,所以這種方式還是有缺陷的。我們常用的規則是強關聯關系的維度,比如:「電話設備」,很難出現一個電話被很多人使用的情況。但在平時采集的數據是有很多的弱關聯,也是很有效的維度,比如:「WiFi 設備」,幾個人同時接入到相同的 WiFi設備,并不能代表他們之間有強關系,但是起碼代表有弱關聯。可能在一個辦公樓,也可能住的是同一個地方。再比如說「IP」也是很典型的弱關聯,還有很多其他的弱關聯,包括同一個單位,并不能夠代表你們就一定認識,尤其是對一些規模比較大的單位,這個時候我們就可以用圖算法,通過平臺可視化界面構建規則和圖指標。
三、社群分析(Louvain)
圖算法的核心主要是幫助我們整合一些弱關聯,尤其是有像Louvain 這種,在我們緊密相連的大圖中,就可以拿 Louvain 去切一些客戶圈和客戶之間的社群,比如:有10個人,不可能10個人都是單線相連的,A認識B,B認識C,C認識D,Louvain 切出的結果基本上就是A認識B,B認識C,然后A也認識C,這才是Louvain里面跑出來的結果,就可以通過這個算法,再加上邊的權重,比如:家庭親屬的關聯性設成1,同一IP設置成0.1,再去進行社群的切分,就可以得到業務想要的社區結果。
既然我們用了社區切分算法去得到一個好的社區,社區里面的人必然是緊密關聯的,就可以用社區做一些有意思的指標,比如:整個社區進入黑名單的概率是多少,就是所謂的黑名單的濃度,逾期的濃度,業務通過計算不同維度下的客群指標,就可以挖掘可疑的個體。
四、圖機器學習
首先圖可以幫助我們機器學習去更快速構建特征。在沒有做機器學習之前,傳統的做法是需要人力把很多特征整合成一張寬表,再傳入到建模平臺。但是圖從本質上來說,就是連接了一張又一張的表,這種表的關聯性完全可以通過圖進行整合,再去拉取特征(Feature)的時候就可以用前面說的圖指標,放到機器學習里面指標就是一個特征(比如:指標是某個人的逾期率為0.6,那0.6是一個數值,但它放到對應的機器學習就是一個特征),拉取的指標就可以作為其中一個特征濃度進行訓練。
對于我們客戶行為來說,或者客戶特征特別稀疏的時候。很多企業都會維護潛在客戶名單,既然是潛在客戶,就可能存在不知道他的姓名,或者說只知道他碎片化的信息,可能他只是點了一個廣告或者一個鏈接,但實際上我們獲取到了他的IP,就可以通過圖機器學習平臺,挖掘有效的特征,在決策系統上部署策略,運用于新發卡實時審批環節。 另外我們還在做一些有意思的事情,我們把機器學習的一些結果放回圖里去看。就拿預測VIP來說,模型得出大于0.5,你會認為它是VIP,小于0.5你認為它不是 VIP,如果我們再度回圖里,我們給是否是VIP這樣的概率,增加一個屬性,預測結果放回圖里看,就可以識別高概率的VIP客群,高可能的關聯圈,這也就是下期我們要分享的【潛在VIP挖掘】的場景應用。
普適的圖智能平臺在某股份制銀行上線后取得了不錯的成效。使用圖技術,進行實時構網和實時圖指標計算,優化決策系統。風控效果提升近3倍,預計每年挽損1000萬以上。