企業 CDP 全域用戶關聯數據體系建設指南

神策數據

+ 關注

2023-04-11 18:40

966次閱讀

現階段，許多企業嘗試落地 CDP，但卻很難在短期內看到應有的 ROI 成效，初始投入與后期產出不對稱，這嚴重打擊了企業建設 CDP 的信心。在中國數據市場，企業 CDP 項目的重要關注點聚焦在數據治理上，致力于通過構建 CDP，打破數據割裂、上下游系統數據口徑不一致、數據污染等困境，統一用戶數據標識是企業 CDP 數據體系建設的關鍵問題。

神策數據《CDP 全域用戶關聯數據體系建設與實踐》白皮書中提到，企業要想真正落地 CDP 項目并產生業務價值，其用戶數據體系建設的終極目標是全域用戶的標識唯一化，即把來自不同渠道、生態、業務系統的用戶標識為同一個對象。本文將詳細介紹企業如何通過全域用戶關聯實現用戶標識唯一化，整體可概括為以下五個步驟。

一、上下游業務系統數據現狀盤點

如何從零開始開展 CDP 的用戶數據基礎建設？企業的首要任務是理清 CDP 上下游的數據情況，以用戶為主體梳理數據應用場景，比如業務數據如何收集、用戶數據在什么情況下輸出、用戶觸達場景有哪些等。全域用戶關聯作為 CDP 系統的基礎能力支撐，會對上游數據的收集以及下游業務系統造成影響，所以在方案設計之初需要盡可能對上下游相關的數據現狀進行盤點。

典型的數據現狀盤點流程包括：

1、數據源梳理：梳理各業務線涉及到的業務系統。

2、用戶主體 ID 梳理：梳理各業務系統中用于標記用戶主體和數據相關的 ID，比如設備 ID、企微 ID、Union ID、Open ID、Cookie ID 等。

3、用戶屬性梳理：梳理各業務系統中用戶標識 ID 對應的數據屬性，業務 ID 對應的用戶業務屬性有卡號、身份、微信號、手機號等。

4、識別用戶標識數據在源端存儲的質量：例如在數據梳理的過程會發現一個手機號對應多個證件號，這時候需要對數據源產生的原因進行分析，找到異常數據產生的原因，如何在用戶關聯過程中處理。

5、ID 應用場景梳理：梳理圍繞 CDP 應用的整個業務流程中，涉及用戶 ID 應用的典型場景，比如 CDP 全域數據接入場景、用戶分群數據輸出場景等。

二、全域用戶 ID 關聯方案設計

輸出用戶 ID 關聯方案的首要步驟是明確各業務線中哪些 ID 參與用戶的關聯，并確定 ID 的優先級、數量、父節點等信息。

1、ID 優先級：優先級的設定是為了解決當一條數據中有多個 ID，又無法關聯時，數據歸屬的問題。按照設定，數據會歸屬優先級更高的 ID 所對應的用戶。

2、業務唯一 ID：系統中唯一標識一個用戶的 ID 類型，其優先級最高。以電商業務為例，用戶的登錄 ID 由于和用戶購物等行為直接產生關聯且可以通過很多途徑獲取到，往往可以作為「業務唯一 ID」來定義。

3、數量：取決于實際業務中一個用戶可以擁有單個還是多個該類型的 ID，可以用來校驗關聯關系是否符合規則。

4、父節點：在一些業務生態中，ID 之間存在著父子關系。父節點的定義可以用于解綁時一并解綁子節點，比如在微信生態中，Union ID 是 Open ID 的父節點，如果要將 Union ID 進行解綁，則附屬的所有 Open ID 也將隨之被解綁掉。

完整梳理 ID 之后，就可以針對性地采用埋點、ETL 等方式，完成用戶關聯的持續落地了。通俗來講，就是明確將哪些業務系統中的哪些數據提取出來再導入 CDP 系統中。業務中每一個事件對應的屬性和涉及的 ID 都需要在埋點和 ETL 方案中體現，可以大大減少技術人員的理解成本。

三、用戶數據關聯的回溯修復

完成全域用戶關聯后，會在用戶數據中發現歷史關聯錯誤的數據。根據新的關聯結果，需要對這些錯誤數據進行解綁并綁定至正確的歸屬用戶，重新完善用戶全生命周期畫像，從而提升 CDP 的用戶數據質量。

舉例來說，在用戶關聯過程中，基于同一個用戶的唯一昵稱「A」同時對應兩個用戶「張三 2020 年注冊」「李四 2021 年注冊」，由此識別為同一個用戶，需要對重復關聯數據進行合并。在這種情況下，可以參考最早觸達用戶的時間來完成用戶屬性的修復:「張三」2020 年注冊早于「李四」2021 年注冊，因此選擇將數據關聯至「張三」下。

同理，當歷史數據中存在其他類似的「唯一用戶 ID」并與當前產生沖突時，需要根據時間先后順序，將兩個「唯一用戶 ID」進行合并，完成數據關聯的回溯。

四、用戶關聯屬性的沖突處理

企業在進行用戶 ID 關聯的過程中，會遇到用戶關聯同類屬性沖突的情況，在進行屬性合并的過程中，可以遵循以下四個規則:

第一，預置規則：特殊類型屬性使用固定的預置規則來處理，比如按照訪問時間先后順序進行屬性合并。

第二，缺省規則：默認以數據生成最早的時間為準，如果沒有數據生成時間的相關字段就按照 ID 的優先級進行合并。

第三，設置基準規則：設置某個來源的數據為基準，例如相比 CRM 銷售人員手動錄入的信息數據和業務系統自動獲取的訂單數據，訂單數據的準確性和穩定性顯然更高，則選擇以業務系統訂單數據為基準。

第四，設置首末次規則：以最先接入數據的屬性為準或者保持最末次的屬性。

日常業務中會出現當前用戶關聯信息錯誤的情況，比如，用戶更換手機導致設備 ID 變更等，這種情況就需要將現有的綁定關系解綁；另一方面，我們也發現，曾經認為某個 ID 和用戶不相關，但后來經過人工等方式確認兩者是相關的，這種情況就需要能夠在自動關聯未成功的情況下，以手動的方式將一個獨立 ID 關聯到現有用戶上去。