什么是變化數據捕獲(CDC)?

美林數據技術股份有限公司
關注
2022-09-20 18:24
610次閱讀
在進行數據ETL過程中,我們經常需要通過周期性的定時調度將業務數據按照T+1的方式同步到數據倉庫中,進行數據分析處理,最終通過BI報表展示給最終用戶,但這種方式實時性較差,用戶往往只能看到昨天的數據,會影響用戶決策的及時性;而如果用戶要近實時的查看報表,則需要將調度周期頻率提高到小時或分鐘,這對整個數據分析系統是個很大的考驗;而上述過程也只適用于數據不斷新增的情況,如果遇到業務數據修改、刪除的過程,則只能每次全量同步覆蓋;在面對上述數據同步過程中數據時效性要求高、歷史數據會變更的問題,我們可以使用變化數據捕獲技術進行數據的實時同步。
什么是變化數據捕獲?
變化數據捕獲 (Change Data Capture,縮寫CDC) 是指識別和捕獲對數據庫中的數據所做的更改(包括數據或數據表的插入、更新、刪除等),然后將這些更改按發生的順序完整記錄下來,并實時通過消息中間件傳送到下游流程或系統的過程。通過這種方式,CDC能夠向數據倉庫提供高效、低延遲的數據傳輸,以便信息被及時轉換并交付給專供分析的應用程序。
CDC具備那些優點呢?
對于各種時間敏感類的數據很適合通過CDC的方式進行同步傳輸,其具備以下好處:
- 通過增量加載或將數據更改實時流式傳輸,而無需周期性調度執行批量加載更新操作。
- CDC實時同步傳輸數據,它利于不停機的數據庫遷移,并支持實時分析,可以幫助用戶根據最新的數據做出更快、更準確的決策。
- CDC最大限度地減少了數據的傳輸網絡流量,適合跨廣域網傳輸數據。
- CDC可以確保多個系統中的數據保持同步。
CDC的使用場景有哪些呢?
CDC技術的應用場景非常廣泛,包括:
- 數據分發:將一個數據源的數據分發給多個下游業務系統,常用于業務解耦、微服務系統。
- 數據采集:面向數據倉庫、數據湖的ETL數據集成,消除數據孤島,便于后續的分析。
- 數據同步:常用于數據備份、容災等。

美林數據技術股份有限公司
+
關注
0