| 企服解答
大數據采集方法有:1、實時采集;2、離線采集;3、互聯網采集;4、其它方式采集。
1、實時采集
主要用在考慮流處理的業務場景,在流處理場景,數據采集會成為Kafka的消費者,就像一個水壩一般將上游源源不斷的數據攔截住,然后根據業務場景做對應的處理,之后再寫入到對應的數據存儲中。
2、離線采集
在數據倉庫的語境下,ETL基本上就是數據采集的代表,包括數據的提取(Extract)、轉換(Transform)和加載(Load)。
在轉換的過程中,需要針對具體的業務場景對數據進行治理。
3、互聯網采集
Scribe是Facebook開發的數據(日志)收集系統。又被稱為網頁蜘蛛,網絡機器人,是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本,它支持圖片、音頻、視頻等文件或附件的采集。
4、其它方式采集
對于保密性要求較高的數據,可以通過與數據技術服務商合作,使用特定系統接口等相關方式采集數據。
| 擴展閱讀
大數據,可以理解為是數據的集合。
大數據的顯著特征是:
1、大量化
2、多樣化:不再是單一的文本形式,訂單、日志、音頻,多種多樣。
3、快速化:在海量的數據面前,處理數據的效率有著本質的區別。
4、價值密度低:需要通過強大的算法迅速完成數據的價值提純。
大數據帶來的三大轉變:
1、可以分析更多的數據,有時候甚至可以處理和某個特別現象相關的所有數據,而不是依賴于隨機采樣。
2、對數據更高的精確性可使人們發現更多的細節。
3、對數據的研究不再熱衷于追求精確度、不再熱衷于尋找因果關系,而是事物之間的相關關系。
[免責聲明]
文章標題: 大數據采集方法有哪些
文章內容為網站編輯整理發布,僅供學習與參考,不代表本網站贊同其觀點和對其真實性負責。如涉及作品內容、版權和其它問題,請及時溝通。發送郵件至36dianping@36kr.com,我們會在3個工作日內處理。