數(shù)據(jù)收集是進(jìn)行大數(shù)據(jù)處理的前提和必要條件,它在整個過程中占有重要地位。今天小編將為大家介紹三種大數(shù)據(jù)數(shù)據(jù)采集的形式:系統(tǒng)日志采集法、網(wǎng)絡(luò)數(shù)據(jù)采集法和其它數(shù)據(jù)采集法。希望能夠增加大家對大數(shù)據(jù)數(shù)據(jù)采集有哪幾種形式的了解。
數(shù)據(jù)分析
系統(tǒng)日志是記錄系統(tǒng)中硬件、軟件和系統(tǒng)問題的信息,也可以監(jiān)控系統(tǒng)中發(fā)生的事件。用戶可以通過它檢查錯誤的原因,或者找到攻擊者留下的痕跡。系統(tǒng)日志包括系統(tǒng)日志、應(yīng)用日志和安全日志。
大數(shù)據(jù)平臺和開源Hadoop平臺產(chǎn)生了大量高價值系統(tǒng)日志信息,如何收集成為研究者的研究熱點。目前,基于Hadoop平臺開發(fā)的Chukwa、Cloudera的Flume和Facebook的Scribe(李連寧、2016)成為系統(tǒng)日志收集法的典范。目前,這種采集技術(shù)可以每秒傳輸數(shù)百MB的日志數(shù)據(jù)信息,滿足當(dāng)前人們對信息速度的需求。一般來說,與我們有關(guān)的不是這樣的收集法,而是網(wǎng)絡(luò)數(shù)據(jù)收集法。
做自然語言的同學(xué)可能對這一點有很深的感觸,除了現(xiàn)在已經(jīng)存在的公開數(shù)據(jù)集,用于日常算法研究外,有時為了滿足項目的實際需求,還需要收集和保存現(xiàn)實網(wǎng)頁的數(shù)據(jù)。目前,收集網(wǎng)絡(luò)數(shù)據(jù)有兩種方法:API和網(wǎng)絡(luò)爬蟲類。
API又稱應(yīng)用接口,是網(wǎng)站管理者為用戶創(chuàng)建的程序接口。這種接口可以阻擋網(wǎng)站基礎(chǔ)的復(fù)雜算法,只需簡單調(diào)用即可實現(xiàn)數(shù)據(jù)的請求功能。目前,主流的社交媒體平臺,如新浪微博、百度貼吧和臉書等,都提供應(yīng)用編程接口服務(wù),可以在官方網(wǎng)站開放平臺上獲得相關(guān)的DEMO。但是,API技術(shù)最終限于平臺開發(fā)者,為了減少網(wǎng)站(平臺)的負(fù)荷,一般平臺限制每天的接口調(diào)用上限,給我們帶來很大的不便。因此,我們通常采用第二種方法。
網(wǎng)絡(luò)爬行動物(也稱為網(wǎng)絡(luò)蜘蛛、網(wǎng)絡(luò)機(jī)器人,在FOFA社區(qū)之間,經(jīng)常被稱為網(wǎng)絡(luò)追蹤者是根據(jù)一定的規(guī)則自動捕獲萬維網(wǎng)絡(luò)信息的程序和腳本。另外,不怎么使用的名字有螞蟻、自動索引、模擬程序和蠕蟲。最常見的爬蟲類是我們經(jīng)常使用的搜索引擎,如百度、360搜索等。這種爬蟲統(tǒng)稱為通用爬蟲,無條件收集所有網(wǎng)頁。
給爬蟲初始URL,爬蟲在提取和保存網(wǎng)頁所需的資源的同時,提取網(wǎng)站所存在的其他網(wǎng)站鏈接,發(fā)送請求,接受網(wǎng)站的響應(yīng),再次分析網(wǎng)頁,提取所需的資源并保存,提取網(wǎng)頁所需的資源當(dāng)然,為了滿足更多的需求,多線程爬蟲類也誕生了主題爬蟲類。多線程爬蟲在多線程的同時執(zhí)行采集任務(wù),一般來說,數(shù)據(jù)采集數(shù)據(jù)會增加數(shù)倍。主題爬蟲類與通用爬蟲類完全相反,通過一定的戰(zhàn)略過濾與主題(收集任務(wù))無關(guān)的網(wǎng)頁信息,只留下必要的數(shù)據(jù)。這可以大大降低與數(shù)據(jù)無關(guān)的數(shù)據(jù)稀疏問題。
其他采集法是指對科學(xué)研究院、企業(yè)政府等有機(jī)密信息,如何保證數(shù)據(jù)的安全傳遞?可采用系統(tǒng)的特定端口,進(jìn)行數(shù)據(jù)傳輸任務(wù),減少數(shù)據(jù)泄露的風(fēng)險。
以上是小編介紹的大數(shù)據(jù)數(shù)據(jù)采集有哪幾種形式的相關(guān)內(nèi)容。大數(shù)據(jù)采集技術(shù)是大數(shù)據(jù)技術(shù)的開始,好的開始是成功的一半,因此在進(jìn)行數(shù)據(jù)采集時必須慎重選擇方法。特別是爬蟲類技術(shù),主題爬蟲類對大部分?jǐn)?shù)據(jù)采集任務(wù)來說應(yīng)該是一個好方法,可以深入研究。
[免責(zé)聲明]
文章標(biāo)題: 大數(shù)據(jù)數(shù)據(jù)采集有哪幾種形式?
文章內(nèi)容為網(wǎng)站編輯整理發(fā)布,僅供學(xué)習(xí)與參考,不代表本網(wǎng)站贊同其觀點和對其真實性負(fù)責(zé)。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時溝通。發(fā)送郵件至36dianping@36kr.com,我們會在3個工作日內(nèi)處理。