| 企服解答
大數據指無法在一定時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。大數據是一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據庫軟件工具能力范圍的數據集合,具有數據體量巨大、數據類型繁多、價值密度低和處理速度快四大特征。
1、數據體量巨大
伴隨著各種隨身設備、物聯網和云計算、云存儲等技術的發展,人和物的所有軌跡都可以被記錄,數據因此被大量生產出來。
移動互聯網的核心網絡節點是人,不再是網頁,人人都成為數據制造者,短信、微博、照片、錄像都是其數據產品;數據來自無數自動化傳感器、自動記錄設施、生產監測、環境監測、交通監測、安防監測等;來自自動流程記錄,刷卡機、收款機、電子不停車收費系統,互聯網點擊、電話撥號等設施以及各種辦事流程登記等。
大量自動或人工產生的數據通過互聯網聚集到特定地點,包括電信運營商、互聯網運營商、政府、銀行、商場、企業、交通樞紐等機構,形成了大數據之海。
2、數據類型繁多
隨著傳感器、智能設備以及社交協作技術的飛速發展,組織中的數據也變得更加復雜,因為它不僅包含傳統的關系型數據,還包含來自網頁、互聯網日志文件(包括點擊流數據)、搜索索引、社交媒體論壇、電子郵件、文檔、主動和被動系統的傳感器數據等原始、半結構化和非結構化數據。
在大數據時代,數據格式變得越來越多樣,涵蓋了文本、音頻、圖片、視頻、模擬信號等不同的類型;數據來源也越來越多樣,不僅產生于組織內部運作的各個環節,也來自于組織外部。
3、價值密度低
以視頻為例,連續不間斷監控過程中,可能有用的數據僅僅有一兩秒。
4、處理速度快
1秒定律。最后這一點也是和傳統的數據挖掘技術有著本質的不同。物聯網、云計算、移動互聯網、車聯網、手機、平板電腦、PC以及遍布地球各個角落的各種各樣的傳感器,無一不是數據來源或者承載的方式。
| 拓展閱讀
今天我們常說的大數據其實是在2000年后,因為信息交換、信息存儲、信息處理三個方面能力的大幅增長而產生的數據。
1、信息交換
據估算,從1986年到2007年這20年間,地球上每天可以通過既有信息通道交換的信息數量增長了約217倍,這些信息的數字化程度,則從1986年的約20%增長到2007年的約99.9%。在數字化信息爆炸式增長的過程里,每個參與信息交換的節點都可以在短時間內接收并存儲大量數據。
2、信息存儲
全球信息存儲能力大約每3年翻一番。從1986年到2007年這20年間,全球信息存儲能力增加了約120倍,所存儲信息的數字化程度也從1986年的約1%增長到2007年的約94%。1986年時,即便用上我們所有的信息載體、存儲手段,我們也不過能存儲全世界所交換信息的大約1%,而2007年這個數字已經增長到大約16%。信息存儲能力的增加為我們利用大數據提供了近乎無限的想象空間。
3、信息處理
有了海量的信息獲取能力和信息存儲能力,我們也必須有對這些信息進行整理、加工和分析的能力。谷歌、Facebook等公司在數據量逐漸增大的同時,也相應建立了靈活、強大的分布式數據處理集群。
[免責聲明]
文章標題: 什么是大數據,大數據有什么特點
文章內容為網站編輯整理發布,僅供學習與參考,不代表本網站贊同其觀點和對其真實性負責。如涉及作品內容、版權和其它問題,請及時溝通。發送郵件至36dianping@36kr.com,我們會在3個工作日內處理。