檔案大數據概念與涵義
當今世界快速發展將我們帶入了一個全新的時代。物聯網、云計算、移動互聯網、手機、平板電腦、PC以及遍布地球各個角落的各種各樣的傳感器,成為巨大的數據來源。伴隨信息處理的快速提升,人類社會的“大數據”時代正撲面而來,大數據已經成為當前學術界和產業界的研究熱點,正影響著人們日常生活方式、工作習慣及思考模式。
縱觀檔案界,智慧檔案這一理念的提出得益于大數據技術的迅猛發展,檔案數據倉庫在大數據風暴中的作用日益凸顯,縱觀全國,各級檔案部門在數字檔案館和檔案數字化建設中不斷取得成果,其發展方向已經自覺或不自覺地朝著大數據邁近。“檔案大數據”這一概念隨著智慧檔案的提出應運而生,它與未來檔案現代化建設是相輔相成、相互促進的。數字檔案館和檔案數字化的建設將為檔案大數據提供數據基礎和實踐經驗,反過來,檔案大數據的思路也將指引著檔案工作的繁榮和發展,使檔案工作更趨科學合理,更具預見性和可持續性。
一、大數據
大數據又稱海量數據,數據量級超越傳統理念達到前所未見得程度,一般指的是所涉及的數據量規模巨大到無法通過目前主流軟件工具,在合理時間內達到擷取、管理、處理、并整理成有效的能夠用于決策的信息。面對這種超大規模的數據需要更適合的、更高效的、更科學的、更被普遍應用的工具來處理。與傳統數據相比,大數據的特點主要體現在數據量體量龐大、數據類型豐富繁多、數據來源廣泛等幾個方面。根據業界分析調研機構IDC的定義,大數據具有 VOLUME(容量)、 VARIETY(多樣)、 VELOCITY(速度)、 VALUE(價值)四大特征。
1、容量(Volume)
既數據體量龐大,起步達到PB級別,具權威機構預測,到2020年,全球數據量將擴大至少50倍以上,而且這種趨勢本身也在呈現上升式的變化,單一數據集的規模范圍已經突破TB達到PB以上量級。大容量的同時數據類別也呈現出非結構化的特點,非結構化數據的增長速度比結構化數據快10倍以上。
2、多樣(Variety)
多樣性體現在結構化數據、半結構化數據和非結構化數據。數據多樣性的產生是由于新型多結構數據,具體體現在文字、音頻、視頻、圖片、網絡日志地理信息、手機通話信息以及各種傳感裝置采集的各式各樣的分析數據。
3、速度( Velocity)
速度特性體現在大數據在被創建、復制、移動及刪除的表現反應。面對海量的、多結構的數據,大數據本身必須具有速度性作為保障,從而降低數據的管理,提高用戶的操作體驗,降低設備的消耗成本,以高速的效率進行深度的數據挖掘。
4、價值(Value)
價值性決定了海量的多結構數據的意義,從大量不相關的數據中檢索彌足珍貴的信息是大數據管理的目的。可以理解為沙里淘金大海撈針,有價值信息的存在是海量數據聚集的目的,價值性決定了大數據具備作為信息預測的可能。
