档案大数据概念与涵义

2020-01-10 09:36:39 融安特

当今世界快速发展将我们带入了一个全新的时代。物联网、云计算、移动互联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,成为巨大的数据来源。伴随信息处理的快速提升,人类社会的“大数据”时代正扑面而来,大数据已经成为当前学术界和产业界的研究热点,正影响着人们日常生活方式、工作习惯及思考模式。

纵观档案界,智慧档案这一理念的提出得益于大数据技术的迅猛发展,档案数据仓库在大数据风暴中的作用日益凸显,纵观全国,各级档案部门在数字档案馆和档案数字化建设中不断取得成果,其发展方向已经自觉或不自觉地朝着大数据迈近。“档案大数据”这一概念随着智慧档案的提出应运而生,它与未来档案现代化建设是相辅相成、相互促进的。数字档案馆和档案数字化的建设将为档案大数据提供数据基础和实践经验,反过来,档案大数据的思路也将指引着档案工作的繁荣和发展,使档案工作更趋科学合理,更具预见性和可持续性。

一、大数据

大数据又称海量数据,数据量级超越传统理念达到前所未见得程度,一般指的是所涉及的数据量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成有效的能够用于决策的信息。面对这种超大规模的数据需要更适合的、更高效的、更科学的、更被普遍应用的工具来处理。与传统数据相比,大数据的特点主要体现在数据量体量庞大、数据类型丰富繁多、数据来源广泛等几个方面。根据业界分析调研机构IDC的定义,大数据具有 VOLUME(容量)、 VARIETY(多样)、 VELOCITY(速度)、 VALUE(价值)四大特征。

1、容量(Volume)

既数据体量庞大,起步达到PB级别,具权威机构预测,到2020年,全球数据量将扩大至少50倍以上,而且这种趋势本身也在呈现上升式的变化,单一数据集的规模范围已经突破TB达到PB以上量级。大容量的同时数据类别也呈现出非结构化的特点,非结构化数据的增长速度比结构化数据快10倍以上。

2、多样(Variety)

多样性体现在结构化数据、半结构化数据和非结构化数据。数据多样性的产生是由于新型多结构数据,具体体现在文字、音频、视频、图片、网络日志地理信息、手机通话信息以及各种传感装置采集的各式各样的分析数据。

3、速度( Velocity)

速度特性体现在大数据在被创建、复制、移动及删除的表现反应。面对海量的、多结构的数据,大数据本身必须具有速度性作为保障,从而降低数据的管理,提高用户的操作体验,降低设备的消耗成本,以高速的效率进行深度的数据挖掘。

4、价值(Value)

价值性决定了海量的多结构数据的意义,从大量不相关的数据中检索弥足珍贵的信息是大数据管理的目的。可以理解为沙里淘金大海捞针,有价值信息的存在是海量数据聚集的目的,价值性决定了大数据具备作为信息预测的可能。


电话咨询
在线地图
QQ客服