适逢空间大数据爆发性增长,大数据时代已经到来,传统国土、测绘、规划领域的业务正在向空间大数据分析转型,2015年国务院印发《促进大数据发展行动纲要》,指出大数据已经成为国家基础型战略资源,运用大数据推动经济发展、完善社会治理、提升政府服务和监管能力正成为趋势,并要求全面推进我国大数据发展和应用,加快建设数据强国。
空间大数据解决方案主要包括五大步骤:
数据接入存储、空间分析挖掘、时空大数据存储、可视化展现、业务系统集成
1、空间数据接入存储:这里包含了数据清洗、数据质检、转换加载的全过程,通过平台提供的工具、模型和方法,结合实际业务需求,进行数据预处理,目的是抽取出适用于接入到大数据平台分析计算的文件型数据源。也就是说,实现了现有的业务数据库与大数据分析计算库相分离。大数据分析数据源接入类型支持:文件型数据、HDFS分布式文件系统、Hive数据源以及云存储(亚马逊S3存储、微软Azure数据湖);
2、空间分析挖掘:这一步也就是大数据分析场景设计,需要结合数据结构、业务需求,进行分析工具的选择,可以是多种分析工具流程化应用,通过GeoAnalytics Server集群的分布式计算,能够充分利用硬件资源,使传统几小时甚至几天的计算量,在秒级和分钟级完成;
3、时空大数据存储:空间大数据的两个关键能力是分布式计算和分布式存储,在高效计算的能力下,需要配备分布式、高性能的时空大数据存储,ArcGIS Spatiotemporal DataStore通过数据分片存储机制,提供了高效的数据写入和查询检索能力。同时,可以动态增加和减少集群节点,不存在单点故障,保障了业务连续性;
4、可视化展现能力:大数据分析结果可以通过多种方式进行展现和查看,如Portal MapViewer、ArcGIS Pro、Insights等丰富的可视化展现;
5、业务系统集成能力:大数据平台建设是一个系统性工程,解决具体需求难点很重要,突破以往技术瓶颈很重要,但是整个平台的完整性、流程化也同样重要。空间大数据分析结果均以服务形式提供,可以通过Rest API、Python API,高效地实现大数据平台的能力展示。
1、空间数据接入存储:这里包含了数据清洗、数据质检、转换加载的全过程,通过平台提供的工具、模型和方法,结合实际业务需求,进行数据预处理,目的是抽取出适用于接入到大数据平台分析计算的文件型数据源。也就是说,实现了现有的业务数据库与大数据分析计算库相分离。大数据分析数据源接入类型支持:文件型数据、HDFS分布式文件系统、Hive数据源以及云存储(亚马逊S3存储、微软Azure数据湖);
2、空间分析挖掘:这一步也就是大数据分析场景设计,需要结合数据结构、业务需求,进行分析工具的选择,可以是多种分析工具流程化应用,通过GeoAnalytics Server集群的分布式计算,能够充分利用硬件资源,使传统几小时甚至几天的计算量,在秒级和分钟级完成;
3、时空大数据存储:空间大数据的两个关键能力是分布式计算和分布式存储,在高效计算的能力下,需要配备分布式、高性能的时空大数据存储,ArcGIS Spatiotemporal DataStore通过数据分片存储机制,提供了高效的数据写入和查询检索能力。同时,可以动态增加和减少集群节点,不存在单点故障,保障了业务连续性;
4、可视化展现能力:大数据分析结果可以通过多种方式进行展现和查看,如Portal MapViewer、ArcGIS Pro、Insights等丰富的可视化展现;
5、业务系统集成能力:大数据平台建设是一个系统性工程,解决具体需求难点很重要,突破以往技术瓶颈很重要,但是整个平台的完整性、流程化也同样重要。空间大数据分析结果均以服务形式提供,可以通过Rest API、Python API,高效地实现大数据平台的能力展示。