作者:empty 页数:189 出版社:empty |
概述大数据时代来临近几年, 大数据(big data) 一词越来越多地被提及, 人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。最早提出大数据时代到来的是全球知名咨询公司麦肯锡,发布了一份报告——《大数据:创新、竞争和生产力的下一个新领域》。报告指出,大数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。报告还提到,“大数据”源于数据生产和收集的能力和速度的大幅提升——由于越来越多的人、设备和传感器通过数字网络连接起来,产生、传送、分享和访问数据的能力也得到彻底变革,绝大多数的大数据,都需要而且可以与地理时空数据融合,而基于位置的地理大数据近几年也呈爆发式的增长, 如:Facebook每天会生成300TB以上与位置相关的日志数据; Twitter的63261个用户30天可以产生约1500万条位置签到记录;淘宝网每天交易数千万笔,约20TB数据,均含有物流位置信息:广州每日新增城市交通运营数据记录达12亿以上,数据量达到150到300GB;上海平安城市监控摄像头超过160万只,每天产生的位置监控数据达PB级:等等。
特别是随着移动互联网的普及,越来越多的用户在不停的“众筹”数据,例如手机信令数据、社交媒体数据、商品交易数据等等。各个企事业单位也都在试图从“数据海洋”中挖掘出“数据宝藏”,以能够更好的为企事业的发展提供指导和决策,更好的适应未来的发展趋势、
1.2.大数据产业大数据己成为国策。2014年,大数据首次写入《政府工作报告》,《报告》指出,要设立新兴产业创业创新平台,在大数据等方面赶超先进,引领未来产业发展。2015年9月,国务院正式印发《促进大数据发展行动纲要》,全面推进我国大数据发展和应用,加快建设数据强国。2016年国务院印发《“十三五”国家信息化规划》,将大数据列为国家重点的发展工程和任务。2017年1月,工信部印发《大数据产业发展规划(2016-2020年),全面部署“十三五”时期大数据产业发展工作,加快建设数据强国,为实现制造强国和网网络强国提供强大地址:北京市朝阳区酒仙桥北路甲10号电子城IT产业园107楼6层,100015网站:www.aupermap.com电话:010-59896655传真:010-59896666E-mail:partner@supermap.comNO.7的产业支撑。大数据是传统产业转型升级的重要驱动力。大数据与传统行业的融合,以及在业务、生产、管理、商业模式等各环节的创新,是大数据与传统产业协同发展的关键。如何应用大数据,成为大数据时代赢得竞争的关键。空间信息是大数据的重要分支,无论是出行大数据、医疗大数据、商业大数据,都或多或少地带有空间信息属性。空间大数据作为大数据产业的重要支撑,其发展趋势成为了专家学者们争相讨论的焦点。国家测绘地理信息局副局长李朋德阐述了空间大数据创新发展的新思路:把“一带一路”沿线和区域的大坐标关联起来,形成基础地理数据和系列的地图成果,用于规划、建设、感知,借助互联网时代的物联网、云计算和大数据技术,时空数据在数字空间串接起来,形成物理世界的虚拟再现,支持混合现实的智能化管理,为地理信息产业发展提供全新的渠道和原动力,
知卓集团创始人陶闯在《2017中国空间大数据产业趋势》报告中指出:物联网、云计算、大数据、人工智能的迅速发展,正在催生一个庞大的空间大数据产业链。他认为,空间大数据是全球政府管理和经济发展的基础设施,随着产业的迅速发展,空间大数据将会在社会经济的各个领域发挥不可替代的重要作用,尤其是在智慧城市和智慧汽车领域。
1.3.大数据时代GIS面临的机遇与挑战移动互联网的高速发展,让我们所谓的大数据80%都与地理位置相关,“位置”连接一切,位置服务无所不在,地理位置大数据应用不断拓展。地理大数据相当于桥梁,精准的空间位置服务可以实时感知道路拥堵、给城市“治病”、控制人类疫情、改变城市生活质量,甚至助力美国总统选举。在2017年4月首届中国空间大数据产业高峰论坛上,中国工程院院士李建成表示,地理空间信息数据是大数据的重要来源之一,这也将成为测绘地理信息产业中的一次重大变革。空间大数据绝不仅仅只是为了更加精准地描述地理实体,更重要的是结合分析功能在海量数据中发现规律和预测趋势。同时,空间大数据虽然数据价值大,但价值密度低因而导致实时分析决策能力不足,如何从中有针对性地提取感兴趣的目标信息,信息量不够丰富,以及时效性差等是应用过程中的巨大挑战。大数据最基本的特征之一就是数据量巨大, 以GIS空间大数据为例, 面临着不断累积的
有逻辑的数据原始素材数据存量和仍然不断增加的数据增量,用户面临的数据量己经从GB级、TB级向PB级发展,但是仍然有大量的用户通过集中的关系型数据库进行存储,面临逐步增加的数据容量,集中式存储模式已经无法承载如此大的数据量,同时也无法为计算分析提供高效的存储保障。越来越多的用户不仅需要接入传统测绘数据类型,如矢量数据和影像数据,还需要接入新型测绘数据类型如倾斜摄影模型、BIM、激光点云等, 同时还需要接入带有地理位置的IT大数据,系统接入的数据类别也越来越多,越来越繁杂。前两种数据类型还有相对比较规范的数据标准,而IT大数据还处于模态多样、杂乱无章、标准不统一、时空尺度不统一、精度不统一等的阶段,如何梳理成可信数据也成为一大挑战。如今人们无时无刻不在制造数据,数据也在实时的发生变化,用户也更愿意第一时间获取数据并使其产生价值。以前传统GIS处理的是静态数据, 现在的数据已经98%是动态的数据,只有2%是静态数据,与以前相比是倒过来的。现在主要的数据是动态数据,少量的是静态数据.龚建雅院士也提出了“实时GIS是未来的发展趋势, 在统一的空间大数据框架下,基于传感网的实时动态GIS可以实时管理与分析城市内部的人流、物流和事件流, 因而能够在智慧城市中发挥重要作用”。如何能够接入多源的传感设备,快速高效处理实时数据,同时动态实现实时数据的可视化展示也是GIS要面临的一大挑战。当然更大的挑战就是如何从空间大数据中, 通过GIS技术去实现数据挖掘, 通过GIS的空间分析、空间查询和空间可视化等技术优势为用户提供指导和决策。这就需要GIS具有大数据的相关技术支持。在主流的IT技术体系下,已经有相对成熟完善的大数据技术支持,从各种各样类型的大数据中,快速获得有价值信息的技术的能力,包括数据采集、存储、管理、分析挖掘、可视化等技术及其集成。适用于大数据的技术, 包括大规模并行处理(MPP) 数据库、数据挖掘、分布式文件系统、分布式数据库、分布式存储以及云计算平台等。这就需要传统GIS基础软件在空间数据的各个环节去扩展、升级、优化其大数据的处理能力, 为空间大数据的挖掘提供平台支持。现有的地理空间大数据价值还没有充分发挥出来,深度挖掘地理空间大数据价值仍在路上, 大数据本身不等于价值, 它是“贫矿”, 只有挖掘出它的价值, 才是“金子”。所以GIS技术并不仅仅要解决与空间大数据技术的融合, 更重要的是如何能够通过GIS大数据技术为各个行业的相关业务提供多元思维、多元决策,为行业能够迎合新技术的冲击,新技术助力行业发展提供坚实的技术基础地址:北京市朝阳区酒仙桥北路甲10号电子城IT产业园107楼6层,100015网站:www.aupermap.com电话:010-59896655传真:010-59896666E-mail:partner@supermap.comNO.9第2章空间大数据技术2.1.空间大数据内涵空间大数据依然具有大数据的相关特征,例如数据体量大、数据种类多、数据变化快以及价值密度低等,这些特点为用户处理空间大数据带来了诸多困难。如何在大体量的空间大数据中,通过高效的挖掘工具或者挖掘方法实现价值提炼,是用户非常关注的话题。在解决该问题之前,有必要对空间大数据进行重新的认识和解读。如图所示, 是一个非常经典的DI KW金字塔模型, 我们普遍称之的空间大数据就是金字塔最基础的数据层(Data) , 这一层也是体量最为庞大, 种类最为繁多, 数据价值密度最低的一层。将原始大数据素材经过加工处理后,得到的有逻辑的数据就是我们所说的信息(Information) , 例如我们常说的测绘4D产品、倾斜摄影数据等。通过对信息的组织就形成了知识(Knowledge) , 当知识实现应用就产生了智慧(Wisdom) , 智慧可以提供预测和决策的指导。
所谓大数据的挖掘就是从最基础的大数据中挖掘信息、提炼知识、产生智慧的过程。所以空间大数据的内涵就是带有(隐含的)空间位置,具有体量大、变化快、种类多和价值密度低的特点,而且常规软件工具无法进行有效处理,需要借助于更加先进的技术才能实现价值提炼,同时具备更强的决策力、洞察力和流程优化能力的数据资产。
在大数据时代,空间大数据是指带有(隐含的)空间位置且具有体量大、变化快、种类多和价值密度低等特点的数据。其区别于海量空间数据,后者不具有变化快、价值密度低的特点,只是随着时间积累数据在不断增加,而具有数据量大的特征。空间大数据也包括大量的外延类型,它们具有时空标记能力,能够描述个体行为,如手机信令数据、车船位置数据、社交媒体数据、电商交易数据、导航轨迹数据、搜索关键词、公交地铁刷卡数据等。这些数据为用户进一步定量理解社会环境、进行社会感知提供了一种新的手段。2.2.空间大数据支撑技术主流的大数据技术都基于Linux操作系统, 这需要GIS基础软件支持跨平台技术, 同时在基础云计算环境中也能为大数据存储和计算提供资源的管理和运维能力。2.2.1.跨平台GIS技术跨平台主要是指程序语言、软件或硬件设备可以在多种作业系统或不同硬件架构的电脑上运作。即在一个熟悉的平台上面开发的软件或者程序,直接可以在其他平台上正常的运行显示而不需要对其原始文件或者原始代码进行修改。基于跨平台技术的软件产品能够满足不同的技术环境、行业应用和用户需求。2.2.2.云端一体化技术云计算的出现,带来了弹性伸缩、按需访问、资源池化、可实例化和成本低廉的计算资源, 为解决当今时代GIS面临的挑战提供了新的思路, 使得云GIS技术逐渐成为当前GIS领域的研究热点。云GIS指的是由地理空间科学驱动并通过时空原则进行优化的云计算模式,使分布式计算环境中的地理空间科学发现和云计算成为可能。其实质是将GIS的平台、软件和地理空间信息方便、高效地部署到以云计算为支撑的“云”基础设施之上,以弹性的、按需获取的方式提供最广泛的基于Web的服务。2.3.空间大数据核心技术空间大数据核心技术通过先进的IT大数据技术与GIS内核技术进行深度融合, 为空间大数据实现分布式存储、计算的能力,同时大幅度提升海量空间数据的管理和计算能力。空间地址:北京市朝阳区酒仙桥北路甲10号电子城IT产业园107楼6层,100015网站:www.aupemmap.com电话:010-59896655传真:010-59896666E-mail:partner@supermap.comNO.11大数据核心技术包括空间大数据存储技术、空间大数据计算技术、流计算技术及空间大数据可视化技术。
2.3.1.空间大数据存储2.3.2.1.面临问题随着信息技术发展,互联网快速普及,全球数据呈现爆发增长、海量集聚的特点,对经济发展、社会治理、国家管理、人民生活都产生了重大影响。如何实现对类型多样、标准不一的空间大数据的有效管理, 提高数据应用效率, 成为GIS面临的一大难题。空间大数据存储是汇总不同来源、不同格式、不同行业的数据,并通过数据引擎和数据处理对其实现一体化、全流程的管理。近几年,从传统的结构化数据如矢量数据、影像数据到非结构化数据如三维数据、视频数据等,从更新频度较少的静态数据到动态实时产生的流数据等,空间数据的数据量迅猛增长,空间数据类型逐渐增多,数据的时效性也不断增强。随着数据的爆发式增长,数据存储和应用问题不断产生。(1)大数据存储问题以前传统GIS处理的多为静态数据, 随着技术手段的发展, 动态数据越来越多。面临着不断累积的数据存量和仍然不断增加的数据增量,用户面临的数据量亡经从GB级、TB级向PB级发展。其中,很多大数据还处于模态多样、杂乱无章、标准不统一、时空尺度不统一、精度不统一的阶段。如何存储和管理如此庞杂的数据,成为空间大数据应用的首要问题。传统关系型数据库一直都是GIS数据存储的首选, 它的概念易于理解、使用比较方便,同时便于维护。但是随着数据量的不断增加,数据类型的多样化,关系型数据库很难应对单表亿级以上记录的查询和分析,同时也无法很好的解决流数据的处理需求,特别是在扩展性和高可用性方面能力也比较弱,成本又相对较高。(2)价值密度低现有的空间大数据价值还没有充分发挥出来,深度挖掘空间大数据价值仍在路上,大数据本身不等于价值, 它是“贫矿”, 只有挖掘出它的价值, 才是“金子”。所以, GIS技术并不仅仅要解决空间大数据的存储问题, 更重要的是如何从空间大数据中, 通过GIS技术去实现数据挖掘, 通过GIS的空间分析、空间查询和空间可视化等技术优势为用户提供指导和决策。
2.3.2.2.存储类型数据存儲主要涉及所有的空间数据格式以及大数据技术体系中常用的数据存储技术,如Oracle、HDFS、Mongo DB集群等等, 它们既可以利用存储的数据进行数据分析, 也可以用于存储分析产生的中间数据和最终成果数据.在空间大数据时代, GIS平台不仅需要接入传统测绘所支持的数据如矢量数据和影像数据,也需要接入新型测绘数据如倾斜摄影模型、BIM模型等相关数据。特别是随着移动互联网的高速发展,产生了大量的手机信令数据、移动社交数据、导航终端数据等,这些数据80%都包含地理位置,而且类别繁杂且数据变化越来越快,这就需要对传统空间数据引擎进行扩展,也需要通过实现对分布式文件系统、分布式数据库的支持来提升对空间大数据的存储和管理能力,传统关系型数据库一直都是GIS应用的首选, 它的概念易于理解、使用比较方便, 同时便于维护。但是随着数据量的不断增加,关系型数据库很难应对单表亿级以上记录的查询和分析,而随着用户并发持续递增,硬盘读写也会成为一个瓶颈,且无法很好的解决流数据的处理需求,特别是在扩展性和高可用性方面能力也比较弱,成本又相对较高。基于以上分析,关系型数据库已经很难满足空间大数据的存储需求,分布式数据库的分布式技术架构可以很好的解决上述问题。它可以实现横向扩展(Scale-Out) , 通过集群的分布式处理方式对大数据量进行如水平拆分(将数据均匀分布到多个数据库节点中)的操作,这样相比较每个数据库节点的数据量会变小,相关的存储管理性能也自然提升。此外,主流的分布式数据库的分布式能力对用户透明, 而且无缝顺应用户的SQL操作习惯, 让用户在使用和管理上更加地简单便捷.如今在空间大数据存储方面, 业界主要利用以下的技术:基于Had oop的HDFS实现非结构化数据存储:通过对Postgres-XL分布式数据库的支持对海量空间大数据提供存储管理:通过对Mongo DB分布式数据库的支持对海量二维或者三维的瓦片数据提供存储管理; 通过对Elastic search分布式数据库的支持对流数据提供存储管理等; 基于分布式架构的H Base是分布式空间数据存储和管理的首选。2.3.2.空间大数据计算空间大数据分析计算技术的核心是对传统地理空间分析算子扩展其分布式计算处理能力,地址:北京市朝阳区酒仙桥北路甲10号电子城IT产业园107楼6层,100015网站:www.aupermap.com电话:010-59896655传真:010-59896666E-mail:partnen@supemap.comNO.13也就是希望通过业界主流的分布式计算框架与GIS平台基础内核实现深度融合。目前主流的大数据计算框架以Had oop的Map Reduce和Spark为主。2.3.3.1.数据计算模式演变(1)传统计算模式多进程并行计算数据计算极大地增强了人们从事科学研究的能力,大大地加速了把科技转化为生产力的过程,深刻地改变着人类认识世界和改造世界的方法和途径,正推动着当代科学与技术向纵深发展为了提高计算速度(单机受物理速度限制无法满足)、提高计算精度(加密、计算网格等)以及满足实时计算需求(数值天气预报等),数据计算模式不断发展变化,已由传统的串行运算向并行运算, CPU计算向GPU计算转变。行,能够更充分和更加高效地利用多核计算资源,降低单个问题的求解时间,节省成本,也能够支撑更大规模或更高精度要求的问题求解。多线程并行计算技术可将一项任务分解为多个线程。这些线程可由多颗CPU内核并行运下图对比了串行与并行。当一个任务被划分为A、B、C三个子任务时,串行需要依次执行三个子任务,而多线程并行则可以通过三个线程同时执行三个子任务,从而提高任务的执行效率。在GIS中, 除了一般的SQL查询, 还有网络分析、缓冲区分析、淹没分析、填挖方分析等耗时多的计算密集型功能。随着数据采集、传输、处理技术的不断发展,大范围、高分辨率的地理空间数据使得传统串行算法难以满足性能要求。尤其在跨Web的分析服务中, PC端所能承担的分析时间, 是Web端、移动端用户所不能接受的, 网络环境下的等待更容易产生延迟、提交失败等问题。单节点的资源配各已不能满足计算需要,依靠粗放地增加硬件资源节点也不能解决上述问题。这就要求GIS软件具有并行计算的能力, 利用多核环境下的计算资源达到提升性能的目的。
内存计算相比传统的方法的优势是:充分发挥多核的能力,可以对数据并行的处理,并且内存读取的速度成倍数加快,数据按优化的列存储方式存放在内存里面。从而,内存计算可对大规模海量的数据做实时分析和运算,不需要事先的数据预处理和数据建模。例如,以任何维度去分析上亿条数据,实时建立模型,实时完成分析处理,可能从几天缩短为几秒钟就处理完。
GPU计算GPU加速计算是指同时利用图形处理器(GPU) 和CPU来加快应用程序的运行速度。GPU加速计算可以提供非凡的应用程序性能, 能将应用程序计算密集部分的工作负载转移到GPU,同时仍由CPU运行其余程序代码。从用户的角度来看, 应用程序的运行速度明显加快.CPU由专为顺序串行处理而优化的几个核心组成, 而GPU则拥有一个由数以千计的更小、更高效的核心(专为同时处理多重任务而设计)组成的大规模并行计算架构。GPU除了在图形加速方面的能力以外, 其在通用计算技术, 如浮点运算、并行计算等方面, 也引起业界不少的关注, 很多实际案例也证明了, GPU在浮点运算、并行计算等部分计算方面, 可以提供数十倍乃至于上百倍于CPU的性能。在串行计算环境下GIS空间分析算法几乎已经达到理论上的时间复杂度的极限,如何进一步提升海量空间数据的分析处理运算速度, GPU在并行计算上的卓越能力成为GIS分析性能的一把利器。Map Reduce最早是由Google公司研究提出的一种面向大规模数据处理的并行计算模型和方法。基于该框架用户能够容易地编写应用程序,而且程序能够运行在由上千个商用机器组成的大集群上,并以一种可靠的、具有容错能力的方式并行处理TB级的海量数据集。可以说Map Reduce是第一代的大数据处理框架, 也在大数据应用的初期应用在很多生产环境中。(2) 分布式计算Map ReduceMap Reduce是Had oop生态体系的一部分。它极大地方便了编程人员在不会分布式并行编程的情况下, 将自己的程序运行在分布式系统上。当前的软件实现是指定一个Map(映射)函数, 用来把一组键值对映射成一组新的键值对, 指定并发的Reduce(归约) 函数, 用来保证所有映射的键值对中的每一个共享相同的键组。
概述.
大数据时代来临.
大数据产业.
4.5.1.1.基础环境准备.
4.5.1.2.分布式配置.
4.5.1.3.数据注册.
4.5.1.4.空间分析.
大数据时代GIS面临的机遇与挑战.
空间大数据技术.
空间大数据内涵.
空间大数据支撑技术.
空间大数据核心技术.
2.3.2.1.面临问题.
2.3.2.2.存储类型.
第3章
跨平台GIS技术.
云端一体化技术.
空间大数据存储.
空间大数捆计算.
Super Map大数据技术.
基于GIS服务器的技术实践.
2.3.3.1.数据计算模式演变.
2.3.3.2.Map Reduce与Spark的对比.
2.3.3.流数据处理.
2.3.4.空间大数据可视化.
Super Map大数据GIS技术.
Super Map大数据GIS技术体系.
3.1.1.大数据支撑技术.
3.1.1.1.跨平台GIS技术.
4.4.1.大数据接入.
4.4.2.大数据存储管理.
4.4.3.大数据分析计算.
4.4.4.大数据服务管理.
4.4.6.大数据运维管理.
3.1.1.2.云端一体化技术.
第4章Super Map空间大数据技术方案.
3.1.2.1.Super Map大数据存储.
3.1.2.2.Super Map大数据分析.
3.1.2.3.Super Map流数据处理.
3.1.2.4.Super Map大数据可视化.
Super Map大数据GIS基础软件架构.
Super Map大数据GIS技术特点.
3.3.1.全平台支持大数据能力.
3.3.2.全流程体现大数据技术.
3.3.3.全方位降低使用门橙.
3.3.4.全天候保证快速高效.
3.3.5.全自动实现随需所用.
3.3.6.全体系实现多端接入.
3.3.7.全方面提供分析算子.
3.3.8.全产品适用不同场景.
4.1.应用场景.
4.2.产品选型.
4.3.技术体系.
4.4.技术方案.
4.4.5.大数据可视化.
4.5.技术实践.
4.6.部署架构方案.
4.7.典型案例.
5.1.物联网.
空间大数据.
空间大数据治理.
空间大数据引擎.
空间大数据引擎选型.
Super Map与Spark的融合.
大数据分析算子.
基于GIS桌面的技术实践.
单机试验环境