当前,空间大数据目前发展势头强劲,在多个领域的应用不断扩展和深化,并为自然资源数字化能力提升提供了有力支持。空间大数据不仅为自然资源的数字化治理提供了数据支持,还推动了自然资源管理方式的创新,提升了自然资源保护和利用的效率和水平。
自然资源数据包含了空间矢量数据和业务属性数据,在空间矢量数据方面具有数据量大、专题多、空间关系紧密等特点,同时数据空间拓扑质量极大地影响空间计算。随着我国生态文明建设和自然资源高质量发展,自然资源要素监测识别、国土空间智慧规划和治理、智能审查审批、公共服务、决策支持等对空间数据计算能力提出更高的需求。
首先,需要快速、准确的数据质量检测和空间分析计算能力;
其次,需要能够基于自然资源业务规则开展空间核验;
再次,需要自助式、定制化建模,支撑不同业务场景的空间计算需要,快速响应业务需求的变化。
在此背景下,易智瑞公司以多年GIS软件研发经验为基础,通过对空间大数据计算技术的不断研究和实践,面向自然资源时空数据汇聚和感知、时空数据治理和处理、空间智能计算、在线空间分析模型构建等方面,形成一套适合自然资源数据特点的空间大数据分析产品(GA Plus)和解决方案,为全国各级自然资源管理部门提供便捷、高效的“数智化”空间计算能力,助力于自然资源高质量发展。
易智瑞空间大数据计算流程
在国土空间基础信息平台的“数智化”智能工具建设中,GA Plus提供了GIS基础平台支撑能力,通过Spark分布计算框架与GIS空间算法相结合,实现了多来源时空数据的快速读取和处理计算,极大提升了千万级、亿级大体量数据的计算和处理效率;在业务模型支撑方面,GA Plus提供了一系列内置业务模型库、规则库、算子库,通过在线建模能力建立调查监测业务、国土空间规划业务、国土空间用途管制业务等即拿即用的业务模型,极大提升了业务场景建设的便捷性和敏捷性;在开发扩展方面,GA Plus提供了多个维度的开发接口,涵盖算子层面、工具层面、模块层面、模型层面、算法层面、系统集成层面的API接口和SDK,形成了可拆分、可集成的灵活松散的体系架构,使国土空间基础信息平台“数智化”智能工具具备强大的扩展能力。
时空数据汇聚和感知能力
在数据汇聚方面,支持不同来源、不同类型、不同结构的自然资源时空数据,包括关系型数据源、NoSQL类型数据源、分布式文件系统、FileGDB文件地理数据库等,共七大类型、数十种数据源的接入和管理。能够解析和感知数据源中空间数据的类型和关系,包括空间数据Geometry几何类型、空间数据变化情况、空间数据体量和量级分布等。
图表 1 GeoScene大数据支撑的空间数据源类型
同时,GA Plus提供了对空间数据要素的结构和类型感知能力,包括数据体量和量级、更新和变化情况、字段结构和时间属性,通了血缘关系追溯能力,包括数据与数据关系、数据与模型的关系、模型与应用的关系,从数据的组织形式、应用模型等形成空间资源图谱。
图表 2 GA Plus细粒度感知空间数据结构和态势
空间大数据分析应用中最重要的内容是GIS数据格式和类型转换,这涉及多平台数据读取和抽取的过程,尤其是针对FileGDB、Shapefile、Oracle Spatial、PostGIS等常见数据格式转换,在数据结构解析、编码转换、数据读写方面,会有大量的性能损耗,GA Plus在底层进行算法开发和优化,实现了千万级数据小于十分钟的转换效率。针对三份数据进行数据抽取性能测试,分别是450万、880万、1958万三份图斑面数据,分别做不同类型和数据源的抽取性能对比。可以看到,在集群环境中,针对三种量级的数据进行抽取,耗时分别在3分钟、7分钟、15分钟左右, 针对3000万图斑面数据写入金仓数据库,耗时38分钟完成。
图表 3 GeoScene空间大数据抽取性能比较
时空数据治理和处理能力
由于不同软件版本和生产方式不同,数据经常存在着多种几何问题,尤其是自然资源领域的调查监测数据、国土空间规划数据,存在诸多空间几何错误、自相交错误、自压盖问题、多边形节点异常等基础的GIS问题和错误数据,针对省级、国家级体量数据来说,如何快速的从千万级、亿级数据中把这些存在问题的数据检测出来是一大难题。
图表 4 GIS空间数据常见问题
时空数据治理涵盖了数据检测、数据清洗、数据处理,融合归集等步骤,包含数据统一时空基准、数据结构检查、数据拓扑关系检查、数据全域标准检查,GAPlus提供了针对自然资源数据的检测工具集,针对调查监测数据、规划数据、质检数据、汇交数据,提供了细粒度的点、线、面拓扑检测模型库,可以快速精准的定位到问题数据,并生成标准化业务表格。
分布式数据检测工具集包括:检测空几何、检测起始节点重叠多边形、检测多边形异常内环、检测拓扑、检测凸多边形、检测长度异常线、检测空值、检测异常值、检测面积异常多边形、检测压盖点、检测多边形异常外环、检测多边形岛、空间自相交检测、狭长多边形检测等分析工具。
图表 5 GeoScene分布式检测工具集
智能计算和模型构建能力
模型构建能力
GA Plus提供的第三大支撑能力就是智能计算和模型构建能力,这也是业务信息化建设从传统的固化模式转向智能模式的一个跨越,智能计算涵盖了算子、工具、模型的智能化、自动化计算。智能计算的第一要义是把传统复杂的工具和模型拆分为灵活的算子,基于算子级别进行注册和操作,每个算子是一个极细粒度的计算单元,完成一个具体的指令操作;第二层面,通过拖拽式构建模型屏蔽底层的空间运算过程和处理逻辑,让用户拖拖拽拽完成一个复杂模型的构建,专注于业务场景建设。
GA Plus在线建模提供了200多个大数据分析算子,可以直接对数据资源拖拽到画布中参与模型运算,从而实现了业务数据与分析能力深入结合。
图表 6 在线建模执行页面
分析算子涵盖了数据读取、数据输出、数据清洗、数据检测、科学运算、汇总统计、模式分析、机器学习、洞察预测等方方面面的分析能力。用户可依据业务需求,通过灵活运用分析算子构建新的业务分析模型。创建模型过程通过人机强交互托拉拽的方式按需求在画布中对算子进行排序、关联等操作,并对每一个算子参数做配置,保存模型、运行模型等。保存成功的模型会更新记录在模型库中,可下次打开直接使用,同时支持组织或部门内共享复用,提升工作协作效率。
图表 7 大数据分析算子
扩展能力一:自定义算子开发
除了系统内置算子库,在实际业务生产中有大量的复杂需求,如针对文本生成类需求、表格统计类需求、字段统计解析类需求、机器学习预处理和模型训练需求,这类个性化需求,可以通过GA Plus提供的自定义算子开发接口进行实现,使用Python和Spark,基于一定的规则进行开发,GA Plus提供了数据读取、数据写出的标准,业务逻辑由用户实现,所有的中间过程都以dataframe形式流转。
所有代码均以Python形式进行注册,与现有算子无缝衔接、联合使用,极大的增强了业务应用灵活性。
图表 8 自定义算子开发
扩展能力二:系统集成开发
在国土空间基础信息平台建设中,另一个需求是现有平台建设与GIS平台产品深度集成难题,GA Plus提供了模块化解耦服务,数据资源、数据治理、空间分析、在线建模均以微服务形式交付,通过对接用户体系,完成系统集成。
图表 9 系统模块集成
图表 10 某市规自局集成GA Plus在线建模模块
扩展能力三:内置业务模型库
得益于实际业务需求的积累,以及不同领域业务场景的复用,GA Plus提供了内置的业务模型库,包括:住房统计网格地图、土地变化监测分析、建设用地技术审查、耕地坡度级别赋值、理念变更调查村庄流向分析、智能选址分析、退耕还林土地流向分析、批而未供业务分析。
用户可以直接复用,通过修改业务数据源、模型参数,可以快速完成一个本地化场景的构建。
图表 11 内置业务模型库
图表 12 内置业务模型库-耕地坡度级别赋值
典型业务应用
智能选址业务
智能选址是自然资源业务中常见且典型的一项业务,无论是修建高速公路、修建高铁等条带状路线,还是新增建设用地、修建公园、修建大厦等,均需要进行预先选址评估。业务应用中需要设置选址范围,通过选择行政区范围、或者手动绘制选址范围、或者导入上传数据,确定选址的空间范围。同时,设置选址参数,包括建设规模、建设依据、是否避让永久基本农田、生态保护红线、公路等级等。
第二步是业务影响因子分析:包括三条控制线符合性因子、审批因子、合规性因子、土地利用现状、行业限制因子等。针对永久基本农田占用要设置前置条件:提供建设依据,不符合占用情形则需要完全避让,符合占用情形的,根据占用永农面积的多少进行打分推荐方案;针对生态保护红线数据,必须且无法避让、复合县级以上国土空间规划的线性基础设施、通讯和防洪、供水设施建设和船舶航行、航道疏浚等活动,不符合占用情形则需要完全避让;审批因子涵盖用地预审及选址项目、省级农转用项目、土地征收项目、市县审批集体建设用地项目、供地数据、房地一体数据等因子内容,压盖这些数据时,系统和模型要给出提示:压覆已批建设用地,压盖房地一体数据则需要计算拆迁量;合规性因子中涵盖国土空间总体规划、国土空间详细规划、国土空间专项规划、重要矿产资源、地质灾害易发程度分区、自然保护地等因素。叠加建设用地管制区图层需要获取范围内管制区层图斑的管制区类型属性,判断是否压盖有条件建设区、限制建设区和禁止建设区图斑。在交通行业因子中,需要判断哪里修建桥梁、隧道,其标准就是高程差大于30米的区域。
图表 13 智能选址业务参数
智能选址是一项通用的、复杂的业务场景,涵盖了几十项规则和算子,这些规则和算子又具备不同的参数、条件、判断、统计、加权处理,尤其涉及矢量与栅格的融合计算,因此,智能选址业务一直面临着多个难题:
业务规则复杂,涉及大量的空间计算、属性统计、加权评分;
开发过程繁琐,需要前端开发、后端开发、算法开发等;
矢量与栅格融合计算,需要把DEM地形数据接入、计算,并且矢量与栅格一体化处理。
基于此,通过GA Plus交互式在线建模,可以快速完成场景搭建,通过在左侧图层列表中加载了几十类选址用到的数据源,然后进行模型构建,拖拽DEM数据、设置参数,计算高程差;依次拖拽基本农田、生态红线、自然保护区、国土空间规划相关的数据,进行参数设置,完成整个模型的构建和分析。
分析结果可以直观加载到地图上,通过简单的配置,可以查看到这条高速公路选址项目的整体评分情况,以及压占了哪些地类。对于修建桥梁或者隧道的区域,需要检测出高程差大于30米的区域,在图中直观呈现。那么这样就完成了一个复杂的,从多源数据、到复杂模型构建,到最终业务场景表达的过程。
视频1 智能选址
国土空间规划成果质检规则库
当前,县级国土空间规划成果质检软件大部分采用传统单机技术模式,在计算性能、计算精度、开发扩展、系统架构等方面均需要革新。
图表 14 传统实现方式的瓶颈
国土空间规划质检规则整体分为空间图形数据拓扑检测、规划内容检查、空间数据统计、套盒分析表、专项专题分析五大类。
针对数据拓扑检测规则、底线落实、已批项目、承诺落实、规划衔接等业务规则进行需求重写,在GA Plus层面形成一套完整的规则库,对应到算子库,从算子库以搭积木形式组合成业务模型库,模型库可以直接交互使用,也可以通过接口服务形式调用,从而实现了完整业务流程的建设。
图表 15 GA Plus支撑国土空间规划业务
GA Plus 4.0版本中提供了国土空间规划数据成果质检完整的规则库,包括76个基础检查规则,和48个套盒表分析业务规则,套合分析规则是涉及多领域,如耕地保护、城镇开发、生态保护、规划落实等数据的叠加汇总规则,每个规则可以单独使用、也可以自由组合,即实现了规范化数据检测,又支撑了随时按需的业务需求。
图表 16 GA Plus提供的规则库和算子库
通过标准化流程,对规则库、算子库进行组装,依据规则大类进行分组,每个组可以设置任务的并行计算,更合理更优化的调度计算资源,多个县级的质检任务可以同时提交,GA Plus后台通过优化的大数据处理框架,实现了多任务的并发执行,从而大幅度提升全省数据的质检效率。
图表 17 县级质检模型
视频2 国土空间结构调整
结语
GA Plus是一款面向最终业务需求的大数据分析产品,产品提供了时空数据治理引擎,和大数据分布式计算框架,通过整合和集成自然资源相关的业务需求库、规则库,在此之上开发出算子库、模型库,精准匹配业务需求,并实现了算子自动组合、模型定时执行、模块集成开发、规则灵活扩展等多方面能力。总结起来,GA Plus在自然资源数字化治理能力提升业务中,具有六大优势:
空间大数据目前发展迅速,其在自然资源数字化能力提升中发挥着重要作用。随着技术的不断进步和应用的不断深化,相信空间大数据将在未来为自然资源数字化治理带来更多创新和突破。