当前位置:范文城>生活范本>科普知识>

空间数据分析方法

科普知识 阅读(1.89W)

导语:空间数据分析的方法有什么呢?以下是小编为大家分享的空间数据分析方法,欢迎借鉴!

空间数据分析方法

空间数据分析

1. 空间分析:(spatial analysis,SA)是基于地理对性的位置和形态特征的空间数据分析技术,其目的在于提取和传输空间信息,是地理信息系统的主要特征,同时也是评价一个地理信息系统功能的主要指标之一,是各类综合性地学分析模型的基础,为人们建立复杂的空间应用模型提供了基本方法.

2. 空间分析研究对象:空间目标。空间目标基本特征:空间位置、分布、形态、空间关系(度量、方位、拓扑)等。

3. 空间分析根本目标:建立有效地空间数据模型来表达地理实体的时空特性,发展面向应用的时空分析模拟方法,以数字化方式动态的、全局的描述的地理实体和地理现象的空间分布关系,从而反映地理实体的内在规律和变化趋势。GIS空间分析实际是一种对GIS海量地球空间数据的增值操作。

4. ArcGIS9中主要的三种数据组织方式:shapefile,coverage和geodatabase。Shapefile由存储空间数据的dBase表和存储属性数据和存储空间数据与属性数据关系的文件组成。Coverage的空间数据存储在INFO表中,目标合并了二进制文件和INFO表,成为Coverage要素类。

5. Geodatabase是面向对象的数据模型,能够表示要素的自然行为和要素之间的关系。

6. GIS空间分析的基本原理与方法:根据空间对象的不同特征可以运用不同的空间分析方法,其核心是根据描述空间对象的空间数据分析其位置、属性、运动变化规律以及周围其他对象的相关制约,相互影响关系。方法主要有矢量数据的空间分析,栅格数据的空间分析,空间数据的量算与空间内插,三维空间分析,空间统计分析。

7. 栅格数据在数据处理与分析中通常使用线性代数的二维数字矩阵分析法作为数据分析的数学基础。栅格数据的处理方法有:栅格数据的聚类、聚合分析,复合分析,追踪分析,窗口分析。

8. 栅格数据的聚类与聚合分析区别:聚类是根据设定的聚类条件对原有的数据系统进行有选择的信息提取儿建立的新的栅格数据系统的方法;聚合分析是根据空间分辨率和分类表进行数据类型的合并或转换以实现空间地域的兼并。e.g.:从遥感图像信息中提取某一地物的方法是栅格数据的聚类,而由数字高程模型转换为数字高程分级模型便是空间数据的聚合。

9. ArcGIS9的空间分析功能主要包括:空间分析模块、3D分析模块、地统计分析模块、网络分析模块、跟踪分析模块等。

的四种模型:要素模型(矢量类型),场模型(栅格类型),时态模型,网络模型。

11.矢量数据的空间分析方法:空间关系查询;叠置分析;缓冲区分析;泰森多边形分析;网络分析。

12.空间关系查询中要素间的关系有:相邻关系(proximity);包容关系(containment);叠加关系(overlap)。空间关系查询涉及到的:目标层—从其中查询满足条件的要素。选择层—比较此图层中要素与目标层中的关系。选择层是从目标层中得来的。

13.空间关系连接(spatial join)有:根据图层间的关系连接属性表;根据空间位置连接图层属性表。

14.叠置分析:是将代表不同主题的各个数据层面进行叠置产生一个新的数据层面,叠置的结果综合了原来来年各个或多个层面要素所具有的属性,不仅生成了新的空间关系,还将输入的多个数据层的属性联系起来产生了新的属性关系。叠置分析前提条件:要素层面必须基于相同坐标系统、同一地带,还必须查验叠加层面之间的基准面是否相同。

15.根据操作要素的不同,叠置分析可以分为:点与多边形叠加;线与多边形叠加;多边形与多边形叠加。

16.根据操作形式的不同,叠置分析可以分为:图层擦除(erase);识别叠加(identity);交集操作(intersect);均匀差值(symmetrical difference);图层合并(union);修正更新(update)。

17.从数学的空间运算角度来说,图层擦除:A-A∩B(即X∈A且X ?B,A为输入图层,B为擦除层)。识别叠加:A or(A∩B)。交集操作:X∈A∩B(A、B分别是进行交集的图层)。均匀差值:X∈(A∪B—A∩B)。图层合并:X∈A∪B。修正更新:B or(A∪B)。

18.缓冲区分析基本思想:给定一个空间对象或几何,确定它们的邻域,邻域的大小由邻域半径R决定。

19.缓冲区的建立方法:角平分线法,凸角圆弧法。缓冲区的建立包括:点状要素的缓冲区,线状要素的缓冲区,面状要素的缓冲区(面状要素缓冲区建立的四种方式:1. inside and outside内外缓冲区之和 outside 只有外缓冲区 inside 只有内缓冲区 de and include outside 外缓冲区和原有图形之和)。

20.泰森多边形:也称为Voronoi图或者Dirichlet图。泰森多边形可用于定性分析、统计分析、临近分析等,是某些空间分析一个有用的工具。泰森多边形的特性:每个泰森多边形内仅含有一个离散点数据;泰森多边形内的点到相应离散点的距离最近;位于泰森多边形边上的点到其两边的离散点的距离相等。可用于现有设施的负荷状况分析、设施选址等问题的分析。

21.狄洛尼三角网:Delaunay Triangulation(D-TIN),是将泰森多边形中各一直点相连形成的一个三角形网,该三角网是泰森多边形的对偶图,是模拟自然面或人工构成面的理想方法。狄洛尼三角网特性:1其Delaunay三角网是唯一的;2三角网的外边界构成了点集P的凸多边形外壳;3没有任何点在三角形的外接圆内部;4如果将三角网中的每个三角形最小角进行升序排列,则Delaunay三角网的排列得到的数值最大,即Delaunay三角网是“最接近于规则化”的三角网(等边三角形)。

22.狄洛尼三角网构建方法:三角网生长法。首先找出离散点集中相距最短的两点,连线成为D-TIN的初始基线,然后在这附近找第三点,一般取第三点到前两点的距离平方和最小的参考点作为候选点,以这三点作一外接圆,判断是否有落入该外接圆的点,一直找到没有其他参考点落入外接圆内,该三角形就是Delaunay三角形,然后以该三角形的任意一条边作为基边,用同样的方法形成其他三角形,一直到所有参考点都参与构造了Delaunay三角网为止。

23.用Delaunay三角网构建泰森多边形方法:1构建离散平面点集的D-TIN;2求取各三角形的外接圆心;3对每个离散点,按顺时针或逆时针方向连接与其关联的三角形的外接圆心,得到该离散点的泰森多边形;4将各离散点的泰森多边形形成集合,得到平面点集的泰森多边形。

24.构成网络的基本要素:链(link);结点(node)(包括:障碍-barrier,拐点-turn,中心-center,站点-stop)。以上网络要素分别有各自的特殊属性项,归纳为:阻力值(impedance),资源需求(demand),资源容量(capacity)三种。

25.网络分析应用:路径分析;连通分析;定位-配置分析;地址匹配。

26.路径分析的核心是对最佳路径和最短路径的求解。最佳路径的求解时在指定的网络中两节点间找一条阻碍强度最小的路径,最佳路径的产生基于网线和结点转角的阻碍强度。另一种路径分析功能是求解最佳游历方案,分为:结点最佳游历方案求解(推销员问题);弧段最佳游历方案求解(邮递员问题)。

27.最短路径分析核心算法:Dijkstra算法。

28.连通分析两类问题:1连通分量求解;2最少费用连通方案的求解。

29.连通图:在一个图中。任意两个结点之间都存在一条路。

30.最小生成树:若一个连通图中不存在任何回路,称为树,生成树是极小连通子图(权数最小)称为最小生成树。应用:类似在n个城市间建立通信线路的连通分析问题。构造最小生成树的依据:1在网中选择n-1条边连接网的n个顶点;2尽可能选取权值为最小的边。算法:Kruskal,克罗斯科尔算法(避圈法)。

31.定位-配置分析(举例分析):1定位问题:已知需求点分布,确定哪里布设供给点。如消防站点分布、学校选址、垃圾收集站点分布;2配置问题:已知供给点分布,确定供给点服务于哪些需求点。如确定一消防站负责哪些区域的消防工作;3同时确定供给点和需求点。算法:Teitz-Bart算法(泰茨-巴特算法)。

32.e.g:选址问题就选择5个城市中一个作为中心邮局地时选择标准有中心点法和中位点法。中心点法是中心局到其它城市最短距离的最大值最小;中位点法是中心局到其它城市距离总和最小。

33.地址匹配:是基于空间定位技术,是地理编码的核心技术,提供了一种把描述成地址的地理位置信息转换成可以被用于GIS的地理坐标的方式。

34.利用地址匹配技术可以在地理空间参考范围中确定数据资源的位置,建立空间信息与非空间信息之间的联系,实现各种地址空间范围内的信息整合。它的过程中涉及两种数据:一种是只包含地理实体位置信息没有相关地图定位信息的地址数据(如街道地址、邮政编码、行政区划等),另一种是已经包含了相关地图定位信息的地理参考数据,这些数据集合或者数据库在地址匹配过程中起到空间参考作用。

35.栅格数据的空间分析方法:距离制图、密度制图、表面分析、统计分析、重分类、栅格计算。

36.距离制图中基本概念:1源:距离分析中的目标或目的`地;2成本:到达目标、目的地的花费,成本数据的制作一般是基于重分类功能完成的;3成本距离加权数据:也程成本累计数据,几率每个栅格到距离最近、成本最低的源的最少累加成本;4距离方向数据:表示了从每一个单元出发,沿着最低累计成本路径到达最近源的路线方向;5分配数据:记录每一个单元点隶属的最近源信息,单元值就是其最近源的值;6距离制图函数:主要包括成本加权函数(cost-weighted distance),成本方向加权数据(cost-weighted direction),成本分配加权函数(cost-weighted allocation),直线距离函数(straight-line distance),直线方向函数(straight-line direction),直线分配函数(straight-line allocation),最小成本路径函数(shortest path),分配函数(allocation)。其中:1、2为原始数据,3—6为结果数据。

37.密度制图:基于点数据生成的,以每个待计算网格点为中心,进行圆形区域的搜索,今儿来计算每个格网点的密度值。本质上讲,密度制图是一个通过离散采样点进行表面内插的过程,根据内插原理不同,分为核函数密度制图(Kernal)和简单密度制图(Simple)。

38.简单密度制图:以样本为圆心,考搜索半径产生圆,组成圆的栅格总面积为分母,样本点的属性值为分子,两折相除得到密度值,搜索圆内每个栅格单元的密度值相同。

39.核函数密度制图:以样本点为圆心,考搜索半径产生圆,圆心处的栅格单元密度值最高,离开圆心越远,密度越低,逐步递减,到边界处密度值为0。圆心处密度值大小由搜索半径决定。

40.表面分析:主要通过栅格差值生成栅格表面产生新的数据集。如等值线、坡度、坡向、山体阴影等派生数据。

41.统计分析包括:单元统计(n对1);领域统计(1对1);分类区统计(2对1)。

42.单元统计常用于同一地区多时相数据的统计,通过单元统计分析得出所需数据。例如:同一地区不同年份的人口分析,同一地区不同年份土地利用类型等。单元统计输入数据集必须来源于同一个地理区域,并且采用相同的坐标系统。

43.领域统计:是以待计算栅格为中心,向其周围扩展一定范围,基于这些扩展栅格数据进行函数运算,从而得到此栅格的值。即在单元对应的领域范围指定的单元上进行统计分析,然后将结果值输出到该单元位置。ArcGIS中提供四种领域分析窗口:Rectangle(矩形);Annulus(环形);Circle(圆形);Wedge(楔形)。

44.分类区统计:即以一个数据集的分类区为基础,对另一个数据集进行述职统计分析,包括计算述职范围、最大值、最小值、标准差等。利用分类区统计可以计算具有某一相同属性的数据所包含的另一属性数据的统计信息。e.g:计算每个污染区的平均人口密度;计算同一高程处植被类型的种类;计算同一种植被类型下高程的平均值。

45.重分类:基于原有数值,对原有数值重新进行分类整理,从而得到一组新值并输出。重分类一般的四种分类形式:新值替代;旧值合并;重新分类;空值设置。

46.栅格计算包括:数学运算;函数运算(数学函数,栅格数据空间分析函数)。

47.空间查询与量算是进行空间分析的定量化基础,主要的量算:几何量算、质心量算、形状量算。

48.空间内插:a在现有离散曲面分辨率、象元大小或方向与要求不符(栅格数据重采样);b现有数据不能完覆盖所要求的区域范围(如将离散采样点数据内插为连续数据表面)。

49.径向基函数插值:必须通过实测点,表面总曲率最小。

ing插值:基于统计学的插值方法,是根据相邻变量的值,利用变异函数解释的区域化变量的内在联系来估计空间变量数值。

51.栅格数据的重采样:处理栅格分辨率匹配问题。主要的三种方法:最邻近法采样;双线性采样;三次卷积采样。

52.三维空间分析:创建表面;表面分析;三维可视化;水文分析。

53.创建表面:TIN表面的创建;栅格表面的创建(通过栅格点位的空间内插来实现)。

54.栅格表面的创建(由点数据插值生成栅格面)方法:1反距离加权插值法(适用于变量影响随距离增加而减小的情况)、2样条函数法(适用于渐变的表面属性)、3克里格法(适用于已知数据含距离和方向上偏差的情况)等。调整参数方法:1可变半径的饭距离加权插值;2固定半径的饭距离加权插值;3张力样条插值;4规则样条插值。

55.表面分析:计算表面积与体积;地形因子提取(其中坡度、坡向、平面曲率、剖面曲率在ArcGIS中可直接提取)。

56.两种表面模型:栅格表面,TIN表面。

e:指通过该店的切平面与水平面的夹角,表示了地表在该点的倾斜程度。坡度两种表示方法:坡度(degree of slope,水平面与地形面之间夹角),坡度百分比(percent slope,高程增量与水平增量之比的百分数)1栅格表面shope提取与TIN表面坡度的提取:(TIN表面构成三角网的每个三角形构成一个平面,表面上某点必处在某一三角形,则该点的坡度指其所处平面与水平之间的夹角)。2栅格表面坡向(指地表面上一点的切平面的法线矢量在水平面的投影与过该店的正北方向的夹角,表征了该点高程值改变量的最大变化方向);TIN表面坡向(指该店所处三角面的坡向,即该三角面法线方向在平面上的投影所知的方向)。

58.可视性分析:a视线瞄准线;b视场;c可视性分析;d提取断面;e山体阴影;f表面长度的计算;g等值线绘制。

59.水文分析:无洼地DEM生成;汇流量积累;水流长度;河网的提取。

60.无洼地DEM生成:1)水流方向提取(通过计算栅格与邻域栅格的最大距离权落差来确定;距离权落差指中心栅格与邻域栅格高程差/两栅格间的距离);2)洼地计算(洼地区域是水流方向不合理的地方);3)洼地填充。

61.汇流累积量:是基于水流方向数据计算而来的。每个栅格的汇流累积量大小代表其上游有多少栅格的水流方向最终汇流经过该栅格,数值越大,越易形成地表径流。

62.水流长度:地面上一点盐水流方向到其流向终点间的最大地面距离在水平面上的投影。提取方式:顺流计算(计算地面上没一点沿水流方向到该店所在流域出水口最大地面距离的水平投影);溯流计算(计算地面上每点沿水流方向到其流向起点最大地面距离的水平投影)。

63.河网的提取过程:1先是无洼地DEM的生成:利用水流方向数据计算出DEM数据中的洼地数据,并计算洼地深度,依据这些洼地深度设定填充阈值进行洼地填充;2在无洼地DEM上利用最大坡降法计算出每个栅格水流方向;3利用水流方向栅格数据计算出每个栅格数据在水流方向上累计栅格数,即汇流累计量(代表在一个栅格位置上有多少个栅格的水流方向流经该栅格),当汇流量达到一定值时会产生地表水流;4设定临界数值,当所有汇流量大于那个临界数值的栅格就是潜在的水流路径,这些水流路径构成的网络,就是河网。

64.空间统计分析:空间数据的统计分析,核心是认识与地理位置相关的数据间的空间依赖、空间关联或空间自相关,通过空间位置建立数据间的统计关系。是以区域化变量理论为基础,以变异函数为基本工具来研究分布于空间并呈现出一定随机性和结构性的自然现象的科学。

65.空间统计:将空间信息与属性信息进行统一的考虑,研究特定属性或属性之间与空间位置的关系。(几乎所有的空间数据都具有空间依赖或空间自相关特征。

66.空间统计分析与GIS: 1相同点:二者均能处理具有空间坐标的信息;2不同点:GIS侧重于图形显示,即描述空间现象及其属性特征的相互关系;而空间统计分析侧重于数值计算,即应用空间分析模型进行有关空间自相关、空间结构、空间插值、空间模拟等方面的计算。

67.空间相关性:检测空间上两种现象(统计量)的变化是否存在相关性。e.g:水稻产量往往与所处土壤肥沃程度有关。

68.空间自相关:研究空间中,某个空间单元与周围的单元之间,就某种特征,通过统计方法,进行空间相关性的计算,以分析这些空间单元在空间上分布现象的特性。研究的是不同对象的统一属性在空间上的相互关系。

69.探索性空间数据分析(ESDA):利用统计学原理和图形图表相结合对空间信息的性质进行分析、鉴别,用以引导确定模型的结构和解法。内容:1)检查数据是否有误;2)获得数据的分布特征;3)对数据规律的初步考察。

数学方法:1直方图;2Q-Q概率图;3趋势分析;4半变异/协方差函数云图;5正交协方差函数云图。

71.直方图:适用于对大量样点数据进行整理加工,找出其统计规律,即数据分布形态,以便对其总体特征进行推断的方法。它的两个重要参数:概率分布(显示观测值落在一定空间中的频率的一种柱状图),概括性统计指标(可用位置指标、分布指标、形状指标加以表达)。

72.Q-Q概率图:主要用来评估具有N个值的单变量样本数据是否服从正态分布。是用来检验样点数据分布的统计图,如果被检验样点数据符合所指定分布,代表样点的点簇在一条直线上。分为:正态概率图和反趋势正态概率图。

73.趋势图:样点的位置在X、Y平面上表示,对于感兴趣的属性值,通过垂直方向上的Z轴表示,构成三维视图,趋势分析时,将Z轴数据值投影到X、Y平面作散点图,然后用多项式拟合。

应用:1)检验数据分布(可用直方图和Q-Q概率图直观地检验数据分布形状);2)寻找离群值(常用直方图和半变异函数查找现象的真实异常值,即离群点);3)全局趋势分析。

75.地统计分析基础:1)前提假设(随机过程,正态分布);2)区域化变量;3)变异分析(协方差函数,变异函数);4)空间插值。

76.区域化变量两个重要特征:随机性和结构性。区域化随机变量之间的差异,可用空间协方差来表示。

ing插值:根据变异函数模型发展起来的一系列地统计的空间插值方法;包括:普通克里格法,泛克里格法,指示克里格法,析取克里格法,协同克里格法等。

38.克里格插值法(Kriging)是用协方差函数和变异函数来确定高程变量随空间距离而变化的规律,以距离为自变量的变异函数,计算相邻高程值关系权值,在有限区域内对区域化变量进行无偏最优估计的一种方法,是地统计学的主要方法之一。ArcGIS9.3中的克里格插值方法主要有以下几种类型:普通克里格(Ordinary Kriging)、简单克里格(Simple Kriging)、泛克里格(Universal Kriging)、指示克里格(Indicator Kriging)、概率克里格(Probability Kriging)、析取克里格(Disjunctive Kriging)和协同克里格(Co-Kriging)。不同的插值方法的适用的条件不同,普通克里格法、简单克里格法和泛克里格法前提条件是样本数据符合正态分布。当假设高程值的期望值是未知时,选用普通克里格;当假设高程值的期望值为某一已知常数时,选用简单克里格;当只需了解属性值是否超过某一阈值时,选用指示克里格;当数据存在主导趋势时,选用泛克里格;若不服从正态分布时,选用析取克里格;当同一事物的两种属性存在相关关系,且一种属性不易获取时,可选用协同克里格方法,借助另一属性实现该属性的空间内插。

使用克里格首先要进行数据分析的,看它是否满足条件,如果不满足要进行数据变换。

克里格插值法很复杂的,计算时间也慢,一般情况下用反距离权重和自然邻近差值(voronoi)

空间数据分析模型(南京师范大学)

7.1 空间数据 按照空间数据的维数划分,空间数据有四种基本类型:点数据、线数据、面数据和体数据。

点是零维的。从理论上讲,点数据可以是以单独地物目标的抽象表达,也可以是地理单元的抽象表达。这类点数据种类很多,如水深点、高程点、道路交叉点、一座城市、一个区域。

线数据是一维的。某些地物可能具有一定宽度,例如道路或河流,但其路线和相对长度是主要特征,也可以把它抽象为线。其他的线数据,有不可见的行政区划界,水陆分界的岸线,或物质运输或思想传播的路线等。

面数据是二维的,指的是某种类型的地理实体或现象的区域范围。国家、气候类型和植被特征等,均属于面数据之列。

真实的地物通常是三维的,体数据更能表现出地理实体的特征。一般而言,体数据被想象为从某一基准展开的向上下延伸的数,如相对于海水面的陆地或水域。在理论上,体数据可以是相当抽象的,如地理上的密度系指单位面积上某种现象的许多单元分布。

在实际工作中常常根据研究的需要,将同一数据置于不同类别中。例如,北京市可以看作一个点(区别于天津),或者看作一个面(特殊行政区,区别于相邻地区),或者看作包括了人口的“体”。

7.2空间数据分析

空间数据分析涉及到空间数据的各个方面,与此有关的内容至少包括四个领域。

1)空间数据处理。空间数据处理的概念常出现在地理信息系统中,通常指的是空间分析。就涉及的内容而言,空间数据处理更多的偏重于空间位置及其关系的分析和管理。

2)空间数据分析。空间数据分析是描述性和探索性的,通过对大量的复杂数据的处理来实现。在各种空间分析中,空间数据分析是重要的组成部分。空间数据分析更多的偏重于具有空间信息的属性数据的分析。

3)空间统计分析。使用统计方法解释空间数据,分析数据在统计上是否是“典型”的,或“期望”的。与统计学类似,空间统计分析与空间数据分析的内容往往是交叉的。

4)空间模型。空间模型涉及到模型构建和空间预测。在人文地理中,模型用来预测不同地方的人流和物流,以便进行区位的优化。在自然地理学中,模型可能是模拟自然过程的空间分异与随时间的变化过程。空间数据分析和空间统计分析是建立空间模型的基础。

7.3空间数据分析的一些基本问题

空间数据不仅有其空间的定位特性,而且具有空间关系的连接属性。这些属性主要表现为空间自相关特点和与之相伴随的可变区域单位问题、尺度和边界效应。传统的统计学方法在对数据进行处理时有一些基本的假设,大多都要求“样本是随机的”,但空间数据可能不一定能满足有关假设,因此,空间数据的分析就有其特殊性(David,2003)。

7.3.1 空间自相关

空间自相关是空间位置上越靠近,事物或现象就越相似,即事物或现象具有对空间位置的依赖关系。如气温、湿度等的空间分布均体现了与海陆距离、海拔高程等的相关性。如果没有空间自相关,地理事物或地理现象的分布将是随意的,地理学中的空间分异规律就不能体现出来。空间自相关性使得传统的统计学方法不能直接用于分析地理现象的空间特征。因为传统的统计学方法的基本假设就是独立性和随机性。为了分析具有空间自相关性的地理现象,需要对传统的统计学方法进行改进与发展,空间统计学就应运而生了。

如果我们想确定某个位置测定的属性值是否合适,自相关分析将帮助我们记述已知的观测位置在多大程度上是有用的。自相关有三种:正自相关,负自相关和无相关(零自相关)。正自相关是最常见的,指的是附近的观察值很可能是彼此相似的;负自相关较少见,指的是附近的观察值很可能是彼此不同的;零自相关指的是无法辨别空间效应,观察值在空间上似乎是随机变化的。区分这三种自相关是统计方法正确应用的前提。7.3.2 可变区域单位问题

空间数据处理中存在的一个重要问题是空间范围对空间分析的影响。大区域的数据可能来自小区域详细数据的统计汇总。以国家级人口普查数据的统计汇总为例,人口调查以户为单位进行,而产生的人口调查报告中的数据则是不同区域层次人口数据汇总统计的结果。汇总单位与所研究的现象没有任何关系,但是汇总单位影响着由基层单位产生的统计结果。

统计汇总的区域层次不同,统计结果间的关系也就不同,这就产生了可变区域单位问题(modifiable areal unit problem,MAUP)。如果在特定的研究中指定了不同的空间单位,观察到的格局和关系可能有很大的差异。这个问题可以参考图 7.1。图中使用了横向和纵向两种不同的汇总方法,形成了两种不同的回归分析结果,由此说明汇总单位对回归方程和确定系数的影响是很明显,回归关系通过汇总得到了加强。事实上,利用同样的数据通过不同的汇总方式可以使得相关系数在-1和1之间任意变化。

由汇总单位产生的影响有两个。第一个影响与分析的空间范围和汇总效应有关。汇总之后的平均值更接近于回归线,使得散点图的结果更接近于线性,导致相关系数增加。一般通过汇总往往产生更好的拟合结果。第二个影响是不同汇总方法得到的结果实质上是不同的。

7.3.3 生态学谬误

可变区域单位问题与更一般的统计问题——生态学谬误相联系。当特定汇总层次的观察值之间的统计关系假定可以接受,然后在更细的层次接受同样关系的时候,就产生了这个问题。例如,在国家这个层次上,我们可能看到收入和犯罪之间有强烈的关系,即低收入往往伴随着高犯罪。但是,如果我们据此认为低收入的人更可能干坏事,那就犯了生态学谬误的错误。事实上,对于这样的数据,有效的精确的说法是:低收入国家倾向于经历较高的犯罪。是什么导致了这些观察到的现象,可能有很大的差异:有可能是低收入地区治安很差,夜贼很多;或者是这些地区的人经常酗酒;或者根本就与收入没有关系。重要的是,高层次汇总数据中出现的关系应该在底层汇总 数据中重现并得到解释。

这个问题很普遍。如果你关注新闻,在每天的日常生活或媒体中都可以发现生态学谬误。犯罪率和死刑,枪控制与关押率,车祸与车速限制等。不幸的是,生态学谬误在学术界也不少见。这个问题经常发生,其根本的原因可能是为了简化解释。事实上,特别在人文地理中,事情很少这么简单。生态学谬误和可变区域单位问题都要注意的是:统计关系会随着汇总层次而发生变化。

7.3.4 空间尺度

进行空间分析时,必须考虑空间尺度问题。不同对象的表现需要的不同尺度,例如,在大陆尺度,城市用点来表示。在区域尺度,城市用面来表示。在局部尺度,城市成为复杂的点、线、面和网络的集合体。研究对象的空间尺度影响空间分析。因此,应当选定正确的或合适的空间尺度。

7.3.5 空间非均一性和边界效应

区分空间分析与传统统计分析的重要标志是空间的不均一性。例如,搜集到城区犯罪位置的数据,并用点在地图上标绘出来,就能可视化地表示犯罪的空间分布规律。在居住区和工作密集的地方,犯罪会有明显的聚集性,在公园或道路的交叉口,可能会出现空缺。这些聚集或空缺只是城市内部不均一性的一个结果。类似的问题是考虑疾病发生率的时候,必须考虑从事高风险工作的人所在的位置。目前,处理这些问题的方法还很少。

边界效应是不均一问题的一个特殊类型。边界效应问题是指在研究区的中心位置,各个方向上的观察值相接近;在研究区的边界,只有研究区内的观察值才是相接近的。因此,确定适当的边界才可能反映数据的真实性。

7.4 空间数据的关系

空间数据中蕴涵了丰富的信息,本章仅考虑空间数据的位置属性所能提供的信息。

重要的空间概念是:距离(distance)、邻接(adjacency)和交互(interaction),与此密切相关的术语是近邻(neighborhood)。在空间数据分析中,我们不仅对属性数据的均值、方差等进行分析,也对空间上相联系的实体的分布进行分析。空间分布指的是空间实体之间的关系,可以通过距离、邻接和交互分析,获得对空间关系的认识。

7.4.1 距离

在空间数据中,距离是空间实体间的直线距离或球面距离。空间数据中的距离不同于数学上的距离(数学上的距离值两个变量/样本之间的距离,参阅模糊数学一章)。在小的地区(小尺度的研究),可以忽略地球曲率的影响,通常使用欧氏距离。对于空间上的两个点i,j,其坐标分别为(xi,yi),(xj,yj),那么两点之间的直线距离为:在较大的区域(大尺度研究),距离的计算要考虑地球的曲率。

除了直线距离外,实际应用中也可按照道路、铁路、河流或路网来计算距离;也可按照消耗的时间来计算距离。

7.4.2 邻接

邻接可以认为是名义的、双向的相等的距离。两个空间实体,或者相邻或者不相邻,没有中间状态。确定相邻有多种方式。最简单的确定方式是,如果两个实体在指定的空间距离内,那么它们是相邻的,否则不相邻。类似的,对于任一实体,确定出与其最相邻的其他实体。我们也可以认为只有最邻近的实体才是相邻的。

与距离一样,对邻接的概念也可以进行扩展。邻接的实体不一定是相近的。例如,就机场而言,在考虑上海、北京和莫斯科机场的邻接关系时,可以认为上海机场与北京机场、北京机场与莫斯科机场是邻接的,但上海机场与莫斯科机场则不邻接的。

邻接的概念主要应用在空间自相关分析、空间插值和网络分析中。

7.4.3 交互

交互可以认为是距离和邻接的综合,它来自于一个基本的想法:近处的事物关系更密切。从数学上讲,可将两个空间实体之间的交互度表示为0(无交互)和1(高度交互)之间的数。邻接也可以用类似的方式来表示,因为邻接是双向的。在空间分析中,典型的交互可用距离倒数加权来定义:

其中,w是距离为d的两个实体i,j之间的交互权重。k控制着权重的变化率。距离越近,权重越大,交互越强。

通用的交互计算中使用两个实体的属性值,例如人口的引力公式为:

其中,pi,pj是i,j两地的人口数量。

此外,也可以在公式中加入面积来定义两个区域单位间的交互。

除了空间距离外,也可以使用其它的距离定义。例如,可以使用两个国家的贸易量来定义交互程度。

7.4.4 近邻

近邻有多种表达方式。例如,特定空间实体的近邻是与该实体邻接的其他空间实体的集合,此时,近邻依赖于邻接的定义。此外,可以不考虑邻接性,将近邻定义为空间上相联系的区域,此时则需要使用距离的概念。近邻的概念经常被使用,主要是由于空间分布上邻近的区域更为相似。这是一种内部相似,不同于周边区域。例如,考虑海拔高度,山是一种近邻,其周围的海拔都较高。图7.2进一步揭示了这四个概念。左上角的图指明了研究区内A到其它点的距离。一般而言,总是可以确定两点之间的距离。在右上角的图中,按照距离指明了与A邻接的两点E和F。这种邻接可以通过多种方法来定义。例如,以50米内为邻接的距离。注意,这种定义意味着D没有邻接的对象。我们也可以定义最近的对象是邻接对象,这可以保证所有的对象都有两个邻接对象,虽然它同时意味着邻接不再是对称关系。例如,此时,D与E邻接(最近的是C和E),但E并不邻接D(与E最近的是A)。在左下角的图中,使用线宽指明A与其它对象的交互作用强度。这里,交互是距离的倒数,所以A与E交互作用强。在右下角的图中,给出了对象A的两个可能的近邻,曲线内是与A邻接的对象,包括了A,E和F。另一个可能的近邻是带阴影的多边形,该空间也接近于A。

7.5 空间自相关分析

空间自相关分析包括全程空间自相关分析和局部空间自相关分析两部分(Getis and Ord,1996),自相关分析的结果可用来解释和寻找存在的空间聚集性或“焦点”。空间自相关分析需要的空间数据类型是点或面数据,分析的对象是具有点/面分布特征的特定属性。

全程空间自相关分析用来分析在整个研究范围内指定的属性是否具有自相关性。局部空间自相关分析用来分析在特定的局部地点指定的属性是否具有自相关性。具有正自相关的属性,其相邻位置值与当前位置的值具有较高的一致性。