北京邮电大学学报
    主页 > 期刊导读 >

土壤重金属数据异常识别方法以北京农田区样点

土壤重金属污染调查检测中,土壤重金属的检测值反映了污染程度,其数据质量会影响区域污染状况的评价结果[1]。通常由于人为或自然因素等,调查结果存在某些异常情况,这些异常数据往往会造成土壤重金属空间分布情况的分析结果产生偏差和错误。其中,由于自然因素或人为生产活动导致土壤重金属含量异常,客观反映了土壤重金属进入土壤导致局部土壤含量明显高于或低于周围土壤的情况,对于这类异常数据应当予以保留。而由于人为测量失误、仪器系统误差等原因,导致土壤重金属实际含量与正常值产生偏差,对于这种异常数据应当予以剔除。因此,在对土壤重金属调查数据的处理和分析过程中,有必要对调查数据进行异常值检测和识别。

目前基于空间数据异常识别的研究主要分为2种:基于属性邻域识别空间数据的属性值异常和基于数据空间邻域识别空间异常。基于数据属性邻域识别空间数据的异常主要采用统计学方法检测空间数据的异常值,常见的为基于分布方法、统计判别法[2-3]和统计聚类检验法[4-5]等。这些方法均是只基于数据属性邻域的统计学方法,可以识别空间数据的全局异常情况,但由于没有考虑空间数据的空间自相关性,无法检测出局部数据是否存在异常。而基于数据空间邻域识别空间异常主要通过建立空间数据的邻域关系,基于空间自相关性来检测数据异常[6-8]。这类方法能够检测一定邻域范围内的局部异常,但是在确定邻域范围时一般是基于经验值,具有一定的主观性,并没有考虑确定邻域范围对异常识别的影响。目前已有一些研究基于邻域范围展开数据相关性程度及异常检测等相关研究[9-11]。如杨冕等通过K临近方法探讨了长江经济带PM2.5在稳定邻域范围内的空间自相关程度[12]。邓敏等通过聚类分析获取空间相关性较强的簇,并考虑空间数据的局部相似特性,挖掘同一数据集中不同分布中的局部空间异常[13]。这些方法根据研究区的特点通过设定不同空间邻近关系,确定区域存在的异常情况,但是缺少对异常类型的进一步分析。

对土壤重金属调查数据的异常识别,须要充分考虑在合理的邻域范围内结合土壤重金属调查数据的空间分布情况,进行异常值检测和异常类型识别。因此,本研究提出一套土壤重金属异常识别方法,该方法通过基于K临近法确定合理稳定的最佳邻域范围,结合局部空间自相关法对空间异常值进行识别,并基于相关性分析对异常值类型进行判别,同时以2006年北京市土壤重金属污染调查数据为例,对异常识别效果进行分析,以期丰富土壤重金属数据异常识别方法,为土壤重金属数据分析和评价工作提供辅助支撑。

1 材料与方法

1.1 研究区概况

北京市地处华北平原西北部,地形西北高、东南低,属大陆性季风气候,平均日照时数在2 000~2 800 h,农作物生成期225 d左右,土壤类型以褐土和潮土为主,另外包含少量水稻土、沼泽土和风沙土;西部、北部多分布褐土,东南部多分布潮土、湿潮土等。土壤成土母质为各类岩石风化物和第四纪疏松沉积物。受成土母质和地形的影响,北京市近郊区的种植物以果树、蔬菜为主,远郊区种植物以小麦、水稻和玉米为主[14]。

1.2 样品的采集与处理

本研究采用2006年北京市72个农田土壤重金属样点数据,点位分布情况如图1所示。采样时利用GPS获得样点地理坐标并详细记录采样点周围环境情况。测定方法按农业化学常规分析方法,每个样点单元均是边长为10 m的正方形,每个采样点采集土壤耕层(0~25 cm)3~5个点,按四分法将1.0 kg待分析样品混合。所有土样在室内自然风干,碾压磨碎后,过100目尼龙网筛。分析过程中加入国家标准样品进行分析,质量控制按照 GB —2018《土壤环境质量 农用地土壤污染风险管控标准》执行完成。

1.3 异常识别研究方法

本研究提出的土壤重金属异常识别方法主要包括3个方面。

首先,基于K临近距离,确定空间中合理稳定的研究区间。空间样点的距离关系将邻近结构限制为K个最近的近邻点,使得每个区域单元都有相同数量的近邻点[15]。通过设定K值,形成基于K个点的空间邻近关系,邻近点的空间邻接矩阵中对应项为1,否则为0。为下一步进行空间自相关分析提供权重基础。

其次,基于空间自相关的异常值测度指标,以空间自相关理论中的局部莫兰指数方法进行异常值测度,确定每类重金属异常点个数和高低、低高的异常类型。