基于随机森林算法对贵阳龙洞堡机场能见度的可预报性研究Research on Visibility Predictability of Longdongbao Airport in Guiyang Based on Random Forest Algorithm
DOI: 10.12677/OJNS.2023.113045, PDF, HTML,XML, 被引量 下载:417 浏览:754 作者: 邓小光:中国民用航空西南地区空中交通管理局贵州分局,贵州 贵阳 关键词: 随机森林算法;低能见度;聚类分析;Random Forest Algorithm; Low Visibility; Cluster Analysis
摘要: 利用2017年贵阳龙洞堡国际机场常规观测逐小时数据以及同期贵阳市新华路站点(1446A)环境污染物逐小时数据,研究在气温、湿度、风速等常规气象要素与环境污染物共同作用下基于随机森林算法对低能见度的变化进行预测研究。研究结果表明:随机森林模型预测值序列与真实值序列相关系数较高,表明随机森林算法在能见度变化趋势上预测效果较好。从随机森林算法输出的因素重要性发现环境污染物的贡献较为重要,进一步研究了各环境污染物的日变化特征和月变化特征。利用HYSPLIT模式确定了机场近地面气团的来源,这使得机场气象要素以及环境污染物的来源地得以确定。
Abstract: Based on the hourly data of routine observation of Guiyang Longdongbao International Airport in 2017 and the hourly data of environmental pollutants at Xinhua Road station (1446A) in Guiyang during the same period, the random forest algorithm was used to predict the change of low visibility under the joint action of routine meteorological elements such as temperature, humidity, wind speed and environmental pollutants. The results show that the correlation coefficient between the predicted value sequence and the real value sequence of the stochastic forest model is high, which indicates that the stochastic forest algorithm is effective in predicting the change trend of visibility. According to the importance of factors output by random forest algorithm, it is found that the contribution of environmental pollutants is more important, and the daily and monthly variation characteristics of each environmental pollutant are further studied. The HYSPLIT model is used to determine the source of the air mass near the surface of the airport, which makes the meteorological elements of the airport and the source of environmental pollutants can be determined.
文章引用:邓小光. 基于随机森林算法对贵阳龙洞堡机场能见度的可预报性研究[J]. 自然科学, 2023, 11(3): 373-382. https://doi.org/10.12677/OJNS.2023.113045
1. 引言
能见度是表征大气透明状况的物理量。在民航飞行中,飞机起飞和着陆对能见度的依赖性极高,只有足够的能见度才能让飞机安全降落。低能见度天气是造成民航事故、影响飞行不正常的主要因素之一。低能见度天气一直是航空气象科研工作和服务的重点 [1] 。
近年来,国内外学者已经做了不少关于能见度的研究,谢超等 [2] 使用神经网络模型研究了华南低能见度天气。王楠等 [3] 使用EC数据建立了SVM低能见度预测模型,发现模型对于特定天气形势下引发的低能见度天气预报误差较小且预报提前量较大。司林青 [4] 基于BP神经网络方法分类训练了3个统计模型并与WRF天气模式产品对接,采用分类筛选法研发了龙洞堡机场24 h时效的逐时能见度预报产品,结果表明研究效果较好。
从低能见度产生条件可知,气溶胶粒子对低能见度的产生和演变规律也是不可忽略的。首先,气溶胶粒子作为凝结核对大气中的水汽凝聚起着重要作用;其次,不同气溶胶对太阳光的散射和吸收作用会使得环境温度变化,从而间接影响能见度的变化。气溶胶种类多样,可分为矿物气溶胶、碳气溶胶(黑碳和有机碳)、硫酸盐、硝酸盐、铵盐、海盐和生物气溶胶等,不同化学组分下的气溶胶对天气的影响有所不同 [5] 。而上述气溶胶的直接监测数据缺乏,但可以通过追踪气溶胶前体物NO2、CO、SO2以及O3、PM2.5、PM10等环境污染物的演变来表征空气中气溶胶特性及含量的变化。因此,在本次能见度变化研究中加入了环境污染物的贡献,这对研究效果可能会有一定的提升。
随机森林算法由Breiman Leo [6] 和Adele Cutler等 [7] 提出,该算法结合了Breiman的“Bootstrap Aggregating”(自举汇聚法)思想和Ho [8] 的“Random Subspace”(随机子空间)方法。随机森林算法是基于决策树的集成学习算法 [9] ,决策树是一种广泛应用的树状分类器,在树的节点上,通过选择最优的特征不断对目标进行分类,当达到分类最优时将会停止对树进行分类,并得到分类结果。但是单个决策树对目标预测性能有限,为了改善单个决策树的预测性能,将多个决策树集合起来,通过对每个决策树的分类结果进行组合,就形成了多个决策树组成的随机森林。随机森林的建立能够提升模型的预测精度和泛化能力,避免出现过拟合现象。佘星源等 [10] 使用随机森林算法建立低能见度天气等级判断模型,对比发现随机森林在准确度和计算效率方面较其他模型均有一定优势。付旭东等 [11] 通过构建随机森林1~6 h风场预报模型,表明随机森林算法在风场预报中有较好的泛化能力,对地面10米风场有较好的预报水平。朱国栋等 [12] 结合不同数量的决策树进行模型训练后,研究建立基于随机森林方法的乌鲁木齐机场逐时温度回归预报模型,预测效果较好。徐敏辉等 [13] 通过建立随机森林回归模型,对低RVR的大雾过程进行拟合,发现背景光亮度、相对湿度、低云高、温度对RVR的影响较大,随机森林回归模型的测试机相关系数大0.886,说明其具备较好的学习能力和较优的拟合效果。
贵阳龙洞堡机场位于中国贵州省贵阳市东郊,坐标为(106.7988˚E, 26.5438˚N),海拔高度1139米,地处云贵高原东麓,其复杂的地形条件导致能见度预报变得尤为困难。