• 《工程索引》(EI)刊源期刊
  • Scopus
  • 中文核心期刊
  • 中国科学引文数据库来源期刊

基于图像混合核的列生成PM2.5预测

李晓理, 张博, 杨旭

李晓理, 张博, 杨旭. 基于图像混合核的列生成PM2.5预测[J]. 工程科学学报, 2020, 42(7): 922-929. DOI: 10.13374/j.issn2095-9389.2019.07.15.002
引用本文: 李晓理, 张博, 杨旭. 基于图像混合核的列生成PM2.5预测[J]. 工程科学学报, 2020, 42(7): 922-929. DOI: 10.13374/j.issn2095-9389.2019.07.15.002
LI Xiao-li, ZHANG Bo, YANG Xu. Column-generation PM2.5 prediction based on image mixture kernel[J]. Chinese Journal of Engineering, 2020, 42(7): 922-929. DOI: 10.13374/j.issn2095-9389.2019.07.15.002
Citation: LI Xiao-li, ZHANG Bo, YANG Xu. Column-generation PM2.5 prediction based on image mixture kernel[J]. Chinese Journal of Engineering, 2020, 42(7): 922-929. DOI: 10.13374/j.issn2095-9389.2019.07.15.002

基于图像混合核的列生成PM2.5预测

基金项目: 国家自然科学基金资助项目(61873006,61473034,61673053);北京市科学重大专项资助项目(Z181100003118012);国家重点研发计划资助项目(2018YFC1602704,2018YFB1702704)
详细信息
    通信作者:

    杨旭: E-mail:yangxu@ustb.edu.cn

  • 分类号: TP181

Column-generation PM2.5 prediction based on image mixture kernel

More Information
  • 摘要: 传统PM2.5预测方法获取污染物浓度数据需要大型精密仪器,成本较高。本文尝试利用图像数据进行PM2.5浓度预测。大气PM2.5浓度的变化与图像的暗通道强度、对比度和HSI(Hue-saturation-intensity)颜色差异有密切联系。大气中PM2.5浓度的升高会导致非天空区域的暗通道强度值下降,图像对比度下降和HSI空间颜色差异变小。通过分析PM2.5浓度与图像特征的关系,提出了一种基于图像混合核的列生成空气质量PM2.5预测模型。首先,以1 h为采样周期,每日8:00~17:00为采样范围,采集多种天气条件下的景物图像,提取图像的对比度、暗通道强度和HSI颜色差异共5个图像特征。其次,数据存在样本规模大、样本不平坦分布等特点,单个核函数构成的预测模型难以满足预测精度需求,因此本文按照核结构从简单到复杂的原则,选择线性核函数、多项式核函数和高斯核函数三种核函数建立组合模型。然后计算每个核基于训练样本的Gram矩阵,并将所有Gram矩阵并列成一个混合核矩阵。利用列生成算法和混合核矩阵建立预测模型,求解模型参数。最后,进行仿真实验,实验结果表明本文提出的可满足预测精度要求,与单核预测模型相比,该预测模型预测精度更高,模型稳定性更好。计算复杂度分析结果显示基于图像混合核的列生成模型与单核预测模型相比计算量无明显增加。
    Abstract: The conventional method of PM2.5 prediction requires high-precision instruments to obtain data on the concentration of pollutants, resulting in a high prediction costs. In this work, we attempt to use image data to estimate PM2.5 concentration. The concentration of atmospheric PM2.5 is closely linked to the image’s dark channel intensity, contrast, and color difference of HSI. The increase in atmospheric PM2.5 concentration leads to a decrease in the non-sky area dark channel intensity, image contrast, and HSI spatial color difference. In this paper, a Column-Generation PM2.5 prediction model based on image mixture kernel was proposed by analyzing the relationship between PM2.5 and image features. First, the sampling period was taken as 1 h, and 8:00–17:00 was taken as the sampling range daily. The scene images were recorded in different weather conditions, and five image features were extracted, including contrast, dark channel intensity, and HSI color difference. Secondly, the image data has the characteristics of large sample size and uneven distribution, and the prediction model consists of a single kernel function, which makes it difficult to meet the prediction accuracy requirement. Therefore, the linear kernel function, polynomial kernel function, and Gauss kernel function were chosen to construct a composite model according to the concept of kernel structure from simple to complex. Then each kernel's Gram matrix was calculated based on training samples, and all gram matrices were placed into a mixture kernel matrix. Using the column generation algorithm and mixture kernel matrix, the prediction model was developed and the parameters of the model were solved. Finally, simulation experiments were performed; the results show that the prediction model based on the image mixture kernel of Column-Generation PM2.5 can meet the prediction accuracy requirements. The model has higher prediction accuracy and better model stability in comparison with the single-kernel prediction model. A computational complexity analysis shows that the prediction model based on the image mixture kernel of column-generation PM2.5 has no significant increase in computational complexity in comparison with the one-kernel prediction model.
  • 伴随着雾霾在全国各地出现的频率越来越高,环境问题越来越引起人们的关注,尤其以京津冀地区最为明显。PM2.5是造成雾霾的主要因素,其在空气中滞留时间长,通过对太阳光的吸收、散射或反射,降低环境可见度;PM2.5颗粒被吸入人体后,会渗透到肺部组织,引发支气管炎等疾病,对人体健康造成危害。加强大气环境污染控制已成为亟待解决的问题,通过对PM2.5预测,可以为环境治理和人们健康出行提供准确的环境质量信息,有助于减轻环境污染对群众造成的危害。

    近年来,国内外学者都对PM2.5预测方法进行了卓有成效的研究。文献[1]基于单时间序列模型,将动态指数平滑法和动态马尔科夫模型相结合,通过PM2.5历史数据预先确定算法的最优参数,对PM2.5进行动态预测,并验证了模型的有效性。文献[2]通过构建空间平滑核,对梯度增强算法进行改进,有效解决了PM2.5浓度与气溶胶光学深度、气象条件等预测变量之间的空间非平稳性,对日PM2.5进行预测。文献[3]提出了一种基于主成分分析和最小二乘支持向量机的杜鹃搜索混合模型,并将模型的预测效果与广义回归神经网络模型作对比,效果更优。文献[4]提取大气温度、湿度和风速3个特征,训练长短期记忆模型对1 h后的PM2.5污染等级进行预测,证明了PM2.5污染与周边地区的气象条件有密切联系。文献[5]利用随机数据分析方法,在多变量系统中选择与PM2.5相关的随机变量,作为神经网络的输入,实现了空气质量预测。文献[6]建立基于互补集合经验模态分解和支持向量回归的混合预测模型。对PM2.5质量浓度的原始时间序列进行分解,得到若干具有不同时间尺度的相对平稳分量,采用SVR算法对各个分量分别进行预测,求出各个分量的预测值之和,作为原始PM2.5质量浓度的预测结果。

    也有学者利用图像对PM2.5进行预测。文献[7]利用大量室外图像,结合太阳位置、日期、时间、地理信息、天气条件等相关数据对PM2.5进行预测,该方法避免了大气测量装置的限制,为预测PM2.5提供了一种更为便捷的方式。文献[8]以手机照片为数据源,对良好天气下空间域和变换域的图像熵值建立自然度统计模型,通过计算污染图像的熵值的偏差度对PM2.5进行预测。文献[9]对不同天气条件下的照片质量进行分析建模,通过提取PM2.5浓度相关的特征建立粒子群优化的支持向量回归模型,实现了良好的预测效果。

    鉴于大气环境复杂多变,PM2.5预测中需要考虑的因素较多,本文在上述研究的基础上,提出了一种基于图像混合核的列生成PM2.5预测方法。该方法通过分析图像变化与PM2.5浓度的关系,提取图像特征,并利用相关性分析完成特征选择。将图像特征经混合核映射到高维线性空间,有效避免了单核函数选取不当造成的影响。最后使用列生成方法来求解模型参数,保证了解的稀疏性和精确性,实现了对PM2.5的有效预测。

    PM2.5指空气动力学当量直径小于等于2.5 μm的悬浮物颗粒,会对可见光产生明显的散射作用。大气中PM2.5浓度的变化会使图像呈现不同的对比度、暗通道强度、可见度等特征信息,这使得利用图像实现PM2.5预测成为可能。

    本文采用了基于图像混合核的列生成方法研究了PM2.5预测问题,为了更好地介绍理论的原理,下面对方法中需要用到的一些数学基础知识进行简单地说明。

    核方法被证明了是解决许多应用中推理问题的有效方法。通过引入正半定核${{K}}$,可以使用线性学习算法创建非线性模型。给定观测样本$\left\{ \left( {{{{x}}_1},}\right.\right.$$\left.{\left. {y_1} \right),\left( {{{{x}}_2},{y_2}} \right), \cdots ,\left( {{{{x}}_l},{y_l}} \right)} \right\} \in {{X}} \times {{Y}}$。其中输入空间${{X}} \in {{\bf{R}}^n}$,输出空间${{Y}} \in {\bf{R}}$(回归问题),通过非线性映射:

    $$\begin{array}{l} \varPhi :{{X}} \to {{F}} \\ {\rm{ }}{{x}} \mapsto \varPhi {\rm{(}}{{x}}{\rm{)}} \\ \end{array} $$ (1)

    把输入数据映射到一个新的特征空间${{F}} = \left\{ {\varPhi ({{x}})|{{x}} \in {{X}}} \right\}$,其中${{F}} \in {{\bf{R}}^n}$,原问题转化为:

    $$\{ (\varPhi ({{{x}}_1}),{y_1}),(\varPhi ({{{x}}_2}),{y_2}), \cdots ,(\varPhi ({{{x}}_l}),{y_l})\} \in {{F}} \times {{Y}}$$ (2)

    在满足Mercer条件情况下,一定存在一个特征空间${{F}}$和一个映射$\varPhi :{{X}} \to {{F}}$,使得

    $$k({{x}},{{z}}) = \varPhi ({{x}}) \times \varPhi ({{z}})$$ (3)

    $k({{x}},{{z}})$即为核函数。

    核函数有两种主要的类型:全局核函数和局部核函数,局部性核函数学习能力强、泛化性能较弱,而全局性核函数泛化性能强、学习能力较弱,因此考虑把这两类核函数混合起来构成混合核函数。对文献[10]中混合核函数的形式进行扩展得到多核混合核函数的形式为$k({{x}},{{z}}) = \displaystyle\sum\limits_{p = 1}^P {{\mu _p}{k_p}({{x}},{{z}})} $,其中${k_p}\left( {{{x}},{{z}}} \right)$为单核函数,$p$是对应的核函数编号,${\mu _p}$为组合系数。由SVM决策函数可知,混合核函数的决策函数为:

    $$f(x) = \sum\limits_{j = 1}^l {{\alpha _j}\left( {\sum\nolimits_p {{\mu _p}{k_p}({{x}},{{{x}}_j})} } \right)} $$ (4)

    式中,${{\alpha }}$是模型参数,${{{x}}_j}$是第$j$个输入向量。本文中,不单独计算每个核矩阵(核对样本的Gram矩阵),而是采用混合模型,其决策函数为:

    $$f(x) = \sum\limits_{j = 1}^l {\sum\limits_{p = 1}^P {\alpha _j^p{k_p}({{x}},{{{x}}_j})} } $$ (5)

    列生成算法是用于求解大型线性规划问题的一种重要方法。在原始问题中,列生成算法并不是一次性求解出所有参数${{\alpha }}$,而是选取混合核矩阵${{K}}$(构造方法在第4章介绍)的列子集并求解对应的${{\alpha }}$的最优解[11]。根据拉格朗日对偶性[12],通过求解对偶问题可得到原始问题的最优解。原始问题的每一列对应于对偶问题的一个约束,当约束问题的解违反对偶问题中不存在的约束时,则需将该约束(原始问题中的一列)添加到约束问题中,以获得最优解。

    基于决策函数(5),重写文献[13]中的线性列生成增强算法,使用2范数正则化构建如下凸二次规划问题:

    $$\begin{array}{l} {\min _{\alpha ,\xi }}{\rm{ }}\dfrac{1}{2}\displaystyle\sum\limits_{j = 1}^d {\alpha _j^2} + C\displaystyle\sum\limits_{i = 1}^l {{\xi _i}} \\ {\rm{s}}{\rm{.t}}{\rm{. \;\;\;\;}}{y_i}\displaystyle\sum\limits_{j = 1}^d {{{{K}}_{ij}}{\alpha _j} + {\xi _i}} {\rm{ }} \geqslant 1,{\rm{ }}{\xi _i} \geqslant 0,{\rm{ }}i = 1, \cdots ,l, \\ {\rm{ }}{\alpha _i} \geqslant 0,{\rm{ }}j = 1, \cdots ,d \\ \end{array} $$ (6)

    求得其对偶问题为:

    $$\begin{array}{l} {\rm{ma}}{{\rm{x}}_u}{\rm{ mi}}{{\rm{n}}_\alpha }{\rm{ }}\displaystyle\sum\limits_{i = 1}^l {{u_i}} - \dfrac{1}{2}\displaystyle\sum\limits_{j = 1}^d {\alpha _j^2} \\ {\rm{s}}{\rm{.t}}{\rm{.\;\;\;\;\;\;}}\displaystyle\sum\limits_{i = 1}^l {{u_i}{y_i}{{{K}}_{ij}}} \leqslant {\alpha _j},{\rm{ }}j = 1, \cdots ,d, \\ {\rm{ }}0 \leqslant {u_i} \leqslant C,{\rm{ }}i = 1, \cdots ,l \\ \end{array} $$ (7)

    求解式(6)和(7)的最优解为$({\hat{ \alpha }},{\hat{ \xi }},{\hat{ u}})$,根据文献[13],验证如下问题:

    $$\tau = \mathop {\max }\limits_j \sum\limits_{i = 1}^l {{{\hat u}_i}{y_i}{{{K}}_{ij}}} $$ (8)

    式中,$j$遍历核矩阵${{K}}$中的所有列。列生成算法将列系数${{\alpha }}$分为两部分,使用启发式算法选出的一部分$W$用于训练模型,未选中的部分$N$作为备选,假设未选中的部分${{{\alpha }}^N} = 0$,通过求解式(6)和(7)得当前最优解得${{{\alpha }}^W}$,则${\hat{ \alpha }}{\rm{ = (}}{{{\alpha }}^W},{{{\alpha }}^N}{\rm{ = 0)}}$。经文献[14]证明,$({\hat{ \alpha }},{\hat{ \xi }},{\hat{ u}})$是原始–对偶问题的当前最优解,如果对于所有的$j \in N,\displaystyle\sum\limits_{i = 1}^l {{u_i}{y_i}{{{K}}_{ij}}} \leqslant 0$,则$({\hat{ \alpha }},{\hat{ \xi }},{\hat{ u}})$即为满足KKT条件的全局最优解。对于线性列生成增强模型,每次选择$N$中使$\displaystyle\sum\limits_{i = 1}^l {{u_i}{y_i}{{{K}}_{ij}}} $最大的列${K_{ \cdot j}}$加入到约束问题中。

    将列生成增强算法推广到解决具有不敏感参数$\varepsilon $的损失函数$\max \{ \left| {y - f(x)} \right| - \varepsilon ,0\} $的回归问题[15],模型的下限约束$\alpha > 0$为非必需条件,所以在原模型中去除下限约束。为了构建回归模型,本文将偏离真实值至少$\varepsilon $的点作为误差点。使用2范数正则化,对应的凸二次规划问题为:

    $$\begin{array}{l} {\min _{\alpha ,\xi ,\eta }}{\rm{ }}\dfrac{1}{2}\displaystyle\sum\limits_{j = 1}^d {\alpha _j^2} + C\sum\limits_{i = 1}^l {({\xi _i} + {\eta _i})} \\ {\rm{s}}{\rm{.t}}{\rm{.}}\;\;\;\;\;\;\displaystyle\sum\limits_{i = 1}^l {{{{K}}_{ij}}{\alpha _j} + {\xi _i}} \geqslant {y_i} - \varepsilon ,{\rm{ }}i = 1, \cdots ,l, \\ {\rm{ }} - \displaystyle\sum\limits_{i = 1}^l {{{{K}}_{ij}}{\alpha _j} + {\eta _i}} \geqslant - {y_i} - \varepsilon ,{\rm{ }}i = 1, \cdots ,l, \\ {\rm{ }}{\xi _i} \geqslant 0,{\rm{ }}{\eta _i} \geqslant 0,{\rm{ }}i = 1, \cdots ,l. \\ \end{array} $$ (9)

    ${u_i}$${v_i}$为拉格朗日乘子,则原始问题(9)的对偶问题为:

    $$\begin{array}{l} {\max _{u,v}}\;{\rm{min}}_\alpha {\rm{ }}\dfrac{1}{2}\displaystyle\sum\limits_{j = 1}^d {\alpha _j^2} + \sum\limits_{i = 1}^l {({u_i} - {v_i}){y_i}} - \displaystyle\sum\limits_{i = 1}^l {({u_i} + {v_i})\varepsilon } \\ {\rm{s}}{\rm{.t}}{\rm{. \;\;\;\;\;\;\; }}\displaystyle\sum\limits_{i = 1}^l {({u_i} - {v_i}){{{K}}_{ij}}} = {\alpha _j} \\ \end{array} $$ (10)

    同理,求解如下问题:

    $$\tau = \mathop {\max }\limits_{j \in N} \left| {\sum\limits_{i = 1}^l {({{\hat u}_i} - {{\hat v}_i}){{{K}}_{ij}}} } \right|$$ (11)

    解为${{{K}}_{ \cdot \hat j}}$。经文献[14]证明,若$\tau = 0$,则当前最优解$({\hat{ \alpha }},{\hat{ \xi }},{\hat{ \eta }},{\hat{ u}},{\hat{ v}})$即为回归问题的全局最优解,否则,将${{{K}}_{ \cdot \hat j}}$加入到约束问题中去。

    空气中的雾霾会对图像造成严重的影响,会导致图像的一些特征值变低,尤其会影响图像的对比度、视见度、暗通道强度等[16]。本文提取多个与雾霾相关的图像特征,并将图像特征与PM2.5值做相关性分析完成特征选择。

    本节提取与PM2.5浓度相关的空间对比度、非天空区域的暗通道强度、HSI空间颜色差异等特征。

    大气透射是指光线从场景辐射到观察者时,减去空气中颗粒物等的折射剩余的部分,是一个0到1之间的标量。根据大气透射模型,大气光的消光与透射率呈反比关系,两者满足如下公式[17]

    $$t(x) = {\exp ^{ - {b_{{\rm{ext}}}}r(x)}}$$ (12)

    式中,${b_{{\rm{ext}}}}$是消光系数,$r(x)$是光的传输距离。根据文献[18]:

    $$\left| {{\nabla _x}I(x)} \right| = t(x)\left| {{\nabla _x}J(x)} \right|$$ (13)

    定义空间对比度${F_{{\rm{ig}}}}$为:${F_{{\rm{ig}}}} = \left| {{\nabla _x}I(x)} \right|$

    图像的暗通道强度定义为[19]

    $${J_{{\rm{dark}}}}(x) = \mathop {\min }\limits_{y \in \varOmega (x)} \left\{ {\mathop {\min }\limits_{c \in \{ r,g,b\} } {J^c}(y)} \right\}$$ (14)

    式中,$\varOmega (x)$是以像素$x$为中心的分块,$J$为场景辐射光,${J^c}$表示其中一个颜色通道。从式中可以看出,给定像素的暗通道强度值为该分块三颜色同道中的最小值。大量无雾霾图像的先验知识表明,无雾霾图像的暗通道强度值为0,即:

    $${J_{{\rm{dark}}}} \to 0$$ (15)

    将式(14)和(15)代入大气透射模型中,得:

    $$t(x) = 1 - \mathop {\min }\limits_{y \in \varOmega (x)} \left\{ {\mathop {\min }\limits_c \frac{{{I^c}(y)}}{{{A^c}}}} \right\}$$ (16)

    式中,${A^c}$为大气光,因此将$t(x)$选为特征${F_{{\rm{id}}}}$

    根据Kim等的研究[20],天空在HSI颜色空间中颜色差异与大气消光${b_{{\rm{ext}}}}$存在指数关系,可表示为:${b_{{\rm{ext}}}} = a{e^{b\Delta D}}$,式中$a$$b$为模型参数,$\Delta D$用来描述HSI空间中的差异。由于很难获取${b_{{\rm{ext}}}}$中在HSI三部分的影响参数,因此使用三部分在HSI颜色空间的差异值作为特征,定义如下:

    $$\begin{array}{l} {F_{{\rm{ih}}}} = \dfrac{1}{{m*n}}\displaystyle\sum\limits_{y = 1}^n {\displaystyle\sum\limits_{x = 1}^m {\sqrt {{d_{\rm{h}}}{{(x)}^2} + {d_{\rm{h}}}{{({\rm{y}})}^2}} } } \\ {\rm{ }}{d_{\rm{h}}}(x) = {I_{\rm{h}}}(x,y) - {I_{\rm{h}}}(x + 1,y) \\ {\rm{ }}{d_{\rm{h}}}(y) = {I_{\rm{h}}}(x,y) - {I_{\rm{h}}}(x,y + 1) \\ \end{array} $$ (17)

    式中,$I$是输入图像,其像素为$m * n$${I_{\rm{h}}}(x,y)$是像素点$(x,y)$$h$值。同样,${F_{{\rm{is}}}}$${F_{{\rm{ii}}}}$定义如下:

    $${F_{{\rm{is}}}} = \frac{1}{{m*n}}\sum\limits_{y = 1}^n {\sum\limits_{x = 1}^m {\sqrt {{d_{\rm{s}}}{{(x)}^2} + {d_{\rm{s}}}{{(y)}^2}} } } $$ (18)
    $${F_{{\rm{ii}}}} = \frac{1}{{m*n}}\sum\limits_{y = 1}^n {\sum\limits_{x = 1}^m {\sqrt {{d_{\rm{i}}}{{(x)}^2} + {d_{\rm{i}}}{{(y)}^2}} } } $$ (19)

    采用皮尔逊相关系数对图像特征进行相关性计算。皮尔逊相关系数广泛用于度量两个变量之间的相关程度,其值介于–1与1之间,其中1表示完全正相关。其形式如下:

    $$r = \frac{{\displaystyle\sum\limits_{i = 1}^n {({{{X}}_i} - {{\bar X}})({{{Y}}_i} - {{\bar Y}})} }}{{\sqrt {\displaystyle\sum\limits_{i = 1}^n {{{({{{X}}_i} - {{\bar X}})}^2}} } \sqrt {\displaystyle\sum\limits_{i = 1}^n {{{({{{Y}}_i} - {{\bar Y}})}^2}} } }}$$ (20)

    特征与PM2.5浓度值相关性越强,该特征越能表示图像的信息。当两组数据相关性系数大于0.6时,可认为两组数据相关性较强,当相关性系数小于0.6时认为两组数据相关性较弱。因此,本文选择与PM2.5相关性系数绝对值大于0.6的特征作为最终模型训练特征。

    PM2.5浓度变化主要影响图像对比度、非天空区域的暗通道强度、HSI空间颜色差异。由于图像特征与PM2.5浓度呈非线性关系[21],考虑到普通核函数各有利弊,为了得到学习能力和泛化能力都很强的核函数,采用混合核的方法建立图像特征值与PM2.5浓度之间的关系方程,并利用列生成算法求解方程参数。

    从图像中提取${F_{{\rm{ih}}}}$${F_{{\rm{is}}}}$${F_{{\rm{ii}}}}$${F_{{\rm{ig}}}}$${F_{{\rm{id}}}}$共5个特征,对各特征和1 h后的PM2.5 值进行相关性分析,结果如表1所示。5个特征与PM2.5浓度均呈负相关,可知PM2.5浓度升高,会导致图像对比度、暗通道强度下降,HSI颜色差异变小。其中${F_{{\rm{ig}}}}$,${F_{{\rm{id}}}}$与PM2.5值的相关性强,${F_{{\rm{ih}}}}$${F_{{\rm{is}}}}$${F_{{\rm{ii}}}}$与PM2.5的相关性较强。因此,本文选择${F_{{\rm{ih}}}}$${F_{{\rm{is}}}}$${F_{{\rm{ii}}}}$${F_{{\rm{ig}}}}$${F_{{\rm{id}}}}$共5个特征进行模型训练。

    表  1  特征与PM2.5相关性值
    Table  1.  Correlation between characteristics and PM2.5
    FigFidFihFisFii
    – 0.55– 0.46– 0.36– 0.4– 0.29
    下载: 导出CSV 
    | 显示表格

    为方便预测,首先构造混合核矩阵。将给定的多个核函数组成核函数集${{S}} = \{ {{{K}}_1},{{{K}}_2}, \cdots ,{{{K}}_p}\} $,计算每个核基于训练样本${{{K}}_p}( \cdot ,{x_j})$的Gram矩阵${{{K}}^p}$${{{K}}_p}( \cdot ,{x_j})$对应第$j$个训练样本)。然后,将所有Gram矩阵并列构成一个混合核矩阵${{K}} = [{{{K}}^1},{{{K}}^2}, \cdots ,{{{K}}^p}]$,则${{K}}$$l \times d$的矩阵,其中$d = l \times p$${{{K}}_{i \cdot }}$表示混合核矩阵的第$i$行,${{{K}}_{ \cdot j}}$表示混合核矩阵的第$j$列。

    在没有任何先验知识的前提下,优先选择简单的、计算成本低的核函数。本实验中,当简单核函数对应的列没有可添加的列用于求解时,则需要从更加复杂的核函数列中选取列用于求解。因此实验从简单到复杂采用三种核函数:线性核函数($L$)、多项式核函数($P$)、RBF核函数($R$)构建混合核。将给定的3个核函数组成核函数集${{S}} = \{ {{{K}}_L},{{{K}}_P}, \cdots ,{{{K}}_R}\} $,分别计算每个核基于训练样本的Gram矩阵${{{K}}^L},{{{K}}^P},{{{K}}^R}$。将所有Gram矩阵并列构成一个混合核矩阵${{K}} = [{{{K}}^L},{{{K}}^P},{{{K}}^R}]$,然后基于混合核矩阵利用列生成算法求解模型参数。实验中,$L,P,R$表示单核预测模型,$L + P + R$表示本文提出的混合核模型,核函数中的标准差$\sigma $${\left\| {{x_i} - {x_j}} \right\|^2}$的均值代替($i$,$j$遍历所有的训练样本)。基于图像混合核的列生成预测步骤如下。

    步骤1:采集图像数据和PM2.5浓度数据,经数据预处理后,配成样本对;

    步骤2:提取图像特征,与1 h后的PM2.5浓度数据做相关性分析,剔除弱相关特征;

    步骤3:选取多个核函数,计算核函数基于图像特征值的Gram矩阵;

    步骤4:将多个Gram矩阵合并为混合核矩阵;

    步骤5:抽取混合核矩阵的部分列构成列子集,利用列生成算法基于列子集求取模型当前解;

    步骤6:验证当前解是否为最优解。若是,输出最优解,模型构建完成;若否,抽取未选列中的最佳列添加到列子集中,返回步骤5;

    步骤7:利用验证集验证预测模型的精度与稳定性。

    为了衡量单核预测模型和本文混合核模型的性能优劣,采用均方根误差(${e_{{\rm{mse}}}}$),平均绝对百分比误差(${e_{{\rm{mape}}}}$)和相关系数(${R^2}$)3个指标对模型进行评估:

    $$\begin{array}{l} {e_{{\rm{mse}}}} = \sqrt {\dfrac{1}{n}\displaystyle\sum\nolimits_{i = 1}^n {({y_i} - {{\hat y}_i})} } {\rm{ }},\;\;\;{e_{{\rm{mape}}}} = \dfrac{1}{n}\displaystyle\sum\nolimits_1^n {\left| {\dfrac{{{y_i} - {{\hat y}_i}}}{{{y_i}}}} \right|},\;\;\;{\rm{ }}\\ {R^2} = 1 - \dfrac{{\displaystyle\sum\nolimits_{i = 1}^n {{{({y_i} - {{\hat y}_i})}^2}} }}{{\displaystyle\sum\nolimits_{i = 1}^n {{{(\bar y - {{\hat y}_i})}^2}} }} \end{array}$$

    式中:${y_i}$表示第$i$个样本对应的PM2.5浓度的真实值,${\hat y_i}$表示第$i$个样本对应的PM2.5浓度的预测值,$\bar y$表示模型预测输出平均值。${e_{{\rm{mse}}}}$反映模型预测输出值稳定性,${e_{{\rm{mape}}}}$反映模型预测输出值偏离实际值的程度,两者均是越小说明模型性能越好;${R^2}$反映模型预测输出值与真实值之间的关联程度,其值越接近1说明模型性能越好。

    本实验使用大气图像数据和对应的空气质量PM2.5数据进行实验。图像数据来源于安装在北京工业大学内的360智能摄像头,采集2019年1月1日至2019年5月31日每日9:00~16:00的600×320图像(每小时采样)共1000幅。PM2.5数据来自安装在北京工业大学校园内的808微型气象站。数据采集设备及数据样本如图1所示。

    图  1  数据采集设备(a)及数据样本(b)
    Figure  1.  Data acquisition equipment (a) and data samples (b)

    从采集的图像数据中随机抽取600张图像,将经过标准化处理的特征数据随机取400组作为训练样本,剩余200组作为测试样本。为了证明基于图像混合核与列生成模型的有效性,将该模型与单核预测模型实验结果进行对比。

    针对基于图像混合核的列生成PM2.5预测模型,利用预留的验证集数据进行仿真实验,仿真结果如图23所示。从图23中可以看出,采用基于图像混合核的列生成模型对1 h后的PM2.5值进行预测,预测值与期望输出值基本相吻合,能达到相对较高的预测精度。预测值的相对误差绝大部分维持在较低范围内。

    图  2  混合核模型预测值
    Figure  2.  Prediction results of mixture kernel model
    图  3  混合核模型预测相对误差
    Figure  3.  Relative error in mixture kernel model prediction

    除了个别因环境因素、人为因素等造成的较大偏差外,基本可以认为该模型满足了预测精度要求。同时,将基于图像混合核的列生成PM2.5预测模型与单核预测模型进行对比实验,结果如图4所示。

    图  4  4种模型预测相对误差
    Figure  4.  Relative error in prediction for the four models

    图4中可以看出,对于同一测试样本,基于图像混合核的列生成模型的预测相对误差要普遍小于其他单模型,且混合核模型的预测相对误差稳定维持在一定范围内,未出现较大误差,可认为基于图像混合核的列生成模型在预测性能和模型稳定性方面优于其他三个单核预测模型。

    结合3个性能指标对4种预测模型进行对比,结果如表2所示。相比于3种单核预测模型,基于图像混合核的列生成模型预测结果的均方根误差(${e_{{\rm{mse}}}}$)和平均绝对百分比误差(${e_{{\rm{mape}}}}$)最小,相关系数(${R^2}$)最大,说明基于图像混合核的列生成模型表现出了更高的预测精度和预测稳定性。

    表  2  4种模型性能对比
    Table  2.  Performance comparison of the four models
    Kernelemseemape/%R2
    L11.95913.6030.814
    P13.92415.6010.751
    R11.18812.2130.843
    L+P+R9.5539.9550.895
    下载: 导出CSV 
    | 显示表格

    基于图像混合核的列生成预测模型的计算复杂度取决于基于图像特征值的模型建立过程,因此其计算复杂度与列生成算法相等。列生成算法的计算复杂度计算如下:设样本总数为$n$,则混合核矩阵总列数为$np$,最终要抽取$m$列。抽取每列都要与其余所有列进行计算对比,则计算次数依次为$np,np - 1,np - 2, \cdots ,np - m + 1$,总计算次数为$mnp - \left( {{m^2} - m} \right)/2$。因为$m \ll n$,所以混合核模型的计算复杂度可表示为$O(nmp)$,同理的单核预测模型计算复杂度为$O(nk)$$k$为单核矩阵中抽取的列数)。本文中$p = 3$$m \ll n$$k \ll n$,可得$O(nmp) = O(nk) = O(n)$,所以混合核预测模型与单核预测模型相比,计算复杂度没有明显增加。

    综上,本文提出的基于图像混合核的列生成预测模型,在满足预测精度的前提下,获取数据的成本更低,获取数据的途径更便捷,计算复杂度与单核预测模型相比无明显增加,对进行PM2.5预测有一定的借鉴意义。

    列生成算法是解决多变量线性规划问题的典型方法,核函数可以将非线性数据映射到高维线性空间,本文将核技巧与列生成算法相结合,提出了一种基于图像混合核的列生成预测模型。通过实验得出以下结论:

    (1)针对大气PM2.5预测影响因素复杂、大气污染物浓度数据难以获取等问题,基于图像数据建立模型进行预测是可行的,当选取的图像特征与PM2.5密切相关时,能够取得不错的预测效果.

    (2)基于图像混合核的列生成预测模型无需考虑组合参数问题,且能从核矩阵中选择最佳的列,使模型的解具备稀疏性且预测精度可观.

    (3)混合核模型比普通单核预测模型的预测误差小、精度高,模型稳定性好,该模型具备良好的预测性能.

    (4)本文提出的模型对多雾、降雨和夜间等天气无法适用,会影响模型预测效果,需要在今后的工作中将此类特殊天气条件考虑到模型训练中,期望得到泛化能力更强、预测精度更高的预测模型。

  • 图  1   数据采集设备(a)及数据样本(b)

    Figure  1.   Data acquisition equipment (a) and data samples (b)

    图  2   混合核模型预测值

    Figure  2.   Prediction results of mixture kernel model

    图  3   混合核模型预测相对误差

    Figure  3.   Relative error in mixture kernel model prediction

    图  4   4种模型预测相对误差

    Figure  4.   Relative error in prediction for the four models

    表  1   特征与PM2.5相关性值

    Table  1   Correlation between characteristics and PM2.5

    FigFidFihFisFii
    – 0.55– 0.46– 0.36– 0.4– 0.29
    下载: 导出CSV

    表  2   4种模型性能对比

    Table  2   Performance comparison of the four models

    Kernelemseemape/%R2
    L11.95913.6030.814
    P13.92415.6010.751
    R11.18812.2130.843
    L+P+R9.5539.9550.895
    下载: 导出CSV
  • [1] 张熙来, 赵俭辉, 蔡波. 针对PM2.5单时间序列数据的动态调整预测模型. 自动化学报, 2018, 44(10):1790

    Zhang X L, Zhao J H, Cai B. Prediction model with dynamic adjustment for single time series of PM2.5. Acta Automatica Sinica, 2018, 44(10): 1790

    [2]

    Zhan Y, Luo Y Z, Deng X F, et al. Spatiotemporal prediction of continuous daily PM2.5, concentrations across China using a spatially explicit machine learning algorithm. Atmos Environ, 2017, 155: 129 doi: 10.1016/j.atmosenv.2017.02.023

    [3]

    Sun W, Sun J Y. Daily PM2.5 concentration prediction based on principal component analysis and LSSVM optimized by cuckoo search algorithm. J Environ Manage, 2016, 188: 144

    [4] 曲悦, 钱旭, 宋洪庆, 等. 基于机器学习的北京市PM2.5浓度预测模型及模拟分析. 工程科学学报, 2019, 41(3):401

    Qu Y, Qian X, Song H Q, et al. Machine-learning-based model and simulation analysis of PM2.5 concentration prediction in Beijing. Chin J Eng, 2019, 41(3): 401

    [5]

    Russo A, Raischel F, Lind P G. Air quality prediction using optimal neural networks with stochastic variables. Atmos Environ, 2013, 79: 822 doi: 10.1016/j.atmosenv.2013.07.072

    [6] 李建更, 罗奥荣, 李晓理. 基于互补集合经验模态分解与支持向量回归的PM2.5质量浓度预测. 北京工业大学学报, 2018, 44(12):1494

    Li J G, Luo A R, Li X L. Prediction of PM2.5 mass concentration based on complementary ensemble empirical mode decomposition and support vector regression. J Beijing Univ Technol, 2018, 44(12): 1494

    [7]

    Liu C B, Tsow F, Zou Y, et al. Particle pollution estimation based on image analysis. PloS One, 2016, 11(2): e0145955 doi: 10.1371/journal.pone.0145955

    [8]

    Gu K, Qiao J F, Li X L. Highly efficient picture-based prediction of PM2.5 concentration. IEEE Trans Ind Electron, 2019, 66(4): 3176 doi: 10.1109/TIE.2018.2840515

    [9] 李晓理, 张山, 王康. 基于图像质量分析的PM2.5空气质量预测. 北京工业大学学报, 2020, 46(2):191

    Li X L, Zhang S, Wang K. PM2.5 air quality prediction based on image quality analysis. J Beijing Univ Technol, 2020, 46(2): 191

    [10] 汪洪桥, 孙富春, 蔡艳宁, 等. 多核学习方法. 自动化学报, 2010, 36(8):1037 doi: 10.3724/SP.J.1004.2010.01037

    Wang H Q, Sun F C, Cai Y N, et al. On multiple kernel learning methods. Acta Autom Sin, 2010, 36(8): 1037 doi: 10.3724/SP.J.1004.2010.01037

    [11]

    Fink M, Desaulniers G, Frey M, et al. Column generation for vehicle routing problems with multiple synchronization constraints. Eur J Oper Res, 2019, 272(2): 699 doi: 10.1016/j.ejor.2018.06.046

    [12] 李航. 统计学习方法. 北京: 清华大学出版社, 2012

    Li H. Statistical Learning Method. Beijing: Tsinghua University Press, 2012

    [13]

    Demiriz A, Bennett K P, Shawe-Taylor J. Linear programming boosting via column generation. Mach Learn, 2002, 46(1-3): 225

    [14]

    Bi J B, Zhang T, Bennett K P. Column-generation boosting methods for mixture of kernels//Proceedings of the Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Seattle, 2004: 521

    [15]

    Vapnik V. The Nature of Statistical Learning Theory. Springer Science & Business Media, 2013

    [16]

    Berman D, Treibitz T, Avidan S. Single image dehazing using haze-lines. IEEE Trans Pattern Anal Mach Intell, 2018, 42(3): 720

    [17]

    Seinfeld J H, Pandis S N. Atmospheric Chemistry and Physics: from Air Pollution to Climate Change. John Wiley & Sons, 2016

    [18]

    Graves N, Newsam S. Camera-based visibility estimation: Incorporating multiple regions and unlabeled observations. Ecol Inform, 2014, 23: 62 doi: 10.1016/j.ecoinf.2013.08.005

    [19]

    He K M, Sun J, Tang X O. Single image haze removal using dark channel prior. IEEE Trans Pattern Anal Mach Intell, 2011, 33(12): 2341 doi: 10.1109/TPAMI.2010.168

    [20]

    Kim K W, Kim Y J. Perceived visibility measurement using the HSI color difference method. J Korean Phys Soc, 2005, 46(5): 1243

    [21] 袁立, 穆志纯, 刘磊明. 基于核主元分析法和支持向量机的人耳识别. 北京科技大学学报, 2006, 28(9):890 doi: 10.3321/j.issn:1001-053X.2006.09.019

    Yuan L, Mu Z C, Liu L M. Ear recognition based on kernel principal component analysis and support vector machine. J Univ Sci Technol Beijing, 2006, 28(9): 890 doi: 10.3321/j.issn:1001-053X.2006.09.019

图(4)  /  表(2)
计量
  • 文章访问数:  1673
  • HTML全文浏览量:  935
  • PDF下载量:  33
  • 被引次数: 0
出版历程
  • 收稿日期:  2019-07-14
  • 网络出版日期:  2020-07-09
  • 发布日期:  2020-06-30

目录

/

返回文章
返回