OpenEvaluation V2.0-高速公路行程时间预测方法评测方法研究

时间:2016-11-30

1. 数据来源

1.1 数据介绍

 

(1)总体数据介绍

本文的数据来源于OPENITS所开发的广州市机场高速南线(三元里至机场南路段)的抽样刷卡数据如下图所示,广州市机场高速三元里至机场南路段全长约26km,在国家高速公路网编制下,机场高速属大广高速公路的一部分。该路段行驶方向分为北行:从三元里至机场南方向;南行:从机场南至三元里方向。平沙收费站至机场收费站路段为双向八车道,其余部分为双向六车道,中三元里至平沙路段在市区范围,与市区主干道和环城高速堆叠为高架桥部分。

图1- 1  广州市机场高速南线地图

 

(2)抽样刷卡数据介绍

数据时间:某10天

数据地点:广州市机场高速南线,三元里至机场南路段,收费站布点图如图1-2所示。

图1- 2  机场高速设备设施位置信息

 

开放机场高速南线各个收费站的抽样刷卡数据,采取方法为每隔5min抽取10个刷卡样本,图1-3为收费站抽样数据的样例,刷卡数据主要包括:车辆进出流水ID、车辆进入收费站和离开收费站的时刻,各个字段的具体说明见表1-1。

数据优点:数据量丰富,数据质量高,是最接近真实情况的数据。

数据缺点:部分收费站在高速公路两侧修建,因此通过收费站流水数据得到的行程时间略大于真实值,收费站流水数据的空间覆盖率最低。

图1- 3   收费站抽样刷卡数据样例

 

表1- 1   抽样刷卡数据字段说明


广州机场高速公路南线共设有8个收费站,如下表1-2所示。以三元里收费站为起点,各收费站离三元里收费站的距离见表1-3。

表1- 2    收费站编号列表

表1- 3    各收费站离三元里收费站的距离

(3)数据选择

本文在数据选择方面,筛选出了数据量最多的数据,即收费站1和收费站8之间的刷卡数据作为本文的研究对象。计算方法为用经过出口收费站8的时间减去经过入口收费站1的时间作为该辆车在此段路段的旅行时间。

 

1.2 数据预处理

 

为能够使得数据更加精准,在实际训练和预测数据的过程中,分别选用1小时内所有车辆的旅行时间平均数,和半小时内全部的形成时间平均数作为实际的训练和预测数据。区别精度,更方便对预测数据的选择判断。

根据以上原则,本文筛选出的数据示例如图 1-4。


图1- 4  筛选后数据示例图

连续10天的数据经过分别筛选后,分别按照每1小时和每半小时为间隔,计算每辆车平均通过收费站1和收费站8之间的旅行时间,形成最终模型训练中所使用的数据。最后经过预处理的数据因数据量过大,于是保存在附录的附表-1、附表-2中。下图1-5、1-6为部分数据节选示意图。

图1- 5   一小时平均旅行时间数据示意图

图1- 6    半小时平均行程时间数据示意图

 

2. 预测结果的评价指标选用

 

本文的研究目的之一就是对比各种算法得到的结果,以做出对各种算法在本算例中应用的公平性评价结论。并且希望能够在本文中提出一套评价指标用来标准化评价指标能够供以后研究相关问题的研究者们在统一的基准上进行分析和对比。因此在此章中将选用一些评价指标进行分析,最终得出所选指标体系。

通过阅读文献,发现常用的评价指标有如下几个:

(1)绝对误差(Absolute Error):是指测量值与真实值之间的差的绝对值,即

(2)相对误差(Relative Error):是指测量值与真实值得差的绝对值比上真实值,即

(3)最大绝对相对误差(Maximum Absolute Relative Error):是指相对误差中的最大值,即

(4)均方误差(Mean Squared Error):是指所有样本数量的绝对误差的平方和比上样本数量N,即

(5)均方根误差(Root-Mean Square Error):是指均方误差的开方,也被称作标准误差。

(6)均方根相对误差(Root-Mean Square Phase Error):是指所有数量样本的相对误差的平方和比上样本数量的开方,即

(7)平均绝对百分比误差(Mean Absolute Percent Error):是指相对误差的绝对值的平均数,即

(8)R平方(R Squared):表示了数据的拟合程度。

 

分析以上8个常用的评价指标可以发现,由于绝对误差、相对误差和最大绝对相对误差只能表示某一个数据点的误差情况,因此不适合用于对于大数据预测的分析评价,因此提粗掉这三个评价指标。均方误差、均方根误差和均方根相对误差都能够很好的说明数据的变化程度和离散程度,这些数据的值越小,则说明预测的结果越精准,因此保留这三个评价指标;而平均绝对百分比误差MAPE能够很直观的看出模型对于整体数据样本的相对误差的数量,是对整体数据误差做出的估计,避免了像前三个评价指标一样只能单个数据点进行评价的劣势,而MAPE也通常被用于横向比较不同模型的预测结果,因此MAPE是一个非常有用的评价指标。R平方也是在预测领域常常被应用到的一个评价指标,它的数学意义就在于能够量化模型的拟合程度,因此对于预测结果的评价有着非常重要的意义。综上,本论文中所选择的评价指标为MAPE, MSE, RMSE, RMSPE和R Square。

 

3. 数据分析与比较

3.1 不同算法之间的结果比较

 

下图为比较在同等数据精度(一小时精度)下,利用不同算法预测旅行时间得到的预测结果。

下表为不同算法预测旅行时间得到的评价指标结果。

表3- 1  不同算法的评价指标结果比较


从上表可以看出,在已经搭建的六种模型中,表现最好的模型为SVM算法,在表格中已经用加粗字体标出;BP神经网络在预测方面也有着比较良好的表现,虽然SVM的表现有差距,但是基本在同一数量级上,差别不是很大。这说明,BP神经网络和SVM算法在对于行程时间的预测方面很好。

 

Kalman Filter也有着较小的MAPE,但是表征数据离散性的评价指标RMSE, RMSPE, MSE并不是很好,并且通过RR来看,它的拟合效果也不如以上提到的两种算法的表现。

 

再次,KNN最近邻算法和ARMA模型的MAPE在同一数量级上,都小于10%,也有着相对令人满意的预测结果,但是通过对比可以发现:尽管KNN最近邻算法相对于ARMA模型有着较小的MAPE值,但是表示离散性的RMSE,RMSPE,MSE都远不如ARMA模型好,通过RR的值来看,拟合度也不如ARMA模型。

 

再观察ARIMA季节差分模型,RR值较好,即模型拟合度较好,并且MAPE的值相对于ARMA模型较小,说明在此精度下ARIMA季节差分模型比ARMA模型好。但是表示数据离散型的RMSE, RMSPE, MSE指标的数值ARIMA差分模型比KNN和ARMA算法大,说明它的数据离散性较差。

 

但是继续深入分析我们可以发现,虽然SVM和BP Neural Network的结果在相同的数量级上,但是在时间上,SVM要比BP Neural Network时间久,并且这两种算法都相对除了ARIMA, ARMA模型耗时间久,这可能是由于它们在训练数据时收敛的速度较慢。K.NN算法由于不需要进行数据的训练,并且原理比较简单因此耗时很短,其简易性也是它的一个重要的优点;但是正因其原理的简易性,因此在实际模型的建构时的效果并不突出,尤其是RR值,即数据的拟合性不好。但是通过文献阅读,发现优化计算距离的方式可能会有利于其预测结果和数据拟合表现的提升;通过文献查阅和本文的算例发现Kalman Filter对于输入数据的适应性好,并无太多关于数据平稳性的要求,因此预测效果也比较好。但在实际的建模当中发现,尽管有效参数不多,但是参数的选择将对结果造成很大的偏差,因此,在利用Kalman Filter进行预测时,需要对参数的选择进行比较多的试验;最后是时间序列算法,即ARMA模型和ARIMA季节差分模型算法,通过预测结果的图像可以观察到,ARMA模型有很明显的数据滞后性,ARIMA模型并无明显的滞后性。但是可以发现对于尖点部分,ARIMA模型很难做到较好的预测。

 

3.2 不同数据精度的结果比较

表3- 2    不同数据精度的评价指标结果比较

通过上表各个算法自身不同精度得到的预测结果来比较,基本上符合数据间隔越小,相应的评价指标数值越优的特性,但ARIMA季节差分的算法比较特别。这点的解释可以归结为:上述五种算法都比较适合用来进行短期预测;同时,时间间隔越小得到的数据越精确,也越多,更有利用模型数据训练的过程。然而,针对ARIMA季节差分模型所出现的反差,结合上面不同算法之间的预测结果,即未进行差分的模型结果要优于经过差分的模型,比较来看,猜想是因为原始数据本身就存在很大的波动性和尖点,在差分之后数据的波动性更大,出现的更多尖点让时间序列难以得出较好的预测结果。

 

4、资源提供单位

 

本资源由北京航空航天大学提供。

开放资源负责人:马晓磊    北京航空航天大学   xiaolei@buaa.edu.cn

相关联系人:广东省智能交通系统重点实验室     章伟     openits@126.com

 

 

处理后的数据.rar 所有原始数据.rar 五种算法源代码.rar 总 源代码及数据.rar  
注 :下载数据后解压时请使用除winRAR以外的解压工具进行解压
您的评论
评论内容:
验  证  码:
 
(网友评论仅供其表达个人看法,并不表明本站同意其观点或证实其描述。)
评论列表
已有 1 条评论(查看更多评论)
本网站所有论文、数据等资源都由提供单位或个人负责,资源可供所有人免费下载使用,仅限用于非商业用途。
©2019   广东方纬科技有限公司  粤ICP备17163762号      管理员登陆