交通事故发生的影响因素十分复杂,包括交通流状态、环境状况、道路几何形状、驾驶员行为特性等。交通事故预测模型是指利用一定的规则将这些影响因素抽象成数学模型,并采用历史数据训练模型,标定参数,从而形成对新数据集具有分类预测能力的模型。本文采用一种常见的机器学习方法——支持向量机模型作为交通事故预测模型,并采用三种不同的核函数——线性核、高斯核、多项式核。本文的一个研究重点是对缺失数据的插值补全:交通流状态变量常常因为传感器故障、天气等原因出现数据缺失的问题,缺失数据插值补全的好坏对模型预测结果将有较大的影响。本文在交通事故预测问题中引进了一种缺失数据插值方法——概率主成分分析(PPCA),PPCA依据主成分分析和极大似然估计两个原理对缺失的数据进行补全,其补全值与真实值的均方根误差远远小于历史均值估计法。通过对对PPCA进行敏感性分析,我们可以得出以下结论:(1)在数据完整的情况下,随着解释变量的减少,模型的预测精度先上升后下降,说明解释变量过多将使得模型出现过拟合而降低预测精度,但解释变量过少模型将没有足够的信息进行预测,因此,在数据完整的情况下,我们可以找到最优的解释变量组合,基于最优组合的模型预测精度明显优于基于全部变量的模型预测精度;(2)在数据缺失的情况下,基于最优组合的模型预测精度反而不如基于全部变量的模型预测精度;(3)PPCA缺失数据补全方法+基于全部变量的支持向量机模型对缺失数据的敏感性非常低,在数据缺失率40%以下时,能获得和采用完整数据的支持向量机模型相接近的预测精度。 |
|
交通事故预测、支持向量机、概率主成分分析 | |
文档--基于缺失数据的城市快速路交通事故预测模型研究.docx 源代码与数据.zip 结题答辩.pptx | |
注 :下载数据后解压时请使用除winRAR以外的解压工具进行解压 |