车辆行为克隆

无人驾驶

发布日期: 2019-06-05

文章字数: 1.5k

阅读时长: 5 分

阅读次数:

网络搭建训练步骤：

数据收集
网络搭建
网络训练
模型测试

一、总体思路

1.1 模型体系结构

我的网络模型中的卷积层，前三层卷积神经网络的stride为${2}\times{2} $，kernel为${5}\times{5} $，而后两层卷积神经网络的stride为${1}\times{1} $，kernel为${3}\times{3}$。我跟随五个卷积层和三个完全连接的层，得到一个输出控制值，即反向转弯半径。这参考了NVIDIA在16年发表的论文“End to End Learning for Self-Driving Cars”，本文提出了一种将单个前置摄像头的原始像素直接映射到转向指令的网络。所以这篇论文与这个项目的目的是一致的。

NVIDIA的工作是基于卷积的设计。根据作者的观点，他们设计了卷积层作为特征提取器，而全连接层负责控制转向角。但是，正如他们所指出的，由于系统端到端的特性，使得在网络中分离出特性提取器和控制器的位置是极为困难的。

1.2 防止模型过度拟合

该模型包含池化层，以减少过度拟合，在不同的数据集上对模型进行训练和验证，以保证模型不过度拟合。
最后对模型进行了测试，通过在模拟器上运行该模型，并确保车辆能够保持在轨道上。

1.3 优化器

该模型使用adam优化器，因此学习速度不是手动调优的

model.compile(loss='mse', optimizer='adam')

1.4 训练数据

选择训练数据以保持车辆在道路上行驶。我使用了中心车道驾驶的组合，从道路左右两侧的转向角由于校正恢复，校正就是将原本不是处在中心的相机通过对角度进行 $\pm {correction}$，最后等效于中心相机的效果，这算是数据增强的一种方式。

correction = 0.2 # this is a parameter to tune

二、模型架构和培训策略

2.1 方案设计

推导模型体系结构的总体策略是通过摄像机图像来控制汽车的转向角。

我的第一步是使用卷积神经网络模型类似于LeNet。我认为这个模型可能是合适的，因为它是一个成熟的分类网络。
之后为了衡量模型运行得有好坏，我将图像和转向角数据分割成一个训练和验证集。我发现我的第一个模型在训练集上有一个低的均方误差，但在验证集上有一个高的均方误差。这意味着模型过度拟合。为了克服过拟合，我对模型进行了修改，使网络能够减少过拟合。然后我添加了dropout图层，但是效果不是很理想。之后，我参考了NVIDIA的工作。

最后在模拟器上测试，看看小车在轨道上的行驶情况。当小车经过一些特定的地方时，会脱离轨道，为了改善这些情况下的驾驶行为，我打乱了数据集的训练顺序，增加了批次的数量。在经过这个步骤后，车辆能够在不离开道路的情况下自动绕轨道行驶。

2.2 网络结构

最终的模型结构由一个卷积神经网络组成，该网络信息如下，

Layer	Description
Input	90x320x3 RGB image
Convolution 5x5(RELU)	2x2 stride, same padding, outputs 45x160x24
Max pooling	1x1 stride, outputs 44x159x24
Convolution 5x5(RELU)	2x2 stride, same padding, outputs 22x80x36
Max pooling	1x1 stride, outputs 21x79x36
Convolution 5x5(RELU)	2x2 stride, same padding, outputs 11x40x48
Max pooling	1x1 stride, outputs 10x39x48
Convolution 3x3(RELU)	1x1 stride, same padding, outputs 10x39x64
Max pooling	1x1 stride, outputs 9x38x48
Convolution 3x3(RELU)	1x1 stride, same padding, outputs 9x38x64
Max pooling	1x1 stride, outputs 8x37x48
Fully connected(RELU)	inputs 18944, outputs 1164
Fully connected(RELU)	inputs 1164, outputs 100
Fully connected(RELU)	inputs 100, outputs 50
Fully connected(RELU)	inputs 50, outputs 10
Fully connected	inputs 10, outputs 1