CN115576327B

CN115576327B - 基于自动驾驶智能小车边缘计算与推理的自主学习方法

Info

Publication number: CN115576327B
Application number: CN202211398386.7A
Authority: CN
Inventors: 洪智铭; 林青; 刘璟; 张正泉; 杨晨浩; 王子乐; 韩宇轩; 代梦宇; 胡波
Original assignee: Zhuhai Fudan Innovation Research Institute; Fudan University
Current assignee: Zhuhai Fudan Innovation Research Institute; Fudan University
Priority date: 2022-11-09
Filing date: 2022-11-09
Publication date: 2024-12-24
Anticipated expiration: 2042-11-09
Also published as: CN115576327A

Abstract

本发明提供了一种基于自动驾驶智能小车边缘计算与推理的自主学习方法，具有这样的特征，包括以下步骤：步骤S1，通过设置在现实小车和车道上的多个传感器，实时获得现实小车和车道的传感器数据；步骤S2，对第一观测数据和第二观测数据进行轻量级压缩蒸馏构建仿真环境；步骤S3，基于类增量的最近均值分类器得到仿真环境中的变化事件；步骤S4，基于变化事件对虚拟小车进行训练，训练结果作为增量数据集；步骤S5，结合增量数据集基于迭代权重更新现实小车的决策模型；步骤S6，根据第一观测数据结合决策模型得到最优策略并控制现实小车执行。本方法能够很好地解决路况观测数据局限性和实时部署最优响应的问题，具有极大的应用前景。

Description

基于自动驾驶智能小车边缘计算与推理的自主学习方法

技术领域

本发明涉及一种基于自动驾驶智能小车边缘计算与推理的自主学习方法，属于人工智能自动驾驶技术领域。

背景技术

近年来，人工智能(AI)在真实世界中的应用如机器人、自动驾驶等，都在关注如何与场景交互时做出更优化的实时决策。在人工智能中，边缘人工智能旨在通过多维度感知与多模态识别，使得赛车自主学习如何部署实时且连续的推理与决策，如索尼GTsophy赛车模拟游戏AI。

边缘人工智能的边缘计算领域主要分为基于正则化和回放的增量学习(Incremental Learning)范式，其中基于数据约束的正则化方法(LwF)算法具有从新数据中整合新知识和蒸馏提炼已有知识的能力，但LwF算法高度依赖新旧任务之间的相关性，当任务差异太大时会出现任务混淆的现象(inter-task confusion)，并且一个任务的训练时间会随着学习任务的数量线性增长，同时引入的正则项常常不能有效地约束模型在新任务上的优化过程。围绕这一问题，基于贝叶斯框架的参数约束算法(EWC)提出了改进策略，修正不同参数的重要性来拟合新任务训练的模型，但其在多个数据集上的表现均不如LwF稳健。另一方面，增量分类器和表征学习算法(iCaRL)是基于回放的经典模型，通过样本的最近均值规则选择增量分类器，基于分类与蒸馏损失之和的损失函数更新网络参数，但是这种方法可能会导致模型对保留下来的旧数据产生过拟合。

现有自动驾驶技术的增量学习范式一般通过小车摄像头采集数据，再由服务器根据采集数据训练模型，从而获得优化模型控制小车自动驾驶，但小车摄像头采集的数据具有局限性，且大量实时数据对服务器会产生较大的计算负担，从而导致小车无法实时处理突发情况。

发明内容

本发明是为了解决上述问题而进行的，目的在于提供一种基于自动驾驶智能小车边缘计算与推理的自主学习方法。

本发明提供了一种基于自动驾驶智能小车边缘计算与推理的自主学习方法，具有这样的特征，构建一个仿真环境并在仿真环境中基于现实小车构建相应的虚拟小车模型，包括以下步骤：步骤S1，通过设置在现实小车和车道上的多个传感器，实时获得现实小车的第一视角数据作为第一观测数据，获得车道的各视角观测数据作为第二观测数据；步骤S2，对第一观测数据和第二观测数据进行轻量级压缩蒸馏构建仿真环境；步骤S3，基于类增量的最近均值分类器得到仿真环境中的变化事件；步骤S4，基于置信度获得虚拟小车对变化事件的最优策略，基于虚拟小车处于变化事件的不同位置获得变化事件的第一视角特征图像，将第一视角特征图像和对应的最优策略作为增量数据集；步骤S5，结合增量数据集基于迭代权重更新现实小车的决策模型；步骤S6，根据第一观测数据结合决策模型基于车道中的不同变化事件的目标分布得到最优策略并控制现实小车执行。

在本发明提供的基于自动驾驶智能小车边缘计算与推理的自主学习方法中，还可以具有这样的特征：其中，第一观测数据为现实小车的第一视角图像数据，第二观测数据为车道的各视角图像数据，现实小车的传感器为多维车载摄像头模块包括：镜头设备、单一摄像头模组、加强深度测距的双摄模组、外置3D感光的三摄模组和飞行时间TOF传感器设备，车道各处的传感器包括：车道上方的鱼眼摄像头和车道的多个常规摄像头。

在本发明提供的基于自动驾驶智能小车边缘计算与推理的自主学习方法中，还可以具有这样的特征：其中，在步骤S2中，第一观测数据为J*K大小的数据结构w(x，y)，第二观测数据为M*N大小的数据结构f(x，y)，将第一观测数据和第二观测数据进行灰度化和归一化得到全局映射环境数据构建仿真环境，灰度化公式如下：式中R、G、B为传感器采集的像素值，归一化的相关系数c(x，y)公式如下：式中x＝0，1，2，...N-K，y＝0，1，2，...M-J，Δx为x的偏移量，Δy为y的偏移量，归一化的函数P用于计算定位范围与变化场景中的变换目标最匹配的概率，函数P公式如下：式中D＝D_GRAY，k是第二观测数据的全部像素D的分布得到的正系数(k＞0)。

在本发明提供的基于自动驾驶智能小车边缘计算与推理的自主学习方法中，还可以具有这样的特征：其中，步骤S4包括以下子步骤，步骤S4-1，识别仿真环境中存在最高相性的分布概率结合虚拟小车对变化事件做出策略的集合A^t和通过外部累积奖励r＝Q_n＝Q(s，u)所迭代推导出的置信度基于虚拟小车t时刻的状态s得到虚拟小车的最优策略为采样于集合A^t(s，u^t|τ^t)的最佳响应，Q_n为全局奖励，Beta_b(win，lose)为自我导向(WSLS)的变体算法，u^t为现实小车在t时刻的动作，τ^t为虚拟小车t时刻的动作-观测历史；步骤S4-2，将虚拟小车在变化事件远、中、近、左、右各角度的第一视角图像作为第一视角特征图像；步骤S4-3，将各变化事件的第一视角特征图像和最优策略作为增量数据集。

在本发明提供的基于自动驾驶智能小车边缘计算与推理的自主学习方法中，还可以具有这样的特征：其中，在步骤S6中，基于连续时间内不同变化事件的目标分布获得对多个变化事件的最优策略，不同变化事件X^(k)由多个变化事件的遍历联合概率分布通过吉布斯采样初始序列X_n＝{x_i：i＝1，2，…，n}和条件随机分布估计连续迭代采样拟合重构得到，条件随机分布估计为：式中式中为t+1时刻实时生成的最佳响应动作，为0～t时刻收集到的最优策略，为置信度b条件下能够检索到的j处变化事件x。

在本发明提供的基于自动驾驶智能小车边缘计算与推理的自主学习方法中，还可以具有这样的特征：其中，在步骤S6中，最优策略由多个最佳响应动作A^*(s，u^t|τ^t)构成，最佳响应动作A^*(s，u^t|τ^t)基于从0到t时刻生成拟合观测与动作估计序列的迭代更新如下：式中u^-t代表策略中选择其他随机动作的效用，(u^-t，τ^-t)代表状态空间s中采取现实小车第一视角时相应的全局联合动作空间的优势策略效用，Q(s，u)为最大化全局奖励，b_t为t时刻置信度。

在本发明提供的基于自动驾驶智能小车边缘计算与推理的自主学习方法中，还可以具有这样的特征：其中，通过学习参数a_i训练最佳响应动作A^*，学习参数a_i公式为：式中O_s为单位时间内的基础消耗，O_e为探索开销，O_g为任务损耗，k为变化事件的个数，α为学习速率，∑_i是遍历所有第二观测数据中的可类比参照物坐标，∑_g是通过探索高维度的策略梯度方向而实现的并行梯度更新策略。

发明的作用与效果

根据本发明所涉及的基于自动驾驶智能小车边缘计算与推理的自主学习方法，因为首先通过现实小车和车道各处的多个传感器，实时获取小车的第一视角观测数据作为第一观测数据，获取车道的各视角观测数据作为第二观测数据，获取虚拟小车的第一视角观测数据作为第三观测数据，其次对多组第一观测数据、第二观测数据和第三观测数据进行合并并实时更新，获得模拟训练数据，然后，运用模拟训练数据训练虚拟小车获得变化事件的优选策略序列作为策略数据集，接着在路面环境下，将第一观测数据中的变化事件与策略数据集进行特征匹配，得到最接近的变化事件，最后结合第一观测数据和第三观测数据，对变化事件的优选策略序列的信念分数进行计算，并选择信念分数最大的策略作为现实小车的最优策略并执行。所以，本发明的基于自动驾驶智能小车边缘计算与推理的自主学习方法能够形成超视距的预处理数据结构且确保同等训练效果的同时降低内存消耗。

附图说明

图1是本发明的实施例中的基于自动驾驶智能小车边缘计算与推理的自主学习方法的原理图。

图2是本发明的实施例中基于自动驾驶智能小车边缘计算与推理的自主学习方法的流程示意图；

图3是本发明的实施例中的仿真环境的示意图；以及

图4是本发明的实施例中的识别变化事件并标注最优策略的示意图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，以下实施例结合附图对本发明基于自动驾驶智能小车边缘计算与推理的自主学习方法作具体阐述。

图1是本发明的基于自动驾驶智能小车边缘计算与推理的自主学习方法的流程示意图。

如图1所示，本发明的基于基于自动驾驶智能小车边缘计算与推理的自主学习方法如下原理实现：通过车道传感器采集车道实时图像数据，基于无监督变化检测算法获得车道中现实小车的位置、朝向和目标位置等信息，再结合现实小车传感器的第一视角图像数据构建仿真平台，在仿真平台中对车道变化事件进行识别，并训练虚拟小车获得优选策略，再基于虚拟小车视角获得变化事件的特征图像，将优选策略和特征图像作为增量数据集，在现实小车原有决策模型的基础上进行迭代，将迭代后的决策模型实时部署在现实小车上，实现现实小车对变化事件的自主应对。

图2是本发明的基于自动驾驶智能小车边缘计算与推理的自主学习方法的流程示意图。

如图2所示，本实施例提供一种基于自动驾驶智能小车边缘计算与推理的自主学习方法，构建一个仿真环境并在仿真环境中基于现实小车构建相应的虚拟小车模型，包括以下步骤：

步骤S1，通过设置在现实小车和车道上的多个传感器，实时获得现实小车的第一视角数据作为第一观测数据，获得车道的各视角观测数据作为第二观测数据。

其中，第一观测数据为现实小车的第一视角图像数据，第二观测数据为车道的各视角图像数据，现实小车的传感器为多维车载摄像头模块包括：焦距为2.8mm的镜头设备、单一摄像头模组、加强深度测距的双摄模组、外置3D感光的三摄模组和高度集成的飞行时间TOF传感器设备，飞行时间ToF传感器基于经调制的近红外光遇物体后反射，通过计算光线发射和反射时间差或相位差，获得车道中现实小车的行进位置及当前环境内的障碍物及道标定位的相应深度信息，其测量范围可达数米、精度小于2cm，每秒更新频率可达30～60fps。车道各处的传感器包括：车道上方的鱼眼摄像头和车道的多个常规摄像头。

图3是本发明的实施例中的仿真环境的示意图。

如图3所示，通过现实环境的第一观测数据和第二观测数据得到全局映射环境数据从而构建基于现实环境的仿真环境。

步骤S2，对第一观测数据和第二观测数据进行轻量级压缩蒸馏构建仿真环境。

其中，在步骤S2中，第一观测数据为J*K大小的数据结构w(x，y)，第二观测数据为M*N大小的数据结构f(x，y)，将第一观测数据和第二观测数据进行归一化和灰度化得到全局映射环境数据并构建仿真环境。

灰度化公式如下：式中R、G、B为传感器采集的像素值，将传感器采集的图像数据进行灰度化可以提高匹配效率，避免低速的浮点计算，从而降低了复杂度。

在函数f的高灰度区域归一化的相关系数c(x，y)公式如下：式中x＝0，1，2，...N-K，y＝0，1，2，...M-J，Δx为x的偏移量，Δy为y的偏移量，归一化的函数P用于计算定位范围与变化场景中的变换目标最匹配的概率，函数P公式如下：式中D＝D_GRAY，k是第二观测数据的全部像素D的分布得到的正系数(k＞0)。

步骤S3，基于类增量的最近均值分类器得到仿真环境中的变化事件。

步骤S4，基于置信度获得虚拟小车对变化事件的最优策略，基于虚拟小车处于变化事件的不同位置获得变化事件的第一视角特征图像，将第一视角特征图像和对应的最优策略作为增量数据集。

其中，步骤S4包括以下子步骤，

步骤S4-1，识别仿真环境中存在最高相性的分布概率结合虚拟小车对变化事件做出策略的集合A^t和通过外部累积奖励r＝Q_n＝Q(s，u)所迭代推导出的置信度基于虚拟小车t时刻的状态s得到虚拟小车的最优策略为采样于集合A^t(s，u^t|τ^t)的最佳响应，Q_n为全局奖励，Beta_b(win，lose)为自我导向(WSLS)的变体算法，u^t为现实小车在t时刻的动作，τ^t为虚拟小车t时刻的动作-观测历史。

当且仅当非平稳环境中的可测空间的α-有限测度满足子集的返回时间t＝inf(n＞0：X_n∈A)时，条件随机场分布能够近似拟合并生成类第一视角目标分布：

式中联合动作空间(u^t|τ^t)用于表征前t时刻的第二观测数据f(x，y)融合而成的拟合序列以及t时刻第一观测数据w(x，y)所选择的第一视角动作u。

步骤S4-2，将虚拟小车在变化事件远、中、近、左、右各角度的第一视角图像作为第一视角特征图像，针对当前场景快速提取车道的细粒度特征并进行轻量化蒸馏，使云服务器能够压缩大量冗余与重复的模糊图，确保同等训练效果即第一视角图像的同时降低内存消耗。

步骤S4-3，将各变化事件的第一视角特征图像和最优策略作为增量数据集。

步骤S5，结合增量数据集基于迭代权重更新现实小车的决策模型。

其中，根据增量数据集和原决策模型中场景的相关性调整决策模型的迭代权重，完成当前增量数据集的转向及绕行的行为标注，并将训练好的增量预处理模型部署在智能小车中达到高效识别与避障。

步骤S6，根据第一观测数据结合决策模型基于车道中的不同变化事件的目标分布得到最优策略并控制现实小车执行。

其中，在步骤S6中，基于连续时间内不同变化事件的目标分布获得对多个变化事件的最优策略，不同变化事件X^(k)由多个变化事件的遍历联合概率分布通过吉布斯采样初始序列X_n＝{x_i：i＝1，2，…，n}和条件随机分布估计连续迭代采样拟合重构得到，条件随机分布估计为：式中为t+1时刻实时生成的最佳响应动作，为0～t时刻收集到的最优策略，为置信度b条件下能够检索到的j处变化事件x。

最优策略由多个最佳响应动作A^*(s，u^t|τ^t)构成，最佳响应动作A^*(s，u^t|τ^t)基于从0到t时刻生成拟合观测与动作估计序列的迭代更新如下：式中u^-t代表策略中选择其他随机动作的效用，(u^-t，τ^-t)代表状态空间s中采取现实小车第一视角时相应的全局联合动作空间的优势策略效用，Q(s，u)为最大化全局奖励，b_t为t时刻置信度。

通过学习参数a_i训练最佳响应动作A^*，学习参数a_i公式为：式中O_s为单位时间内的基础消耗，O_e为探索开销，O_g为任务损耗，k为变化事件的个数，α为学习速率，∑_i是遍历所有第二观测数据中的可类比参照物坐标，∑_g是通过探索高维度的策略梯度方向而实现的并行梯度更新策略。

如图4所示，由鱼眼摄像头实时监测，并基于无监督检测算法更新现实小车当前行进位置、朝向及全局俯瞰图中的目标定位，图3左侧为现实小车行进的任何时刻全局俯瞰图，图3中间部分为车道出现的变化事件如图中的蓝色圆点，并以二值化的方式显示车道传感器设备监测到的“新增物”即变化事件为白色圆点，此处白点表示该点处发生突变，黑点即为不变，输出至图3右侧，白点标注位置即现实小车第一视角中变化事件的位置，从而使现实小车具有新场景识别、突发场景识别、不常见场景识别的变化检测能力，通过将得到的最优策略转化为对基于类第一视角的转向或绕行标注，当现实小车第一视角出现变化事件时，对应最优策略的标注也呈现在现实小车第一视角中，现实小车根据标注执行对应的操作，如图3右侧所示，蓝白柱状物即现实小车行进过程中出现的变化事件，在现实小车第一视角出现对该变化事件最优策略的标注即左转指示牌，现实小车调取对指示牌的预设响应动作并执行即左转，从而避让蓝白柱状物。

在本实施例中，由现实车道一百圈测试结果为数据样本，基于现实小车和车道传感器对车道中变化事件的实时标注和准确率统计结果如下：

第一行为车道中各变化事件的类型，第二行是对变化事件的实时标注，第三行为标注符合现实情况的准确率，例如，第三行第二列单元格表示对车道中蓝白圆柱进行正确标注的概率是100％，如上表所示，本实施例中，对于车道中变化事件的标注准确率均大于等于94％，具有较高的识别准确率。

在本实施例中，云服务器基于蒸馏算法的T-S模型(Teacher-Studentmodel)对虚拟环境中的虚拟小车进行控制，基于虚拟小车对变化事件的最优策略获得增量数据集，现实小车根据增量数据集对变化事件采取相应动作。本实施例中存在三个对策模型，分别为由云服务器根据大数据量进行复杂运算得到的教师模型(Teacher)、由教师模型训练得到的学生模型(Student)即虚拟小车端和基于虚拟小车训练的增量数据集得到的蒸馏模型即现实小车端。由现实车道一百圈测试结果为数据样本，各模型基于不同观测数据对变化事件的识别准确率统计结果如下：

本表格中第一行为各模型的名称，第二行为各模型在仅采用第一观测数据下，对变化事件作出准确识别的概率，第三行为各模型在仅采用第二观测数据下，对变化事件作出准确识别的概率，第四行为各模型结合第一观测数据和第二观测数据，对变化事件作出准确识别的概率。例如，第四行第二列单元格表示云服务器的教师模型结合第一观测数据和第二观测数据，对变化事件作出准确识别的概率是97.77％。通过本表格可以看出，相较于仅采用第一观测数据或第二观测数据，各模型结合第一观测数据和第二观测数据对变化事件作出准确识别的概率更高。上表中，教师模型和蒸馏模型结合第一观测数据和第二观测数据所得到的准确率分别为97.77％和95.14％，可见现实小车通过增量数据集对变化事件作出准确识别的概率较高，且与云服务器教师模型的准确率较为接近。

实施例的作用与效果

根据本实施例所涉及的基于自动驾驶智能小车边缘计算与推理的自主学习方法，由小车和车道传感器获得实时路况图像数据，基于图像数据构建仿真环境，对仿真环境中的变化事件进行识别并生成最优策略，将最优策略和变化事件的特征图像作为训练结果，对小车决策模型进行迭代，从而实现小车对车道中变化事件的实时最优响应，因此，一方面，可以结合车道感知数据和小车感知数据构建全面的感知数据，从而更好地生成最优策略，另一方面通过对训练结果进行压缩蒸馏，使小车能更快完成决策模型的迭代更新，从而提高小车对车道中变化事件的实时响应速度。总之，本方法能够很好地解决路况观测数据局限性和实时部署最优响应的问题，具有极大的应用前景。

上述实施方式为本发明的优选案例，并不用来限制本发明的保护范围。

Claims

1.一种基于自动驾驶智能小车边缘计算与推理的自主学习方法，其特征在于，构建一个仿真环境并在仿真环境中基于现实小车构建相应的虚拟小车模型，包括以下步骤：

步骤S1，通过设置在所述现实小车和车道上的多个传感器，实时获得所述现实小车的第一视角数据作为第一观测数据，获得所述车道的各视角观测数据作为第二观测数据；

步骤S2，对所述第一观测数据和所述第二观测数据进行轻量级压缩蒸馏构建所述仿真环境；

步骤S3，基于类增量的最近均值分类器得到所述仿真环境中的变化事件；

步骤S4，基于置信度获得所述虚拟小车对所述变化事件的最优策略，基于所述虚拟小车处于所述变化事件的不同位置获得所述变化事件的第一视角特征图像，将所述第一视角特征图像和对应的所述最优策略作为增量数据集；

步骤S5，结合所述增量数据集基于迭代权重更新所述现实小车的决策模型；

步骤S6，根据所述第一观测数据结合所述决策模型基于所述车道中的不同变化事件的目标分布得到最优策略并控制所述现实小车执行，

其中，所述第一观测数据为所述现实小车的第一视角图像数据，所述第二观测数据为所述车道的各视角图像数据，

所述现实小车的传感器为多维车载摄像头模块包括：

镜头设备、单一摄像头模组、加强深度测距的双摄模组、外置3D感光的三摄模组和飞行时间TOF传感器设备，

所述车道各处的传感器包括：

所述车道上方的鱼眼摄像头和所述车道的多个常规摄像头，

在所述步骤S2中，所述第一观测数据为J*K大小的数据结构w(x，y)，所述第二观测数据为M*N大小的数据结构f(x，y)，将所述第一观测数据和所述第二观测数据进行灰度化和归一化得到全局映射环境数据构建所述仿真环境，

灰度化公式如下：

式中R、G、B为所述传感器采集的像素值，

归一化的相关系数c(x，y)公式如下：

式中x＝0，1，2，...N-K，y＝0，1，2，...M-J，Δx为x的偏移量，Δy为y的偏移量，

归一化的函数P用于计算定位范围与变化场景中的变换目标最匹配的概率，函数P公式如下：

式中D＝D_GRAY，k是所述第二观测数据的全部像素D的分布得到的正系数(k>0)，

所述步骤S4包括以下子步骤，

步骤S4-1，识别所述仿真环境中存在最高相性的分布概率结合所述虚拟小车对所述变化事件做出策略的集合A和通过外部累积奖励r＝Q_n＝Q(s，u)所迭代推导出的置信度基于所述虚拟小车t时刻的状态s得到所述虚拟小车的最优策略为采样于集合A^t(s，u^t|τ^t)的最佳响应，Q_n为全局奖励，Beta_b(win，lose)为自我导向(WSLS)的变体算法，u^t为所述现实小车在t时刻的动作，τ^t为所述虚拟小车t时刻的动作-观测历史；

步骤S4-2，将所述虚拟小车在所述变化事件远、中、近、左、右各角度的第一视角图像作为所述第一视角特征图像；

步骤S4-3，将各所述变化事件的所述第一视角特征图像和所述最优策略作为增量数据集，

在所述步骤S6中，基于连续时间内所述不同变化事件的目标分布获得对多个所述变化事件的所述最优策略，所述不同变化事件X^(k)由多个所述变化事件的遍历联合概率分布通过吉布斯采样初始序列X_n＝{x_i：i＝1，2，…，n}和条件随机分布估计连续迭代采样拟合重构得到，

所述条件随机分布估计为：

式中为t+1时刻实时生成的最佳响应动作，为0～t时刻收集到的最优策略，为置信度b条件下能够检索到的j处变化事件x，

在所述步骤S6中，所述最优策略由多个最佳响应动作A^*(s，u^t|τ^t)构成，所述最佳响应动作A^*(s,u^t|τ^t)基于从0到t时刻生成拟合观测与动作估计序列的迭代更新如下：

式中u^-t代表策略中选择其他随机动作的效用，(u^-t，τ^-t)代表状态空间s中采取所述现实小车第一视角时相应的全局联合动作空间的优势策略效用，Q(s，u)为最大化全局奖励，b_t为t时刻置信度，

通过学习参数a_i训练所述最佳响应动作A^*，所述学习参数a_i公式为：

式中O_s为单位时间内的基础消耗，O_e为探索开销，O_g为任务损耗，k为所述变化事件的个数，α为学习速率，Σ_i是遍历所有第二观测数据中的可类比参照物坐标，∑_g是通过探索高维度的策略梯度方向而实现的并行梯度更新策略。