CN112270226A

CN112270226A - 一种基于多特征提取和多注意力机制的行人轨迹预测方法

Info

Publication number: CN112270226A
Application number: CN202011108167.1A
Authority: CN
Inventors: 姜明新; 曹苏群; 凯·苏嘉莎
Original assignee: Huaiyin Institute of Technology
Current assignee: Shenzhen Hongzhuan Intellectual Property Co ltd
Priority date: 2020-10-16
Filing date: 2020-10-16
Publication date: 2021-01-26
Anticipated expiration: 2040-10-16
Also published as: CN112270226B

Abstract

本发明提供了一种基于多特征提取和多注意力机制的行人轨迹预测方法，首先，提取静态环境特征和动态环境特征，所述动态环境特征包括其他行人对目标的影响及非行人因素对目标的影响；其次，构建静态环境特征注意力模块和动态坏境特征注意力模块；最后，将注意力模块的输出送入长短时记忆网络实现行人轨迹预测。本发明相对于传统的行人轨迹预测方法有较高的精度，同时提高了轨迹预测的速度，在一定程度上改进了行人轨迹预测的性能。

Description

一种基于多特征提取和多注意力机制的行人轨迹预测方法

技术领域

本发明涉及一种行人轨迹预测方法，具体为一种基于多特征提取和多注意力机制的行人轨迹预测方法。

背景技术

行人轨迹预测已经成为了计算机视觉领域的热点研究课题之一，被广泛应用到智能视频目标跟踪、无人驾驶、机器人导航、人群行为分析等各种领域。国内外的研究人员已经取得了一些研究成果，对该领域的发展起到了十分重要的推动作用。但是，由于人类行为的复杂性，影响行人轨迹变化的因素较多，导致现有方法仍然存在一定程度的局限性，使得行人轨迹预测依旧是一个具有挑战性的研究课题。

近年来，行人轨迹预测方法取得了很大的进步，一些研究人员将深度学习网络应用到行人轨迹预测的过程当中，并且从多种角度来考虑影响行人运动的因素，克服早期方法中仅考虑某一方面影响因素的弱点。在一定程度上提高了行人轨迹预测的性能，但还存在一定的局限性，考虑的因素还可以更加全面。

为了克服现有方法存在的问题，提出一种基于多特征提取和多注意力机制的行人轨迹预测方法，在提取行人所在场景环境的静态深度特征的同时，也从目标周围的行人轨迹和非行人轨迹中提取动态深度特征，并且对静态深度特征和动态深度特征分配不同的注意力权重，最后，将注意力模块的输出送入LSTM网络中实现行人轨迹预测。

发明内容

发明目的：本发明提出一种基于多特征提取和多注意力机制的行人轨迹预测方法，具有较高的精度，同时提高了轨迹预测的速度，在一定程度上改进了行人轨迹预测的性能。

技术方案：本发明所述的一种基于多特征提取和多注意力机制的行人轨迹预测方法，包括以下步骤：

(1)提取静态环境特征和动态环境特征，所述动态环境特征包括其他行人对目标的影响及非行人因素对目标的影响；

(2)构建静态环境特征注意力模块和动态坏境特征注意力模块；

(3)将注意力模块的输出送入长短时记忆网络实现行人轨迹预测。

进一步地，步骤(1)所述的静态特征提取实现过程如下：

利用现有方法获得t时刻场景图像I_t的语义图I_t,semantic；采用CNN网络提取I_t,semantic的深度特征F_t,static：

F_t,static＝CNN(I_t,semantic；W_CNN) (1)

其中，W_CNN是权重矩阵。

进一步地，步骤(1)所述的动态特征提取实现过程如下：

采用LSTM网络从场景中出现的所有行人的历史轨迹中提取动态环境特征

t时刻第i个行人他周围的行人动态环境特征可以定义为：

将观测的时间间隔[1:T_obs]中所有的场景中存在的非行人目标的轨迹进行池化，得到一个池化向量P_t ⁱ，送入到多层感知层MLP提取非行人目标的动态特征：

其中，W_MLP为多层感知层的权重矩阵。

进一步地，所述步骤(2)实现过程如下：

静态环境特征注意力模块的输入为F_t,static，输出为注意力向量

W_t,static是静态环境特征注意力模块的权重矩阵：

动态环境特征注意力向量为：

W_t,dynamic表示动态环境特征注意力模块的权重矩阵，定义为：

W_dynamic＝δ(γ(cos(Ψ))) (7)

其中，δ(·)是sigmoid激活函数,γ(·)是1×1卷积,cos(Ψ)表示其他行人或者非行人轨迹间的方位角.假设场景中行人和非行人的数量为M，

表示第i个行人与第j个除他以外的动态轨迹之间的方位角,则cos(Ψ)为：

进一步地，所述步骤(3)实现过程如下：

给定t-1时刻LSTM网络的隐藏状态

记忆单元

可以通过LSTM网络计算

将注意力模块的输出，送入到LSTM网络，得到预测的轨迹为：

其中，

为目标i在t时刻的位置,

为预测位置，W表示LSTM网络的权重矩阵,

表示LSTM网络输出层

和隐藏状态

之间的权重矩阵，b_o是LSTM网络输出层的偏置项。

有益效果：与现有技术相比，本发明的有益效果：本发明相对于传统的行人轨迹预测方法有较高的精度，同时提高了轨迹预测的速度，在一定程度上改进了行人轨迹预测的性能。

附图说明

图1为本发明的流程图；

图2为静态环境特征提取示意图。

具体实施方式

下面结合附图对本发明作进一步详细说明。

假设场景中有N个行人，

表示N个行人的轨迹，其中

表示第i个行人在t时刻的位置，

表示预测的N个行人未来的轨迹。行人轨迹预测问题是给定所有行人在观测的时间间隔[1:T_obs]内的轨迹，来预测他们在未来一段时间[T_obs+1,T_pred]内的轨迹。

本发明提供的一种基于多特征提取和多注意力机制的行人轨迹预测，包含三个主要部分：多特征提取模块，多注意力机制模块和LSTM网络。多特征提取模块提取三种特征：从行人所在的场景中提取静态环境特征，从行人的历史运动轨迹中提取动态环境特征，同时，提取当前时刻的特征。与之相应的设计三种注意力机制模块：静态环境特征注意力模块、动态坏境特征注意力模块和不同时刻特征的注意力模块。如图1所示，具体包括以下步骤：

步骤1：提取静态环境特征和动态环境特征，其中，动态环境特征不仅考虑了其他行人对目标的影响，还考虑了非行人因素对目标的影响。

行人的运动轨迹会被场景中的静态特征(道路、建筑物、人行横道、出入口、草地等等)所影响，本文定义的语义标签C＝{road,building,grass,bench,sidewalk,obstacle,car,crossroads}。提取静态环境特征的过程如图2所示：

首先，利用现有方法获得t时刻场景图像I_t的语义图I_t,semantic。然后，采用CNN(Convolutional Neural Network)网络提取I_t,semantic的深度特征F_t,static：

F_t,static＝CNN(I_t,semantic；W_CNN) (1)

式中，W_CNN是权重矩阵。

除了静态环境以外，动态环境对行人的运动轨迹同样会产生影响。本文所述的动态环境主要考虑两部分：行人之间的相互影响和场景中存在的其他动态因素对行人的影响。采用LSTM网络从场景中出现的所有行人的历史轨迹中提取动态环境特征

行人之间的动态环境特征可以反映这些行人的运动规律，对于未来轨迹的预测可以起到重要的作用。

t时刻第i个行人他周围的行人动态环境特征可以定义为：

除了行人之外，环境中存在的行驶的车辆、运动的小动物等因素的变化也同样会影响行人的运动轨迹，将[1:T_obs]中所有的场景中存在的非行人目标的轨迹进行池化，得到一个池化向量P_t ⁱ，送入到多层感知层MLP(Multi-Layer Perceptron)来提取非行人目标的动态特征：

式中W_MLP为多层感知层的权重矩阵。

步骤2：构建静态环境特征注意力模块和动态坏境特征注意力模块。

本发明采用软注意力机制，静态环境特征注意力模块的输入为F_t,static，输出为注意力向量

W_t,static是静态环境特征注意力模块的权重矩阵：

动态环境特征注意力向量为：

W_dynamic＝δ(γ(cos(Ψ))) (7)

式中δ(·)是sigmoid激活函数,γ(·)是1×1卷积,cos(Ψ)表示其他行人或者非行人轨迹间的方位角.假设场景中行人和非行人的数量为M，

表示第i个行人与第j个除他以外的动态轨迹之间的方位角,则cos(Ψ)为:

步骤3：将注意力模块的输出送入长短时记忆网络实现行人轨迹预测。

目标i在t时刻的位置用

表示,预测位置用

表示。

给定t-1时刻LSTM网络的隐藏状态

记忆单元

可以通过LSTM网络计算

式中，W表示LSTM网络的权重矩阵,

表示LSTM网络输出层

和隐藏状态

之间的权重矩阵，b_o是LSTM网络输出层的偏置项。

本发明选取LSTM网络进行轨迹预测，将注意力模块的输出，送入到LSTM网络，可以得到预测的轨迹为：

本发明的实现基于Ubuntu 18.04LTS操作系统，GPU选用NVIDIA GTX1080TI，采用PyTorch深度学习框架。为了更好的测试本文提出的MFMA-LSTM行人轨迹预测方法的性能，选用了两个在基线算法中普遍采用的国际公开数据集:ETH and UCY。这两个数据集包含了五个行人场景：ETH-UNIV,ETH-HOTEL,UCY-UNIV,UCY-ZARA1和UCY-ZARA2，场景中共有1536个不同运动模式的行人，视频帧速率为25fps.

选用三种具有代表性的基线算法进行性能对比，分别为：Social-LSTM，Social-GAN和STGAT，这三种基线方法与本文提出的算法具有一定程度相关性的。

与三种基线算法类似，评价指标选用平均偏移误差ADE(Average DisplacementError)和最终偏移误差FDE(Final Displacement Error)。其中，ADE表示一个时间步长内预测位置和实际位置之间的平均欧氏距离：

FDE表示预测位置和实际位置在预测最终时刻的欧式距离：

表1和表2统计了观测序列长度T_obs＝8帧，预测序列长度分别为T_pred＝8帧和T_pred＝12帧的ADE、FDE以及它们的平均值。

表1不同轨迹预测算法ADE对比结果

表2不同轨迹预测算法FDE对比结果

从表1和表2可以看出，本发明相对于传统的行人轨迹预测方法有较高的精度，改进了行人轨迹预测的性能。