DE102021004426A1

DE102021004426A1 - Method for training an autonomous driving function

Info

Publication number: DE102021004426A1
Application number: DE102021004426.6A
Authority: DE
Inventors: Andreas Petrovic; Cedric Perauer
Original assignee: Daimler AG
Current assignee: Mercedes Benz Group AG
Priority date: 2021-08-31
Filing date: 2021-08-31
Publication date: 2021-11-25

Abstract

Die Erfindung betrifft ein Verfahren zum Trainieren einer autonomen Fahrfunktion.Erfindungsgemäß wird mindestens ein Fahrzeug von einem als vorgegeben sicher klassifizierten menschlichen Fahrer gefahren, wobei Daten eines Umfelds des Fahrzeugs, Fahrdynamikdaten und Fahrbefehle (FB) des Fahrers erfasst und gesammelt werden, wobei mittels der erfassten und gesammelten Daten durch Inverse Reinforcement Learning (IRL) eine Belohnungsfunktion (BF) erlernt wird, und wobei die autonome Fahrfunktion mittels der erlernten Belohnungsfunktion (BF) durch Reinforcement Learning (RL) trainiert wird.The invention relates to a method for training an autonomous driving function. According to the invention, at least one vehicle is driven by a human driver classified as predefined safe, with data relating to the surroundings of the vehicle, driving dynamics data and driving commands (FB) from the driver being recorded and collected, with the recorded and a reward function (BF) is learned through Inverse Reinforcement Learning (IRL) and collected data, and the autonomous driving function is trained by means of the learned reward function (BF) through Reinforcement Learning (RL).

Description

Die Erfindung betrifft ein Verfahren zum Trainieren einer autonomen Fahrfunktion.The invention relates to a method for training an autonomous driving function.

Aus dem Stand der Technik ist, wie in der DE 10 2019 122 829 A1 beschrieben, eine Fahrzeugaktionssteuerung bekannt. Ein oder mehrere Zielbereiche in der Nähe eines sich bewegenden Fahrzeugs werden identifiziert. Das Fahrzeug wird zu einem Zielbereich manövriert, der gemäß einer Belohnungsfunktion des Reinforcement-Lernens ausgewählt wird.From the prior art, as in the DE 10 2019 122 829 A1 described, a vehicle action control known. One or more target areas in the vicinity of a moving vehicle are identified. The vehicle is maneuvered to a target area selected according to a reinforcement learning reward function.

Der Erfindung liegt die Aufgabe zu Grunde, ein neuartiges Verfahren zum Trainieren einer autonomen Fahrfunktion anzugeben.The invention is based on the object of specifying a novel method for training an autonomous driving function.

Die Aufgabe wird erfindungsgemäß gelöst durch ein Verfahren zum Trainieren einer autonomen Fahrfunktion mit den Merkmalen des Anspruchs 1.The object is achieved according to the invention by a method for training an autonomous driving function with the features of claim 1.

Vorteilhafte Ausgestaltungen der Erfindung sind Gegenstand der Unteransprüche.Advantageous refinements of the invention are the subject matter of the subclaims.

In einem Verfahren zum Trainieren einer autonomen Fahrfunktion wird erfindungsgemäß mindestens ein Fahrzeug von einem als vorgegeben sicher klassifizierten menschlichen Fahrer gefahren, wobei Daten eines Umfelds des Fahrzeugs, Fahrdynamikdaten und Fahrbefehle des Fahrers erfasst und gesammelt werden, wobei mittels der erfassten und gesammelten Daten durch Inverse Reinforcement Learning eine Belohnungsfunktion erlernt wird, und wobei die autonome Fahrfunktion mittels der erlernten Belohnungsfunktion durch Reinforcement Learning trainiert wird.In a method for training an autonomous driving function, according to the invention, at least one vehicle is driven by a human driver classified as predefined safe, data on the surroundings of the vehicle, driving dynamics data and driving commands from the driver being recorded and collected, using the recorded and collected data by inverse reinforcement Learning a reward function is learned, and the autonomous driving function is trained by means of the learned reward function through reinforcement learning.

Die erfindungsgemäße Lösung löst das Problem, dass es aufgrund einer Komplexität der Fahraufgabe und einer kombinatorischen Menge an potentiellen Situationen nicht möglich ist, die autonome Fahrfunktion auf herkömmliche Weise, beispielsweise durch Behavioral Cloning Verfahren oder beispielweise ausschließlich durch Reinforcement Learning, zu programmieren, denn das Verhalten eines autonomen Fahrzeugs, insbesondere von dessen autonomer Fahrfunktion, ist so komplex, dass es nicht statisch programmiert werden kann und zum Trainieren mittels neuronaler Netze nicht auf unlimitierte Mengen an Trainingsdaten zurückgegriffen werden kann.The solution according to the invention solves the problem that, due to the complexity of the driving task and a combinatorial amount of potential situations, it is not possible to program the autonomous driving function in a conventional manner, for example using behavioral cloning methods or, for example, exclusively using reinforcement learning, because the behavior an autonomous vehicle, in particular its autonomous driving function, is so complex that it cannot be statically programmed and unlimited amounts of training data cannot be used for training using neural networks.

Behavioral Cloning Verfahren lernen menschliche Entscheidungen basierend auf den Inputdaten zu kopieren und sind daher nicht in der Lage, auf unbekannte Situationen zu skalieren. Klassisches Reinforcement Learning ist ein bereits bekannter Ansatz zum Erlernen von Fahraufgaben. Im Gegensatz zum in der erfindungsgemäßen Lösung zusätzlich verwendeten Inverse Reinforcement Learning erlernt ein Agent, hier somit das autonome Fahrzeug, genauer gesagt dessen autonome Fahrfunktion, dabei seine Entscheidungen basierend auf einer im Voraus festgelegten Belohnungsfunktion durch seine eigene Erfahrung. Aufgrund der benötigten Erfahrung für eine vertretbare Leistungsfähigkeit müssen diese Agenten überwiegend in Simulationen trainiert werden. Zusätzlich dazu müssen Belohnungsfunktionen kontinuierlich angepasst werden, da eine Modellierung der Fahraufgabe mittels einer Belohnungsfunktion hochgradig nichtlinear ist. Vorteile durch die Nutzung einer Umfelderfassung und von Fahrbefehlen eines Fahrers bleiben bei der Verwendung von klassischem Reinforcement Learning unerschlossen. Des Weiteren weist die Simulation eine Lücke, eine so genannte sim2real Gap, zur realen Welt auf, so dass Agenten aus der Simulation nicht ohne zusätzliche Erfahrung in der realen Welt eingesetzt werden können. Dies kann dazu führen, dass eine Belohnungsfunktion in der Realität nicht dieselbe Leistungsfähigkeit wie in der Simulation erreicht.Behavioral cloning processes learn to copy human decisions based on the input data and are therefore not able to scale to unknown situations. Classic reinforcement learning is a well-known approach to learning driving tasks. In contrast to the inverse reinforcement learning additionally used in the solution according to the invention, an agent, in this case the autonomous vehicle, more precisely its autonomous driving function, learns its decisions based on a predetermined reward function through its own experience. Due to the experience required for a reasonable performance, these agents have to be trained mainly in simulations. In addition to this, reward functions have to be continuously adapted, since modeling the driving task by means of a reward function is highly non-linear. The advantages of using environment detection and driving commands from a driver remain untapped when using classic reinforcement learning. Furthermore, the simulation has a gap, a so-called sim2real gap, to the real world, so that agents from the simulation cannot be used in the real world without additional experience. This can mean that a reward function in reality does not achieve the same performance as in the simulation.

Diese Nachteile der Verwendung ausschließlich des Reinforcement Learning werden durch die erfindungsgemäße Lösung, insbesondere durch die Kombination von Reinforcement Learning und Inverse Reinforcement Learning, beseitigt.These disadvantages of using only reinforcement learning are eliminated by the solution according to the invention, in particular by the combination of reinforcement learning and inverse reinforcement learning.

Das für das Verfahren verwendete Fahrzeug weist insbesondere eine ausreichende Software und Hardware für die Wahrnehmung der Umgebung auf. Vorteilhafterweise werden für das Verfahren mehrere Fahrzeuge und/oder mehrere Fahrer verwendet. Zudem ist für das Verfahren insbesondere ein Modell für die abstrahierte Darstellung des Umfelds des Fahrzeugs vorgesehen. Hierzu erfolgt insbesondere eine Vorverarbeitung von Umfelderfassungsdaten. Das Modell ist beispielsweise ein Occupancy Grid. The vehicle used for the method has, in particular, sufficient software and hardware for perceiving the surroundings. Several vehicles and / or several drivers are advantageously used for the method. In addition, in particular a model for the abstract representation of the surroundings of the vehicle is provided for the method. For this purpose, there is in particular a preprocessing of data relating to the surroundings. The model is, for example, an occupancy grid.

Beispielsweise ist zudem ein Algorithmus vorgesehen, welcher Merkmale der Umfelddarstellung extrahieren kann, beispielsweise ein Autoencoder.For example, an algorithm is also provided which can extract features from the representation of the surroundings, for example an auto-encoder.

Das Verfahren umfasst, wie beschrieben, den Inverse Reinforcement Learning Algorithmus zum Erlernen der Belohnungsfunktion und den Reinforcement Learning Algorithmus, welcher mittels der durch den Inverse Reinforcement Learning Algorithmus ermittelten Belohnungsfunktion trainiert werden kann, genauer gesagt wird dabei die autonome Fahrfunktion trainiert.As described, the method comprises the inverse reinforcement learning algorithm for learning the reward function and the reinforcement learning algorithm, which can be trained using the reward function determined by the inverse reinforcement learning algorithm; more precisely, the autonomous driving function is trained.

Erfasste Daten für das Verfahren werden insbesondere im Fahrzeug zwischengespeichert. Das Fahrzeug weist hierfür einen ausreichenden Zwischenspeicher auf. Die erfassten Daten werden insbesondere an ein Backend, d. h. an einen fahrzeugexternen Server, gesendet. Das Fahrzeug weist somit eine entsprechende Anbindung an das Backend und Hardware auf. Das Senden der Daten erfolgt insbesondere über eine Mobilfunkverbindung.Acquired data for the method are cached in particular in the vehicle. The vehicle has a sufficient buffer for this purpose. The recorded data is sent in particular to a backend, ie to a server external to the vehicle. The vehicle thus has a corresponding connection to the backend and hardware on. The data is sent in particular via a cellular connection.

Vorteilhafterweise umfasst das Verfahren eine Methode, um die Sicherheit des autonomen Agenten, d. h. der autonomen Fahrfunktion, zu bewerten. Insbesondere wird zur Bewertung der Sicherheit der autonomen Fahrfunktion eine Leistungsfähigkeit der autonomen Fahrfunktion mit einer Leistungsfähigkeit eines menschlichen Experten verglichen.Advantageously, the method comprises a method to ensure the security of the autonomous agent, i. H. the autonomous driving function. In particular, to evaluate the safety of the autonomous driving function, the performance of the autonomous driving function is compared with the performance of a human expert.

Durch die Kombination von Umfeldmodell, Fahrbefehlen des Fahrers und Inverse Reinforcement Learning kann mittels des erfindungsgemäßen Verfahrens eine Belohnungsfunktion basierend auf den Umgebungsbedingungen und den Entscheidungen/Befehlen des Fahrers erlernt werden. Im Gegensatz zu klassischem Reinforcement Learning, welches eine bereits existierende Heuristik verwendet und darauf basierend die beste Aktion wählt, erlernt Inverse Reinforcement Learning die Heuristik durch die Entscheidungen des Fahrers. Dadurch kann die Entscheidungsplanung des Fahrzeugs, insbesondere der autonomen Fahrfunktion, deutlich effizienter und besser erlernt werden. Die berechnete Belohnungsfunktion wird daraufhin zum Training des Reinforcement Learning Algorithmus verwendet, um eine bessere Verhaltensplanung und Trajektorienplanung zu erreichen. Da lediglich die Heuristik des menschlichen Verhaltens erlernt wird und ein separater Optimierungsprozess stattfindet, kann der Algorithmus mit einer ausreichenden Datenmenge durch die Optimierung der Belohnungsfunktion die Leistungsfähigkeit eines Menschen übertreffen.By combining the environment model, driving commands from the driver and inverse reinforcement learning, the method according to the invention can be used to learn a reward function based on the ambient conditions and the decisions / commands made by the driver. In contrast to classic reinforcement learning, which uses an already existing heuristic and selects the best action based on it, inverse reinforcement learning learns the heuristic through the decisions of the driver. As a result, the decision-making planning of the vehicle, in particular the autonomous driving function, can be learned much more efficiently and better. The calculated reward function is then used to train the reinforcement learning algorithm in order to achieve better behavior planning and trajectory planning. Since only the heuristics of human behavior are learned and a separate optimization process takes place, the algorithm can exceed the capabilities of a person with a sufficient amount of data by optimizing the reward function.

Ausführungsbeispiele der Erfindung werden im Folgenden anhand von Zeichnungen näher erläutert.Embodiments of the invention are explained in more detail below with reference to drawings.

Dabei zeigen:

1 schematisch ein Ablaufdiagramm des Reinforcement Learning,
2 schematisch einen Softwarestack eines autonomen Fahrzeugs,
3 schematisch eine Inverse Reinforcement Learning Pipeline,
4 schematisch ein Occupancy Grid,
5 schematisch ein Training einer autonomen Fahrfunktion, und
6 schematisch ein Inverse Reinforcement Learning Verfahren.

Show:

1 a schematic flow diagram of reinforcement learning,
2 schematically a software stack of an autonomous vehicle,
3 schematically an inverse reinforcement learning pipeline,
4th schematically an occupancy grid,
5 schematically a training of an autonomous driving function, and
6th schematically an inverse reinforcement learning process.

Einander entsprechende Teile sind in allen Figuren mit den gleichen Bezugszeichen versehen.Corresponding parts are provided with the same reference symbols in all figures.

Anhand der 1 bis 6 wird im Folgenden ein Verfahren zum Trainieren einer autonomen Fahrfunktion beschrieben, welche dann in eines oder mehrere Fahrzeuge implementiert werden kann. Das jeweilige Fahrzeug, welches diese autonome Fahrfunktion und weitere erforderliche Komponenten zur Durchführung des autonomen Fahrbetriebs, beispielsweise eine Umfelderfassungssensorik 3, aufweist, ist dann zur Durchführung des autonomen Fahrbetriebs ausgebildet.Based on 1 until 6th In the following, a method for training an autonomous driving function is described, which can then be implemented in one or more vehicles. The respective vehicle, which this autonomous driving function and other necessary components for the implementation of the autonomous driving operation, for example a surroundings detection sensor system 3 , is then designed to carry out the autonomous driving mode.

Aufgrund eines für das hier beschriebene Verfahren verwendeten Reinforcement Learning RL wird die autonome Fahrfunktion auch als Reinforcement Learning Agent 1 bezeichnet. Reinforcement Learning RL wird auch als bestärkendes Lernen oder verstärkendes Lernen bezeichnet, im Folgenden wird jedoch weiterhin der hierfür bekannte Fachbegriff Reinforcement Learning RL verwendet.Due to a reinforcement learning RL used for the method described here, the autonomous driving function is also used as a reinforcement learning agent 1 designated. Reinforcement Learning RL is also referred to as reinforcement learning or reinforcement learning, but the technical term Reinforcement Learning RL, which is known for this purpose, will continue to be used in the following.

Reinforcement Learning RL ist ein Bereich des Machine Learning, d. h. des maschinellen Lernens, der sich damit beschäftigt, wie intelligente Agenten 1 Aktionen A in einer Umgebung 2 durchführen, um eine Belohnung B, auch als Reward bezeichnet, zu maximieren, wie in 1 mittels eines Ablaufdiagramms schematisch dargestellt. Der Agent 1 erlernt dabei eine Strategie S, auch als Policy bezeichnet, um entsprechend des Umgebungszustands und der Belohnung B Aktionen A zu wählen und auszuführen. Er führt hierzu eine Beobachtung BA seiner Umgebung 2 durch. Die Belohnungsfunktion BF entspricht dabei einer Art „Label“ und gibt dem Agenten 1 eine Rückmeldung über sein Verhalten, indem beispielsweise ein gutes Resultat, d. h. eine gute Aktion A, mit einer hohen Belohnung B belohnt wird und ein schlechtes Resultat, d. h. eine schlechte Aktion A, mit einer niedrigen oder auch negativen Belohnung B bestraft wird. Die Belohnungsfunktion BF wird dabei meist durch Experten festgelegt und kann durch einen iterativen Prozess verbessert werden. Die Strategie S des Agenten 1 wird dabei meist durch ein neuronales Netz erlernt.Reinforcement Learning RL is an area of machine learning, ie machine learning that deals with it, like intelligent agents 1 Actions A in an environment 2 perform to maximize a reward B, also known as a reward, as in 1 shown schematically by means of a flow chart. The agent 1 learns a strategy S, also referred to as a policy, in order to select and carry out actions A according to the state of the environment and the reward B. To this end, he conducts an observation BA of his surroundings 2 by. The reward function BF corresponds to a kind of “label” and gives the agent 1 feedback on his behavior, for example by rewarding a good result, ie a good action A, with a high reward B and a bad result, ie a bad action A, being punished with a low or negative reward B. The reward function BF is usually determined by experts and can be improved through an iterative process. The agent's strategy S 1 is mostly learned through a neural network.

Im hier beschriebenen Verfahren wird sowohl dieses Reinforcement Learning RL als auch ein Inverse Reinforcement Learning IRL, d. h. inverses bestärkendes Lernen oder inverses verstärkendes Lernen, verwendet, auch als Apprenticeship Learning bekannt. Im Folgenden wird auch hierfür weiterhin der bekannte Fachbegriff Inverse Reinforcement Learning IRL verwendet.In the method described here, both this reinforcement learning RL and an inverse reinforcement learning IRL, i. H. inverse reinforcement learning or inverse reinforcement learning, also known as apprenticeship learning. In the following, the well-known technical term Inverse Reinforcement Learning IRL will continue to be used for this.

Während beim Reinforcement Learning RL mit einer bereits gegebenen Belohnungsfunktion BF eine Strategie S erlernt werden soll, wird Inverse Reinforcement Learning IRL vom umgekehrten Prozess motiviert. Der Agent 1, in diesem Fall meist ein menschlicher Experte, führt dabei basierend auf seiner Strategie S Aktionen A aus. Mit Hilfe der gegebenen Aktionen A und eines Modells der Umgebung 2 kann dann eine Belohnungsfunktion BF erlernt werden.While in reinforcement learning RL a strategy S is to be learned with an already given reward function BF, inverse reinforcement learning IRL is motivated by the reverse process. The agent 1 , in this case mostly a human expert, executes actions A based on his strategy S. With the help of the given actions A and a model of the environment 2 a BF reward function can then be learned.

Die Strategie S des Menschen spiegelt ein so genanntes „soft optimales“ Verhalten wieder, da davon ausgegangen werden kann, dass Menschen in vielen Bereichen, beispielsweise beim Führen eines Fahrzeugs, sich nahe am Optimum verhalten. Die erlernte Belohnungsfunktion BF spiegelt dieses optimale oder nahezu optimale Verhalten wieder und kann zum Training eines neuen Reinforcement Learning Agenten 1, im hier beschriebenen Verfahren somit zum Training der autonomen Fahrfunktion, genutzt werden. Der Reinforcement Learning Agent 1, hier die autonome Fahrfunktion, wird dabei mittels der erlernten Belohnungsfunktion BF trainiert. Durch diesen Prozess kann der Reinforcement Learning Agent 1, hier die autonome Fahrfunktion, somit mit der optimalen oder zumindest nahezu optimalen Belohnungsfunktion BF trainiert werden und durch zusätzliche Erfahrung nicht nur eine Leistungsfähigkeit des menschlichen Experten erreichen, sondern sogar die menschliche Leistungsfähigkeit übertreffen.The human strategy S reflects what is known as “soft optimal” behavior, since it can be assumed that people behave close to the optimum in many areas, for example when driving a vehicle. The learned reward function BF reflects this optimal or almost optimal behavior and can be used to train a new reinforcement learning agent 1 , can thus be used in the method described here for training the autonomous driving function. The reinforcement learning agent 1 , here the autonomous driving function, is trained using the learned reward function BF. Through this process the Reinforcement Learning Agent 1 , here the autonomous driving function, thus being trained with the optimal or at least almost optimal reward function BF and through additional experience not only achieve the performance of the human expert, but even surpass human performance.

2 zeigt einen Softwarestack eines autonomen Fahrzeugs, insbesondere der autonomen Fahrfunktion des Fahrzeugs. Ein Softwarestack, auch als Softwarestapel bezeichnet, ist eine Reihe von aufeinander aufbauenden Softwarekomponenten, die gemeinsam eine Plattform bilden. Der Softwarestack der autonomen Fahrfunktion besteht üblicherweise aus den in 2 dargestellten Blöcken Verhalten V, Prädiktion P, Lokalisierung L, Trajektorienplanung T, Sensorfusion SF und Bewegungssteuerung BS. Die hier beschriebene Lösung beschränkt sich dabei auf die Bereiche Prädiktion P, Verhalten V und Trajektorienplanung T. Der Grundgedanke dahinter ist, dass Menschen diese Entscheidungen meist in einer Art „End-to-end“ Ansatz lösen, also die Trajektorienplanung T mittels der menschlichen Prädiktion P basierend auf den erkannten Umgebungsbedingungen in einem Schritt erfolgt. 2 shows a software stack of an autonomous vehicle, in particular the autonomous driving function of the vehicle. A software stack, also known as a software stack, is a series of software components that build on one another and together form a platform. The software stack of the autonomous driving function usually consists of the in 2 shown blocks behavior V, prediction P, localization L, trajectory planning T, sensor fusion SF and motion control BS. The solution described here is limited to the areas of prediction P, behavior V and trajectory planning T. The basic idea behind it is that people usually solve these decisions in a kind of "end-to-end" approach, i.e. trajectory planning T using human prediction P takes place in one step based on the detected environmental conditions.

Dank Fortschritten im Bereich der neuronalen Netze erreichen Algorithmen in der Bildverarbeitung im direkten Vergleich teilweise bereits bessere Ergebnisse als der Mensch. Aufgrund der Fortschritte der letzten Jahre gilt die Umfelderkennung nicht mehr als der größte limitierende Faktor für die Umsetzung des autonomen Fahrens. Im Gegensatz dazu stellt die Prädiktion P des Verhaltens anderer Verkehrsteilnehmer und die Verhaltensplanung des autonom fahrenden Fahrzeugs die größte Herausforderung für das autonome Fahren dar.Thanks to advances in neural networks, algorithms in image processing already achieve better results than humans in a direct comparison. Due to the progress made in recent years, the recognition of the surroundings is no longer considered to be the greatest limiting factor for the implementation of autonomous driving. In contrast, the prediction P of the behavior of other road users and the behavior planning of the autonomously driving vehicle represent the greatest challenge for autonomous driving.

Weil es aufgrund einer hohen Anzahl so genannter Edge Cases, d. h. selten auftretender Fahrsituationen, nicht möglich ist, Fahrzeuge, genauer gesagt deren autonome Fahrfunktion, durch traditionelles Feature Engineering, d. h. durch ein Aufbereiten von Rohdaten derart, dass sie direkt von Machine Learning Algorithmen verarbeitet werden können, zu programmieren, wird auch in diesem Bereich meist das so genannte Deep Learning, d. h. tiefe neuronale Netze, verwendet. Diese Verfahren skalieren mit einer Anzahl gesehener Fahrsituationen und sind daher von einer hohen Varianz an Daten abhängig, um eine gute Leistungsfähigkeit zu erreichen. Wegen der Vorteile im Bereich Datenlabeling, insbesondere der geringen Kosten, und der geringen induzierten Prior, d. h. Priorverteilung, im Vergleich zu Verfahren des so genannten Supervised Learning, d. h. des überwachten Lernens, werden dafür meist Verfahren des Reinforcement Learning RL eingesetzt.Because due to the high number of so-called edge cases, i. H. seldom occurring driving situations, it is not possible to drive vehicles, more precisely their autonomous driving function, through traditional feature engineering, i. H. To program by processing raw data in such a way that they can be processed directly by machine learning algorithms, so-called deep learning is usually also used in this area. H. deep neural networks. These methods scale with a number of driving situations seen and are therefore dependent on a high variance of data in order to achieve good performance. Because of the advantages in the area of data labeling, especially the low cost, and the low induced prior, i. H. Priority distribution, compared to so-called supervised learning methods, d. H. of supervised learning, Reinforcement Learning RL procedures are mostly used.

Reinforcement Learning Algorithmen werden dabei mittels einer Belohnungsfunktion BF durch das Sammeln eigener Erfahrung trainiert, d. h. das Verhalten V des Fahrzeugs, genauer gesagt der autonomen Fahrfunktion, wird solange angepasst, bis die Belohnungsfunktion BF optimiert ist. Das Problem dabei ist, dass die Belohnungsfunktion BF im Voraus von Experten festgelegt wird und daher nicht eine optimierte Belohnungsfunktion BF darstellt.Reinforcement learning algorithms are trained by means of a reward function BF by collecting personal experience, i. H. the behavior V of the vehicle, more precisely the autonomous driving function, is adapted until the reward function BF is optimized. The problem here is that the reward function BF is set in advance by experts and therefore does not represent an optimized reward function BF.

Da das menschliche Fahrverhalten als nahe am Optimum gilt und Ablenkungen während des Fahrens den größten Grund für Unfälle darstellen, wird vorteilhafterweise ein sicherheitsbewusster Fahrer als Maßstab gewählt. Beispielsweise werden mittels Verfahren wie Anomalie Detection sicherere Fahrer klassifiziert. Diese Fahrer und deren jeweiliges Fahrzeug werden dann zum Sammeln von Daten für das Training von Inverse Reinforcement Learning Algorithmen verwendet, wie in 3 gezeigt.Since human driving behavior is considered to be close to the optimum and distractions while driving represent the greatest reason for accidents, a safety-conscious driver is advantageously chosen as the benchmark. For example, safer drivers are classified using methods such as anomaly detection. These drivers and their respective vehicles are then used to collect data for training inverse reinforcement learning algorithms, as in 3 shown.

Zusätzlich werden Algorithmen für die Erkennung des Umfelds und des Fahrzustands verwendet, um die aktuelle Umgebung 2 und Fahrsituation in die Optimierung mit einzubeziehen. Insgesamt kann dadurch eine Belohnungsfunktion BF basierend auf der Erfahrung menschlicher Experten erlernt werden. Diese wird dann für das Training eines Reinforcement Learning Agenten 1, d. h. der autonomen Fahrfunktion, verwendet und ermöglicht es dadurch bessere Ergebnisse als reine Reinforcement Learning Algorithmen zu erzielen. Vorteile werden dabei vor allem im Fall der oben erwähnten Edge Cases erzielt.In addition, algorithms for recognizing the surroundings and the driving status are used to determine the current surroundings 2 and driving situation to be included in the optimization. Overall, a reward function BF can thereby be learned based on the experience of human experts. This is then used for training a reinforcement learning agent 1 , ie the autonomous driving function, and thereby enables better results to be achieved than pure reinforcement learning algorithms. Advantages are achieved above all in the case of the edge cases mentioned above.

Um die Vorteile des Inverse Reinforcement Learning IRL nutzen zu können, müssen Daten zum aktuellen Zustand des Fahrzeugs, beispielsweise Fahrdynamikdaten wie Beschleunigungen, Geschwindigkeit, Gierwinkel, welche mittels einer entsprechenden Fahrdynamiksensorik 4 des Fahrzeugs erfasst werden, sowie Fahrbefehle FB durch den Fahrer, beispielsweise Lenkwinkel und eine Stellung eines Gaspedal und/oder Bremspedals, und die Umgebung 2, d. h. das Umfeld des Fahrzeugs, beispielsweise statische und dynamische Objekte und die Lokalisierung L des Fahrzeugs, bekannt sein. D. h. für das hier beschriebene Verfahren werden diese Daten erfasst. Die Daten zum Umfeld des Fahrzeugs werden dabei mittels dessen Umfelderfassungssensorik 3 erfasst.In order to be able to use the advantages of Inverse Reinforcement Learning IRL, data on the current state of the vehicle, for example driving dynamics data such as accelerations, speed, yaw angle, which are determined by means of a corresponding driving dynamics sensor system 4th of the vehicle are detected, as well as travel commands FB by the driver, for example steering angle and a position of an accelerator pedal and / or brake pedal, and the environment 2 , ie the surroundings of the vehicle, for example static and dynamic objects and the Localization L of the vehicle, be known. I. E. This data is recorded for the procedure described here. The data on the surroundings of the vehicle are collected by means of its surroundings detection sensors 3 recorded.

Diese Daten werden gesammelt, um das Erlernen einer Belohnungsfunktion BF mittels der Datenpunkte, d. h. mittels dieser Daten, sicherzustellen. 3 stellt eine Pipeline zum Sammeln der Daten vor, bei der die Daten verschiedener Sensoren des Fahrzeugs zuerst vorverarbeitet werden, um den Algorithmus nicht von einzelnen Sensoren abhängig zu machen, d. h. nur auf eine Sensorklasse zu optimieren. Ohne diese Vorverarbeitung generalisiert die erlernte Belohnungsfunktion BF eventuell schlechter auf andere Fahrzeuge mit unterschiedlichen Sensorkonfigurationen und/oder es wären weitaus mehr Daten für die Bestimmung einer Belohnungsfunktion BF erforderlich.These data are collected in order to ensure that a reward function BF is learned by means of the data points, that is to say by means of these data. 3 presents a pipeline for collecting the data, in which the data from various sensors in the vehicle are first preprocessed in order not to make the algorithm dependent on individual sensors, ie to optimize it only for one sensor class. Without this preprocessing, the learned reward function BF possibly generalizes worse to other vehicles with different sensor configurations and / or far more data would be required for the determination of a reward function BF.

Wie in 3 dargestellt, kann ein Umfeldmodell UM beispielsweise auf ein in 4 beispielhaft dargestelltes Occupancy Grid OG reduziert werden. Ein Occupancy Grid OG ist eine Abstraktionsebene des Umfeldmodells UM, welches es erlaubt, eine Belegung von Zellen relativ zum autonomen Fahrzeug zu hinterlegen. Mittels des Occupancy Grid OG wird die Welt um das Fahrzeug im Bereich einer Sensorausleuchtung, d. h. eines Erfassungsbereichs der Umfelderfassungssensorik 3 des Fahrzeugs, diskretisiert. Jede Zelle kann dabei als nicht besetzt oder besetzt markiert werden. Durch eine Klassifikation kann zudem eine Art eines jeweiligen erkannten Objekts, beispielsweise Fußgänger, Auto oder Radfahrer, hinterlegt werden.As in 3 shown, an environment model UM can, for example, on an in 4th Occupancy Grid OG shown as an example can be reduced. An occupancy grid OG is an abstraction level of the environment model UM, which makes it possible to store an occupancy of cells relative to the autonomous vehicle. By means of the Occupancy Grid OG, the world around the vehicle is displayed in the area of sensor illumination, ie a detection area of the surroundings detection sensors 3 of the vehicle, discretized. Each cell can be marked as unoccupied or occupied. By means of a classification, a type of a respective recognized object, for example a pedestrian, car or cyclist, can also be stored.

Indem auf diesem Modell gearbeitet wird, kann eine Entkopplung vom Sensorset, d. h. von der Umfelderfassungssensorik 3, des Fahrzeugs erreicht werden, so dass es unerheblich ist, ob das jeweilige mit der autonomen Fahrfunktion betriebene Fahrzeug mit Lidarsensoren ausgestattet ist oder nicht, und wie viele Kameras oder Radarsensoren verbaut worden sind, so lange das jeweilige Fahrzeug eine ausreichend gute Umfelderfassung im dreidimensionalen Raum ermöglicht, d. h eine ausreichende Umfelderfassungssensorik 3 aufweist.By working on this model, a decoupling from the sensor set, ie from the environment detection sensors 3 , of the vehicle, so that it is irrelevant whether the respective vehicle operated with the autonomous driving function is equipped with lidar sensors or not, and how many cameras or radar sensors have been installed, as long as the respective vehicle has a sufficiently good environment detection in three-dimensional space enables, d. h a sufficient environment detection sensors 3 having.

Die auch als Feature bezeichneten Merkmale des Occupancy Grid OG können optional mittels einer Architektur des Typs Autoencoder AE komprimiert werden, um die korrekten Datendimensionen für den Input in das Inverse Reinforcement Learning IRL Verfahren sicherzustellen.The features of the Occupancy Grid OG, also known as features, can optionally be compressed by means of an architecture of the Autoencoder AE type in order to ensure the correct data dimensions for the input into the Inverse Reinforcement Learning IRL method.

Aus demselben Grund werden auch die Signale der Fahrdynamiksensorik 4, d. h. die Fahrdynamikdaten, vorverarbeitet, um eine Entkopplung vom diesbezüglichen Sensorset, d. h. von der Fahrdynamiksensorik 4 des Fahrzeugs, zu erreichen. Mittels eines Verfahrens zur Fahrdynamikschätzung, beispielsweise mittels eines Kalman-Filters KF oder einer Art Kalman-Filter zur Ermittlung von Fahrdynamikwerten FD, können zudem Messungsungenauigkeiten der Fahrdynamiksensorik 4 abgefangen werden, d. h. ausgefiltert werden, und die Schätzung des Fahrzustands verbessert werden. Optional können außerdem weitere, nicht gemessene, Größen wie Schwimmwinkel, Schräglaufsteifigkeiten oder Reibkoeffizient geschätzt werden und zur Verbesserung des Modells beitragen. Das Ergebnis sind die ermittelten Fahrdynamikwerte FD, welche als Aktionen oder Strategie SFa des Fahrers in das Inverse Reinforcement Learning IRL einfließen, d. h. als Input hierfür verwendet werden. Mittels des Inverse Reinforcement Learning IRL wird dann die Belohnungsfunktion BF ermittelt, d. h. diese ist der Output des Inverse Reinforcement Learning IRL.The signals from the vehicle dynamics sensors are also used for the same reason 4th , ie the driving dynamics data, preprocessed in order to decouple them from the relevant sensor set, ie from the driving dynamics sensors 4th of the vehicle. By means of a method for driving dynamics estimation, for example by means of a Kalman filter KF or a type of Kalman filter for determining driving dynamics values FD, measurement inaccuracies of the driving dynamics sensors can also be detected 4th be intercepted, ie filtered out, and the estimation of the driving state can be improved. Optionally, other, unmeasured, variables such as sideslip angle, slip angle, slip stiffness or coefficient of friction can also be estimated and help improve the model. The result is the determined driving dynamics values FD, which flow into the inverse reinforcement learning IRL as actions or strategy SFa of the driver, ie are used as input for this. The reward function BF is then determined by means of the inverse reinforcement learning IRL, ie this is the output of the inverse reinforcement learning IRL.

Hierzu werden mittels einer Mobilfunkverbindung die Daten des Umfeldmodells UM und die ermittelten Signale des Fahrzustands sowie die Fahrbefehle FB, d. h. die Strategie SFa des Fahrers, an ein Backend, d. h. an einen fahrzeugexternen Server, gesendet, denn das Inverse Reinforcement Learning IRL wird außerhalb des Fahrzeugs und vorteilhafterweise mittels dieser Informationen aus mehreren Fahrzeugen, vorteilhafterweise aus einer Vielzahl von Fahrzeugen, durchgeführt, insbesondere auch mit mehreren als sicherer klassifizierten Fahrern, insbesondere mit einer Vielzahl solcher Fahrer. Zusätzlich ist das Fahrzeug bzw. das jeweilige Fahrzeug mit einem ausreichend großen Speicher ausgestattet, um die aufgenommenen Daten zwischenzuspeichern. Dies erlaubt es, den Algorithmus, d. h. das Inverse Reinforcement Learning IRL, mittels neuer Daten kontinuierlich zu verbessern.For this purpose, the data of the environment model UM and the determined signals of the driving status as well as the driving commands FB, d. H. the driver's strategy SFa, to a backend, d. H. to a server external to the vehicle, because the inverse reinforcement learning IRL is carried out outside the vehicle and advantageously using this information from several vehicles, advantageously from a large number of vehicles, in particular also with a number of drivers classified as safer, in particular with a large number of such drivers . In addition, the vehicle or the respective vehicle is equipped with a sufficiently large memory to temporarily store the recorded data. This allows the algorithm, i.e. H. To continuously improve the Inverse Reinforcement Learning IRL using new data.

Mittels der vorverarbeiteten Daten, bestehend aus Umfeldmodell UM, Fahrsituation und Befehlen des Fahrers, d. h. der Strategie SFa des Fahrers, wird nun die Belohnungsfunktion BF mittels des Inverse Reinforcement Learning IRL erlernt. Dies ist nochmals in 5 dargestellt.Using the preprocessed data, consisting of the environment model UM, the driving situation and commands from the driver, ie the driver's strategy SFa, the reward function BF is now learned using the inverse reinforcement learning IRL. This is again in 5 shown.

Hier wird der Reinforcement Learning Agent 1, d. h. die autonome Fahrfunktion, durch die erlernte Belohnungsfunktion BF trainiert. Es fließen somit das Umfeldmodell UM und die Strategie SFa des Fahrers in das Inverse Reinforcement Learning IRL ein, durch welches die Belohnungsfunktion BF ermittelt wird, welche in das Reinforcement Learning RL einfließt, in welches zudem ebenfalls das Umfeldmodell UM einfließt. Das Ergebnis des Reinforcement Learning RL ist dann die Strategie S des Reinforcement Learning Agenten 1, d. h. der autonomen Fahrfunktion.This is where the reinforcement learning agent works 1 , ie the autonomous driving function, trained by the learned reward function BF. The environment model UM and the driver's strategy SFa thus flow into the inverse reinforcement learning IRL, which is used to determine the reward function BF, which flows into the reinforcement learning RL, into which the environment model UM also flows. The result of the reinforcement learning RL is then the strategy S of the reinforcement learning agent 1 , ie the autonomous driving function.

Der trainierte Reinforcement Learning Agent 1, d. h. die trainierte autonome Fahrfunktion, kann dann die Aufgaben der Prädiktion P, des Verhaltens V und der Trajektorienplanung T übernehmen. Zur Optimierung des Verfahrens können außerdem moderne Inverse Reinforcement Learning IRL Ansätze verwendet werden, beispielsweise Guided Cost Learning, die es erlauben, bereits während des Inverse Reinforcement Learning IRL Prozesses eine Strategie S für die autonome Fahrfunktion und somit für das autonome Fahrzeug zu erlernen. Diese Strategie S kann danach durch einen Reinforcement Learning RL Prozess optimiert werden. Ein Prinzip dieses Verfahrens ist in 6 dargestellt. Das Verfahren erlaubt es, eine erforderliche Rechenleistung zu reduzieren, da zu Beginn des Reinforcement Learning RL Prozesses bereits eine erlernte Strategie S vorliegt und diese weiter optimiert wird.The trained reinforcement learning agent 1 , ie the trained autonomous driving function, can then take on the tasks of prediction P, behavior V and trajectory planning T. To optimize the method, modern inverse reinforcement learning IRL approaches can also be used, for example guided cost learning, which make it possible to learn a strategy S for the autonomous driving function and thus for the autonomous vehicle during the inverse reinforcement learning IRL process. This strategy S can then be optimized by a reinforcement learning RL process. One principle of this procedure is in 6th shown. The method allows a required computing power to be reduced, since a learned strategy S is already available at the beginning of the reinforcement learning RL process and this is further optimized.

Wie in 6 gezeigt, wird zunächst eine initiale Strategie IS verwendet. Daraus wird ein Strategiebeispiel SB generiert. Mittels dieses Strategiebeispiels SB und der Strategie SFa des Fahrers wird ein Update der Belohnung UB erzeugt. Daraus resultiert die erlernte Belohnung B. Aus dem Update der Belohnung UB und dem Strategiebeispiel SB resultiert die erlernte Strategie S des Agenten 1, d. h. der autonomen Fahrfunktion. Auf diese Weise kann somit gleichzeitig die Belohnung B und die Strategie S des autonomen Agenten 1, d. h. der autonomen Fahrfunktion, erlernt werden.As in 6th As shown, an initial strategy IS is used first. A strategy example SB is generated from this. Using this example strategy SB and the driver's strategy SFa, an update of the reward UB is generated. This results in the learned reward B. The agent's learned strategy S results from the update of the reward UB and the strategy example SB 1 , ie the autonomous driving function. In this way, the reward B and the strategy S of the autonomous agent can thus simultaneously 1 , ie the autonomous driving function, can be learned.

Inverse Reinforcement Learning IRL ist für die komplexe Anwendung des autonomen Fahrens besser geeignet als Verfahren des Typs Behavioral Cloning. Behavioral Cloning Verfahren lernen lediglich das menschliche Verhalten zu kopieren und sind daher nicht in der Lage, auf noch nicht gesehene und somit nicht erlernte Situationen zu reagieren. Im Gegensatz dazu kann ein Inverse Reinforcement Learning IRL Verfahren durch die Belohnungsfunktion BF die Heuristiken des menschlichen Verhaltens wiederspiegeln und einen Reinforcement Learning RL Ansatz trainieren. Dieser Reinforcement Learning RL Ansatz kann nun mittels der erlernten Belohnungsfunktion BF trainiert werden. Dabei kann der Reinforcement Learning Agent 1, d. h. die autonome Fahrfunktion, einerseits auf die eingefahrenen Daten trainiert werden, da das Umfeldmodell UM vorhanden ist, welches zur Simulation des Fahrverhaltens genutzt werden kann. Andererseits kann der Reinforcement Learning Agent 1, d. h. die autonome Fahrfunktion, aber auch in synthetisch generierten Simulationsszenarien trainiert werden, um die Leistungsfähigkeit des Agenten 1, d. h. der autonomen Fahrfunktion, mittels neuer Situationen weiter zu verbessern. Optional kann mittels der aufgenommenen Daten auch ein zusätzlicher Fehler zum Fahrverhalten des Menschen modelliert werden. Der kombinierte Ansatz aus Inverse Reinforcement Learning IRL und Reinforcement Learning RL kann eine deutlich bessere Generalisierung bei noch nicht gesehenen Situationen gewährleisten als Ansätze des Typs Behavioral Cloning.Inverse reinforcement learning IRL is better suited for the complex application of autonomous driving than methods of the behavioral cloning type. Behavioral cloning processes only learn to copy human behavior and are therefore not able to react to situations that have not yet been seen and thus not learned. In contrast to this, an inverse reinforcement learning IRL method can reflect the heuristics of human behavior through the reward function BF and train a reinforcement learning RL approach. This reinforcement learning RL approach can now be trained using the learned reward function BF. The reinforcement learning agent 1 , ie the autonomous driving function, on the one hand, can be trained on the entered data, since the environment model UM is available, which can be used to simulate the driving behavior. On the other hand, the reinforcement learning agent 1 , ie the autonomous driving function, but can also be trained in synthetically generated simulation scenarios to determine the performance of the agent 1 , ie the autonomous driving function, to be further improved by means of new situations. Optionally, the recorded data can also be used to model an additional error relating to human driving behavior. The combined approach of Inverse Reinforcement Learning IRL and Reinforcement Learning RL can guarantee a significantly better generalization in situations that have not yet been seen than approaches of the behavioral cloning type.

Um eine sichere Leistungsfähigkeit des Agenten 1, d. h. der autonomen Fahrfunktion, zu erreichen, kann eine so genannte Loss Funktion verwendet werden, die einen Vergleich zwischen erlernter Strategie S und Strategie SFa des menschlichen Verhaltens, d. h. Fahrers, zulässt. Hierfür wird der Value einer Strategie berechnet: $V_{r}^{π} = E_{π} [\sum_{t = 0}^{\infty} γ^{t} * R (s_{t})]$

wobei:

E der Umgebung 2 entspricht,
π der Strategie S oder SFa entspricht,
R(s_t) der Belohnung B des Zustand s zum Zeitschritt t entspricht,
γ^t einer Discount Rate zum Zeitschritt t entspricht.

To ensure the agent's performance 1 , ie the autonomous driving function, a so-called loss function can be used, which allows a comparison between the learned strategy S and strategy SFa of human behavior, ie the driver. For this, the value of a strategy is calculated:

V_{r}^{π} = {E.}_{π} [\sum_{t = 0}^{\infty} γ^{t} * R. (s_{t})]

whereby:

E the environment 2 is equivalent to,
π corresponds to strategy S or SFa,
R (s _t ) corresponds to the reward B of the state s at the time step t,
γ ^t of a discount rate corresponding to the time step t.

Durch diese Funktion kann eine Bedingung für den Strategie Loss aufgestellt werden: $L_{S t r a t e g i e} = V_{r}^{π *} - V_{r}^{π robot} \leq ε$

wobei:

$V_{r}^{π *}$
dem Value der optimalen (menschlichen) Strategie π*, d. h. der Strategie SFa des Fahrers, entspricht,
$V_{r}^{π r o b o t}$
dem Value der erlernten Strategie S des Reinforcement Learning Agenten πrobot, d. h. der autonomen Fahrfunktion, entspricht, und
ε einem Threshold, d. h. einem Schwellwert, für die Differenz zwischen optimaler Strategie SFa und erlernter Strategie S entspricht.

This function can be used to set a condition for the Loss strategy:

{L.}_{S. t r a t e G i e} = V_{r}^{π *} - V_{r}^{π robot} \leq ε

whereby:

$V_{r}^{π *}$
corresponds to the value of the optimal (human) strategy π *, i.e. the driver's strategy SFa,
$V_{r}^{π r O b O t}$
corresponds to the value of the learned strategy S of the reinforcement learning agent πrobot, ie the autonomous driving function, and
ε corresponds to a threshold, ie a threshold value, for the difference between the optimal strategy SFa and the learned strategy S.

Basierend auf der oben genannten Bedingung des Strategie Loss können aufgenommene Daten verwendet werden, um die Leistungsfähigkeit des menschlichen Experten mit der des Reinforcement Learning Agenten 1, d. h. der autonomen Fahrfunktion, zu vergleichen. Dadurch kann eine Aussage über die Sicherheit des Verfahrens und somit der autonomen Fahrfunktion getroffen werden. Abhängig davon können Sicherheitsanforderungen für die Zulassung des Algorithmus und somit der autonomen Fahrfunktion für eine abgesperrte Teststrecke, für ein im Verkehr betriebenes Testfahrzeug, welches von einem trainierten Sicherheitsfahrer überwacht wird, und für eine gesamte Fahrzeugflotte festgelegt werden. Außerdem kann der Strategie Loss in unterschiedlichen Szenarien berechnet werden, um die Funktion auf bestimmte Verkehrsszenarien einzuschränken, beispielsweise auf Autobahnfahrten.Based on the above condition of strategy loss, recorded data can be used to compare the performance of the human expert with that of the reinforcement learning agent 1 , ie the autonomous driving function. In this way, a statement can be made about the safety of the method and thus the autonomous driving function. Depending on this, safety requirements for the approval of the algorithm and thus the autonomous driving function for a closed test route, for a test vehicle in traffic, which is monitored by a trained safety driver, and for an entire vehicle fleet can be specified. In addition, the strategy loss can be calculated in different scenarios in order to limit the function to certain traffic scenarios, for example on motorway journeys.

ZITATE ENTHALTEN IN DER BESCHREIBUNGQUOTES INCLUDED IN THE DESCRIPTION

Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.This list of the documents listed by the applicant was generated automatically and is included solely for the better information of the reader. The list is not part of the German patent or utility model application. The DPMA assumes no liability for any errors or omissions.

Zitierte PatentliteraturPatent literature cited

DE 102019122829 A1 [0002]

Claims

Method for training an autonomous driving function, characterized in that - at least one vehicle is driven by a human driver classified as predetermined safe, - data of the surroundings of the vehicle, driving dynamics data and driving commands (FB) of the driver are recorded and collected, - by means of the recorded and collected data through Inverse Reinforcement Learning (IRL) a reward function (BF) is learned, - the autonomous driving function is trained by means of the learned reward function (BF) through Reinforcement Learning (RL).

Procedure according to Claim 1 , characterized in that the data are preprocessed before learning the reward function (BF).

Method according to one of the preceding claims, characterized in that the data is sent from the vehicle to a server external to the vehicle by means of a mobile radio connection and the learning of the reward function (BF) by inverse reinforcement learning (IRL) and the training of the autonomous driving function by means of the learned reward function ( BF) takes place through reinforcement learning (RL) outside the vehicle.

Method according to one of the preceding claims, characterized in that, in order to evaluate the safety of the autonomous driving function, a performance of the autonomous driving function is compared with a performance of a human expert.