DE102021004426A1 - Method for training an autonomous driving function - Google Patents
Method for training an autonomous driving function Download PDFInfo
- Publication number
- DE102021004426A1 DE102021004426A1 DE102021004426.6A DE102021004426A DE102021004426A1 DE 102021004426 A1 DE102021004426 A1 DE 102021004426A1 DE 102021004426 A DE102021004426 A DE 102021004426A DE 102021004426 A1 DE102021004426 A1 DE 102021004426A1
- Authority
- DE
- Germany
- Prior art keywords
- reinforcement learning
- function
- autonomous driving
- vehicle
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2556/00—Input parameters relating to data
- B60W2556/10—Historical data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Control Of Driving Devices And Active Controlling Of Vehicle (AREA)
Abstract
Die Erfindung betrifft ein Verfahren zum Trainieren einer autonomen Fahrfunktion.Erfindungsgemäß wird mindestens ein Fahrzeug von einem als vorgegeben sicher klassifizierten menschlichen Fahrer gefahren, wobei Daten eines Umfelds des Fahrzeugs, Fahrdynamikdaten und Fahrbefehle (FB) des Fahrers erfasst und gesammelt werden, wobei mittels der erfassten und gesammelten Daten durch Inverse Reinforcement Learning (IRL) eine Belohnungsfunktion (BF) erlernt wird, und wobei die autonome Fahrfunktion mittels der erlernten Belohnungsfunktion (BF) durch Reinforcement Learning (RL) trainiert wird.The invention relates to a method for training an autonomous driving function. According to the invention, at least one vehicle is driven by a human driver classified as predefined safe, with data relating to the surroundings of the vehicle, driving dynamics data and driving commands (FB) from the driver being recorded and collected, with the recorded and a reward function (BF) is learned through Inverse Reinforcement Learning (IRL) and collected data, and the autonomous driving function is trained by means of the learned reward function (BF) through Reinforcement Learning (RL).
Description
Die Erfindung betrifft ein Verfahren zum Trainieren einer autonomen Fahrfunktion.The invention relates to a method for training an autonomous driving function.
Aus dem Stand der Technik ist, wie in der
Der Erfindung liegt die Aufgabe zu Grunde, ein neuartiges Verfahren zum Trainieren einer autonomen Fahrfunktion anzugeben.The invention is based on the object of specifying a novel method for training an autonomous driving function.
Die Aufgabe wird erfindungsgemäß gelöst durch ein Verfahren zum Trainieren einer autonomen Fahrfunktion mit den Merkmalen des Anspruchs 1.The object is achieved according to the invention by a method for training an autonomous driving function with the features of claim 1.
Vorteilhafte Ausgestaltungen der Erfindung sind Gegenstand der Unteransprüche.Advantageous refinements of the invention are the subject matter of the subclaims.
In einem Verfahren zum Trainieren einer autonomen Fahrfunktion wird erfindungsgemäß mindestens ein Fahrzeug von einem als vorgegeben sicher klassifizierten menschlichen Fahrer gefahren, wobei Daten eines Umfelds des Fahrzeugs, Fahrdynamikdaten und Fahrbefehle des Fahrers erfasst und gesammelt werden, wobei mittels der erfassten und gesammelten Daten durch Inverse Reinforcement Learning eine Belohnungsfunktion erlernt wird, und wobei die autonome Fahrfunktion mittels der erlernten Belohnungsfunktion durch Reinforcement Learning trainiert wird.In a method for training an autonomous driving function, according to the invention, at least one vehicle is driven by a human driver classified as predefined safe, data on the surroundings of the vehicle, driving dynamics data and driving commands from the driver being recorded and collected, using the recorded and collected data by inverse reinforcement Learning a reward function is learned, and the autonomous driving function is trained by means of the learned reward function through reinforcement learning.
Die erfindungsgemäße Lösung löst das Problem, dass es aufgrund einer Komplexität der Fahraufgabe und einer kombinatorischen Menge an potentiellen Situationen nicht möglich ist, die autonome Fahrfunktion auf herkömmliche Weise, beispielsweise durch Behavioral Cloning Verfahren oder beispielweise ausschließlich durch Reinforcement Learning, zu programmieren, denn das Verhalten eines autonomen Fahrzeugs, insbesondere von dessen autonomer Fahrfunktion, ist so komplex, dass es nicht statisch programmiert werden kann und zum Trainieren mittels neuronaler Netze nicht auf unlimitierte Mengen an Trainingsdaten zurückgegriffen werden kann.The solution according to the invention solves the problem that, due to the complexity of the driving task and a combinatorial amount of potential situations, it is not possible to program the autonomous driving function in a conventional manner, for example using behavioral cloning methods or, for example, exclusively using reinforcement learning, because the behavior an autonomous vehicle, in particular its autonomous driving function, is so complex that it cannot be statically programmed and unlimited amounts of training data cannot be used for training using neural networks.
Behavioral Cloning Verfahren lernen menschliche Entscheidungen basierend auf den Inputdaten zu kopieren und sind daher nicht in der Lage, auf unbekannte Situationen zu skalieren. Klassisches Reinforcement Learning ist ein bereits bekannter Ansatz zum Erlernen von Fahraufgaben. Im Gegensatz zum in der erfindungsgemäßen Lösung zusätzlich verwendeten Inverse Reinforcement Learning erlernt ein Agent, hier somit das autonome Fahrzeug, genauer gesagt dessen autonome Fahrfunktion, dabei seine Entscheidungen basierend auf einer im Voraus festgelegten Belohnungsfunktion durch seine eigene Erfahrung. Aufgrund der benötigten Erfahrung für eine vertretbare Leistungsfähigkeit müssen diese Agenten überwiegend in Simulationen trainiert werden. Zusätzlich dazu müssen Belohnungsfunktionen kontinuierlich angepasst werden, da eine Modellierung der Fahraufgabe mittels einer Belohnungsfunktion hochgradig nichtlinear ist. Vorteile durch die Nutzung einer Umfelderfassung und von Fahrbefehlen eines Fahrers bleiben bei der Verwendung von klassischem Reinforcement Learning unerschlossen. Des Weiteren weist die Simulation eine Lücke, eine so genannte sim2real Gap, zur realen Welt auf, so dass Agenten aus der Simulation nicht ohne zusätzliche Erfahrung in der realen Welt eingesetzt werden können. Dies kann dazu führen, dass eine Belohnungsfunktion in der Realität nicht dieselbe Leistungsfähigkeit wie in der Simulation erreicht.Behavioral cloning processes learn to copy human decisions based on the input data and are therefore not able to scale to unknown situations. Classic reinforcement learning is a well-known approach to learning driving tasks. In contrast to the inverse reinforcement learning additionally used in the solution according to the invention, an agent, in this case the autonomous vehicle, more precisely its autonomous driving function, learns its decisions based on a predetermined reward function through its own experience. Due to the experience required for a reasonable performance, these agents have to be trained mainly in simulations. In addition to this, reward functions have to be continuously adapted, since modeling the driving task by means of a reward function is highly non-linear. The advantages of using environment detection and driving commands from a driver remain untapped when using classic reinforcement learning. Furthermore, the simulation has a gap, a so-called sim2real gap, to the real world, so that agents from the simulation cannot be used in the real world without additional experience. This can mean that a reward function in reality does not achieve the same performance as in the simulation.
Diese Nachteile der Verwendung ausschließlich des Reinforcement Learning werden durch die erfindungsgemäße Lösung, insbesondere durch die Kombination von Reinforcement Learning und Inverse Reinforcement Learning, beseitigt.These disadvantages of using only reinforcement learning are eliminated by the solution according to the invention, in particular by the combination of reinforcement learning and inverse reinforcement learning.
Das für das Verfahren verwendete Fahrzeug weist insbesondere eine ausreichende Software und Hardware für die Wahrnehmung der Umgebung auf. Vorteilhafterweise werden für das Verfahren mehrere Fahrzeuge und/oder mehrere Fahrer verwendet. Zudem ist für das Verfahren insbesondere ein Modell für die abstrahierte Darstellung des Umfelds des Fahrzeugs vorgesehen. Hierzu erfolgt insbesondere eine Vorverarbeitung von Umfelderfassungsdaten. Das Modell ist beispielsweise ein Occupancy Grid. The vehicle used for the method has, in particular, sufficient software and hardware for perceiving the surroundings. Several vehicles and / or several drivers are advantageously used for the method. In addition, in particular a model for the abstract representation of the surroundings of the vehicle is provided for the method. For this purpose, there is in particular a preprocessing of data relating to the surroundings. The model is, for example, an occupancy grid.
Beispielsweise ist zudem ein Algorithmus vorgesehen, welcher Merkmale der Umfelddarstellung extrahieren kann, beispielsweise ein Autoencoder.For example, an algorithm is also provided which can extract features from the representation of the surroundings, for example an auto-encoder.
Das Verfahren umfasst, wie beschrieben, den Inverse Reinforcement Learning Algorithmus zum Erlernen der Belohnungsfunktion und den Reinforcement Learning Algorithmus, welcher mittels der durch den Inverse Reinforcement Learning Algorithmus ermittelten Belohnungsfunktion trainiert werden kann, genauer gesagt wird dabei die autonome Fahrfunktion trainiert.As described, the method comprises the inverse reinforcement learning algorithm for learning the reward function and the reinforcement learning algorithm, which can be trained using the reward function determined by the inverse reinforcement learning algorithm; more precisely, the autonomous driving function is trained.
Erfasste Daten für das Verfahren werden insbesondere im Fahrzeug zwischengespeichert. Das Fahrzeug weist hierfür einen ausreichenden Zwischenspeicher auf. Die erfassten Daten werden insbesondere an ein Backend, d. h. an einen fahrzeugexternen Server, gesendet. Das Fahrzeug weist somit eine entsprechende Anbindung an das Backend und Hardware auf. Das Senden der Daten erfolgt insbesondere über eine Mobilfunkverbindung.Acquired data for the method are cached in particular in the vehicle. The vehicle has a sufficient buffer for this purpose. The recorded data is sent in particular to a backend, ie to a server external to the vehicle. The vehicle thus has a corresponding connection to the backend and hardware on. The data is sent in particular via a cellular connection.
Vorteilhafterweise umfasst das Verfahren eine Methode, um die Sicherheit des autonomen Agenten, d. h. der autonomen Fahrfunktion, zu bewerten. Insbesondere wird zur Bewertung der Sicherheit der autonomen Fahrfunktion eine Leistungsfähigkeit der autonomen Fahrfunktion mit einer Leistungsfähigkeit eines menschlichen Experten verglichen.Advantageously, the method comprises a method to ensure the security of the autonomous agent, i. H. the autonomous driving function. In particular, to evaluate the safety of the autonomous driving function, the performance of the autonomous driving function is compared with the performance of a human expert.
Durch die Kombination von Umfeldmodell, Fahrbefehlen des Fahrers und Inverse Reinforcement Learning kann mittels des erfindungsgemäßen Verfahrens eine Belohnungsfunktion basierend auf den Umgebungsbedingungen und den Entscheidungen/Befehlen des Fahrers erlernt werden. Im Gegensatz zu klassischem Reinforcement Learning, welches eine bereits existierende Heuristik verwendet und darauf basierend die beste Aktion wählt, erlernt Inverse Reinforcement Learning die Heuristik durch die Entscheidungen des Fahrers. Dadurch kann die Entscheidungsplanung des Fahrzeugs, insbesondere der autonomen Fahrfunktion, deutlich effizienter und besser erlernt werden. Die berechnete Belohnungsfunktion wird daraufhin zum Training des Reinforcement Learning Algorithmus verwendet, um eine bessere Verhaltensplanung und Trajektorienplanung zu erreichen. Da lediglich die Heuristik des menschlichen Verhaltens erlernt wird und ein separater Optimierungsprozess stattfindet, kann der Algorithmus mit einer ausreichenden Datenmenge durch die Optimierung der Belohnungsfunktion die Leistungsfähigkeit eines Menschen übertreffen.By combining the environment model, driving commands from the driver and inverse reinforcement learning, the method according to the invention can be used to learn a reward function based on the ambient conditions and the decisions / commands made by the driver. In contrast to classic reinforcement learning, which uses an already existing heuristic and selects the best action based on it, inverse reinforcement learning learns the heuristic through the decisions of the driver. As a result, the decision-making planning of the vehicle, in particular the autonomous driving function, can be learned much more efficiently and better. The calculated reward function is then used to train the reinforcement learning algorithm in order to achieve better behavior planning and trajectory planning. Since only the heuristics of human behavior are learned and a separate optimization process takes place, the algorithm can exceed the capabilities of a person with a sufficient amount of data by optimizing the reward function.
Ausführungsbeispiele der Erfindung werden im Folgenden anhand von Zeichnungen näher erläutert.Embodiments of the invention are explained in more detail below with reference to drawings.
Dabei zeigen:
-
1 schematisch ein Ablaufdiagramm des Reinforcement Learning, -
2 schematisch einen Softwarestack eines autonomen Fahrzeugs, -
3 schematisch eine Inverse Reinforcement Learning Pipeline, -
4 schematisch ein Occupancy Grid, -
5 schematisch ein Training einer autonomen Fahrfunktion, und -
6 schematisch ein Inverse Reinforcement Learning Verfahren.
-
1 a schematic flow diagram of reinforcement learning, -
2 schematically a software stack of an autonomous vehicle, -
3 schematically an inverse reinforcement learning pipeline, -
4th schematically an occupancy grid, -
5 schematically a training of an autonomous driving function, and -
6th schematically an inverse reinforcement learning process.
Einander entsprechende Teile sind in allen Figuren mit den gleichen Bezugszeichen versehen.Corresponding parts are provided with the same reference symbols in all figures.
Anhand der
Aufgrund eines für das hier beschriebene Verfahren verwendeten Reinforcement Learning RL wird die autonome Fahrfunktion auch als Reinforcement Learning Agent
Reinforcement Learning RL ist ein Bereich des Machine Learning, d. h. des maschinellen Lernens, der sich damit beschäftigt, wie intelligente Agenten
Im hier beschriebenen Verfahren wird sowohl dieses Reinforcement Learning RL als auch ein Inverse Reinforcement Learning IRL, d. h. inverses bestärkendes Lernen oder inverses verstärkendes Lernen, verwendet, auch als Apprenticeship Learning bekannt. Im Folgenden wird auch hierfür weiterhin der bekannte Fachbegriff Inverse Reinforcement Learning IRL verwendet.In the method described here, both this reinforcement learning RL and an inverse reinforcement learning IRL, i. H. inverse reinforcement learning or inverse reinforcement learning, also known as apprenticeship learning. In the following, the well-known technical term Inverse Reinforcement Learning IRL will continue to be used for this.
Während beim Reinforcement Learning RL mit einer bereits gegebenen Belohnungsfunktion BF eine Strategie S erlernt werden soll, wird Inverse Reinforcement Learning IRL vom umgekehrten Prozess motiviert. Der Agent
Die Strategie S des Menschen spiegelt ein so genanntes „soft optimales“ Verhalten wieder, da davon ausgegangen werden kann, dass Menschen in vielen Bereichen, beispielsweise beim Führen eines Fahrzeugs, sich nahe am Optimum verhalten. Die erlernte Belohnungsfunktion BF spiegelt dieses optimale oder nahezu optimale Verhalten wieder und kann zum Training eines neuen Reinforcement Learning Agenten
Dank Fortschritten im Bereich der neuronalen Netze erreichen Algorithmen in der Bildverarbeitung im direkten Vergleich teilweise bereits bessere Ergebnisse als der Mensch. Aufgrund der Fortschritte der letzten Jahre gilt die Umfelderkennung nicht mehr als der größte limitierende Faktor für die Umsetzung des autonomen Fahrens. Im Gegensatz dazu stellt die Prädiktion P des Verhaltens anderer Verkehrsteilnehmer und die Verhaltensplanung des autonom fahrenden Fahrzeugs die größte Herausforderung für das autonome Fahren dar.Thanks to advances in neural networks, algorithms in image processing already achieve better results than humans in a direct comparison. Due to the progress made in recent years, the recognition of the surroundings is no longer considered to be the greatest limiting factor for the implementation of autonomous driving. In contrast, the prediction P of the behavior of other road users and the behavior planning of the autonomously driving vehicle represent the greatest challenge for autonomous driving.
Weil es aufgrund einer hohen Anzahl so genannter Edge Cases, d. h. selten auftretender Fahrsituationen, nicht möglich ist, Fahrzeuge, genauer gesagt deren autonome Fahrfunktion, durch traditionelles Feature Engineering, d. h. durch ein Aufbereiten von Rohdaten derart, dass sie direkt von Machine Learning Algorithmen verarbeitet werden können, zu programmieren, wird auch in diesem Bereich meist das so genannte Deep Learning, d. h. tiefe neuronale Netze, verwendet. Diese Verfahren skalieren mit einer Anzahl gesehener Fahrsituationen und sind daher von einer hohen Varianz an Daten abhängig, um eine gute Leistungsfähigkeit zu erreichen. Wegen der Vorteile im Bereich Datenlabeling, insbesondere der geringen Kosten, und der geringen induzierten Prior, d. h. Priorverteilung, im Vergleich zu Verfahren des so genannten Supervised Learning, d. h. des überwachten Lernens, werden dafür meist Verfahren des Reinforcement Learning RL eingesetzt.Because due to the high number of so-called edge cases, i. H. seldom occurring driving situations, it is not possible to drive vehicles, more precisely their autonomous driving function, through traditional feature engineering, i. H. To program by processing raw data in such a way that they can be processed directly by machine learning algorithms, so-called deep learning is usually also used in this area. H. deep neural networks. These methods scale with a number of driving situations seen and are therefore dependent on a high variance of data in order to achieve good performance. Because of the advantages in the area of data labeling, especially the low cost, and the low induced prior, i. H. Priority distribution, compared to so-called supervised learning methods, d. H. of supervised learning, Reinforcement Learning RL procedures are mostly used.
Reinforcement Learning Algorithmen werden dabei mittels einer Belohnungsfunktion BF durch das Sammeln eigener Erfahrung trainiert, d. h. das Verhalten V des Fahrzeugs, genauer gesagt der autonomen Fahrfunktion, wird solange angepasst, bis die Belohnungsfunktion BF optimiert ist. Das Problem dabei ist, dass die Belohnungsfunktion BF im Voraus von Experten festgelegt wird und daher nicht eine optimierte Belohnungsfunktion BF darstellt.Reinforcement learning algorithms are trained by means of a reward function BF by collecting personal experience, i. H. the behavior V of the vehicle, more precisely the autonomous driving function, is adapted until the reward function BF is optimized. The problem here is that the reward function BF is set in advance by experts and therefore does not represent an optimized reward function BF.
Da das menschliche Fahrverhalten als nahe am Optimum gilt und Ablenkungen während des Fahrens den größten Grund für Unfälle darstellen, wird vorteilhafterweise ein sicherheitsbewusster Fahrer als Maßstab gewählt. Beispielsweise werden mittels Verfahren wie Anomalie Detection sicherere Fahrer klassifiziert. Diese Fahrer und deren jeweiliges Fahrzeug werden dann zum Sammeln von Daten für das Training von Inverse Reinforcement Learning Algorithmen verwendet, wie in
Zusätzlich werden Algorithmen für die Erkennung des Umfelds und des Fahrzustands verwendet, um die aktuelle Umgebung
Um die Vorteile des Inverse Reinforcement Learning IRL nutzen zu können, müssen Daten zum aktuellen Zustand des Fahrzeugs, beispielsweise Fahrdynamikdaten wie Beschleunigungen, Geschwindigkeit, Gierwinkel, welche mittels einer entsprechenden Fahrdynamiksensorik
Diese Daten werden gesammelt, um das Erlernen einer Belohnungsfunktion BF mittels der Datenpunkte, d. h. mittels dieser Daten, sicherzustellen.
Wie in
Indem auf diesem Modell gearbeitet wird, kann eine Entkopplung vom Sensorset, d. h. von der Umfelderfassungssensorik
Die auch als Feature bezeichneten Merkmale des Occupancy Grid OG können optional mittels einer Architektur des Typs Autoencoder AE komprimiert werden, um die korrekten Datendimensionen für den Input in das Inverse Reinforcement Learning IRL Verfahren sicherzustellen.The features of the Occupancy Grid OG, also known as features, can optionally be compressed by means of an architecture of the Autoencoder AE type in order to ensure the correct data dimensions for the input into the Inverse Reinforcement Learning IRL method.
Aus demselben Grund werden auch die Signale der Fahrdynamiksensorik
Hierzu werden mittels einer Mobilfunkverbindung die Daten des Umfeldmodells UM und die ermittelten Signale des Fahrzustands sowie die Fahrbefehle FB, d. h. die Strategie SFa des Fahrers, an ein Backend, d. h. an einen fahrzeugexternen Server, gesendet, denn das Inverse Reinforcement Learning IRL wird außerhalb des Fahrzeugs und vorteilhafterweise mittels dieser Informationen aus mehreren Fahrzeugen, vorteilhafterweise aus einer Vielzahl von Fahrzeugen, durchgeführt, insbesondere auch mit mehreren als sicherer klassifizierten Fahrern, insbesondere mit einer Vielzahl solcher Fahrer. Zusätzlich ist das Fahrzeug bzw. das jeweilige Fahrzeug mit einem ausreichend großen Speicher ausgestattet, um die aufgenommenen Daten zwischenzuspeichern. Dies erlaubt es, den Algorithmus, d. h. das Inverse Reinforcement Learning IRL, mittels neuer Daten kontinuierlich zu verbessern.For this purpose, the data of the environment model UM and the determined signals of the driving status as well as the driving commands FB, d. H. the driver's strategy SFa, to a backend, d. H. to a server external to the vehicle, because the inverse reinforcement learning IRL is carried out outside the vehicle and advantageously using this information from several vehicles, advantageously from a large number of vehicles, in particular also with a number of drivers classified as safer, in particular with a large number of such drivers . In addition, the vehicle or the respective vehicle is equipped with a sufficiently large memory to temporarily store the recorded data. This allows the algorithm, i.e. H. To continuously improve the Inverse Reinforcement Learning IRL using new data.
Mittels der vorverarbeiteten Daten, bestehend aus Umfeldmodell UM, Fahrsituation und Befehlen des Fahrers, d. h. der Strategie SFa des Fahrers, wird nun die Belohnungsfunktion BF mittels des Inverse Reinforcement Learning IRL erlernt. Dies ist nochmals in
Hier wird der Reinforcement Learning Agent
Der trainierte Reinforcement Learning Agent
Wie in
Inverse Reinforcement Learning IRL ist für die komplexe Anwendung des autonomen Fahrens besser geeignet als Verfahren des Typs Behavioral Cloning. Behavioral Cloning Verfahren lernen lediglich das menschliche Verhalten zu kopieren und sind daher nicht in der Lage, auf noch nicht gesehene und somit nicht erlernte Situationen zu reagieren. Im Gegensatz dazu kann ein Inverse Reinforcement Learning IRL Verfahren durch die Belohnungsfunktion BF die Heuristiken des menschlichen Verhaltens wiederspiegeln und einen Reinforcement Learning RL Ansatz trainieren. Dieser Reinforcement Learning RL Ansatz kann nun mittels der erlernten Belohnungsfunktion BF trainiert werden. Dabei kann der Reinforcement Learning Agent
Um eine sichere Leistungsfähigkeit des Agenten
E der Umgebung 2 entspricht,- π der Strategie S oder SFa entspricht,
- R(st) der Belohnung B des Zustand s zum Zeitschritt t entspricht,
- γt einer Discount Rate zum Zeitschritt t entspricht.
- E the
environment 2 is equivalent to, - π corresponds to strategy S or SFa,
- R (s t ) corresponds to the reward B of the state s at the time step t,
- γ t of a discount rate corresponding to the time step t.
Durch diese Funktion kann eine Bedingung für den Strategie Loss aufgestellt werden:
-
dem Value der optimalen (menschlichen) Strategie π*, d. h. der Strategie SFa des Fahrers, entspricht, -
dem Value der erlernten Strategie S des Reinforcement Learning Agenten πrobot, d. h. der autonomen Fahrfunktion, entspricht, und - ε einem Threshold, d. h. einem Schwellwert, für die Differenz zwischen optimaler Strategie SFa und erlernter Strategie S entspricht.
-
corresponds to the value of the optimal (human) strategy π *, i.e. the driver's strategy SFa, -
corresponds to the value of the learned strategy S of the reinforcement learning agent πrobot, ie the autonomous driving function, and - ε corresponds to a threshold, ie a threshold value, for the difference between the optimal strategy SFa and the learned strategy S.
Basierend auf der oben genannten Bedingung des Strategie Loss können aufgenommene Daten verwendet werden, um die Leistungsfähigkeit des menschlichen Experten mit der des Reinforcement Learning Agenten
ZITATE ENTHALTEN IN DER BESCHREIBUNGQUOTES INCLUDED IN THE DESCRIPTION
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.This list of the documents listed by the applicant was generated automatically and is included solely for the better information of the reader. The list is not part of the German patent or utility model application. The DPMA assumes no liability for any errors or omissions.
Zitierte PatentliteraturPatent literature cited
- DE 102019122829 A1 [0002]DE 102019122829 A1 [0002]
Claims (4)
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| DE102021004426.6A DE102021004426A1 (en) | 2021-08-31 | 2021-08-31 | Method for training an autonomous driving function |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| DE102021004426.6A DE102021004426A1 (en) | 2021-08-31 | 2021-08-31 | Method for training an autonomous driving function |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| DE102021004426A1 true DE102021004426A1 (en) | 2021-11-25 |
Family
ID=78408836
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| DE102021004426.6A Pending DE102021004426A1 (en) | 2021-08-31 | 2021-08-31 | Method for training an autonomous driving function |
Country Status (1)
| Country | Link |
|---|---|
| DE (1) | DE102021004426A1 (en) |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN115107948A (en) * | 2022-06-24 | 2022-09-27 | 大连海事大学 | Efficient reinforcement learning autonomous ship collision avoidance method adopting multiplexing of internal excitation signals and learning experience |
| DE102022123578A1 (en) | 2022-09-15 | 2024-03-21 | Dr. Ing. H.C. F. Porsche Aktiengesellschaft | Method and device for tuning motor vehicles |
| DE102023200230A1 (en) | 2023-01-12 | 2024-07-18 | Robert Bosch Gesellschaft mit beschränkter Haftung | Procedure for training a behavior model |
| WO2024199651A1 (en) | 2023-03-29 | 2024-10-03 | Abb Schweiz Ag | Method for controlling an industrial process |
Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| DE102019122829A1 (en) | 2018-08-24 | 2020-02-27 | Ford Global Technologies, Llc | VEHICLE CONTROL ACTION |
-
2021
- 2021-08-31 DE DE102021004426.6A patent/DE102021004426A1/en active Pending
Patent Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| DE102019122829A1 (en) | 2018-08-24 | 2020-02-27 | Ford Global Technologies, Llc | VEHICLE CONTROL ACTION |
Cited By (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN115107948A (en) * | 2022-06-24 | 2022-09-27 | 大连海事大学 | Efficient reinforcement learning autonomous ship collision avoidance method adopting multiplexing of internal excitation signals and learning experience |
| CN115107948B (en) * | 2022-06-24 | 2023-08-25 | 大连海事大学 | Efficient reinforcement learning autonomous ship collision prevention method |
| DE102022123578A1 (en) | 2022-09-15 | 2024-03-21 | Dr. Ing. H.C. F. Porsche Aktiengesellschaft | Method and device for tuning motor vehicles |
| DE102023200230A1 (en) | 2023-01-12 | 2024-07-18 | Robert Bosch Gesellschaft mit beschränkter Haftung | Procedure for training a behavior model |
| WO2024199651A1 (en) | 2023-03-29 | 2024-10-03 | Abb Schweiz Ag | Method for controlling an industrial process |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| DE102021004426A1 (en) | Method for training an autonomous driving function | |
| EP3688538B1 (en) | Method and system for updating a control model for an automatic control of at least one mobile unit | |
| DE102019104974A1 (en) | Method and system for determining a driving maneuver | |
| DE102019118366A1 (en) | Method and control device for a system for controlling a motor vehicle | |
| DE102019204943A1 (en) | Method and device for teleoperated driving of a vehicle | |
| DE102019203712B4 (en) | Method for training at least one algorithm for a control unit of a motor vehicle, computer program product, motor vehicle and system | |
| DE102017221286A1 (en) | Method for setting fully automatic vehicle guidance functions in a predefined navigation environment and motor vehicle | |
| DE102014003343A1 (en) | Method for determining a lane change requirement of a system vehicle | |
| DE102016224291A1 (en) | Method for the computer-aided adaptation of a predetermined semi-automated driving system of a motor vehicle | |
| DE102016007899A1 (en) | Method for operating a device for traffic situation analysis, motor vehicle and data processing device | |
| EP4027245A1 (en) | Computer-implemented method for determining similarities of traffic scenarios | |
| DE102019219241A1 (en) | Method for creating a road user algorithm for computer simulation of road users, method for training at least one algorithm for a control device of a motor vehicle, computer program product and motor vehicle | |
| DE102022206603A1 (en) | Hand detection method, computer program, and device | |
| DE102019122250A1 (en) | Method and control device for a system for controlling a motor vehicle | |
| EP4412882B1 (en) | Method for planning a trajectory of a driving maneuver of a motor vehicle, computer program product, computer-readable storage medium, and vehicle | |
| DE102023200080A1 (en) | Method and control device for operating a vehicle | |
| DE112020006317T5 (en) | COMPUTER SYSTEM AND METHOD FOR TRAINING A TRAFFIC AGENT IN A SIMULATION ENVIRONMENT | |
| DE102022200139A1 (en) | Process for optimizing the perception of the environment for a driving support system using additional reference sensors | |
| DE102020213198A1 (en) | System and method for performing an automated driving maneuver with a selected driving style, vehicle, computer program product and computer-readable storage medium | |
| EP4508621B1 (en) | Method for predicting an influence of one road user on at least one other road user, and method for operating a vehicle | |
| DE102017120366A1 (en) | Method, apparatus, computer program and computer program product for motion planning of a system | |
| DE102020203042A1 (en) | External control tactics determination for autonomous vehicles | |
| DE102020201931A1 (en) | Method for training at least one algorithm for a control unit of a motor vehicle, method for optimizing a traffic flow in a region, computer program product and motor vehicle | |
| DE102023203666A1 (en) | Computer-implemented method for predicting the behavior of a participant in a traffic scene | |
| DE102018216172A1 (en) | Method for automatically generating a label for training a self-learning system and motor vehicle |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| R230 | Request for early publication | ||
| R012 | Request for examination validly filed | ||
| R081 | Change of applicant/patentee |
Owner name: MERCEDES-BENZ GROUP AG, DE Free format text: FORMER OWNER: DAIMLER AG, STUTTGART, DE |