Aleatorische Funktionsabsicherung: Neue Methode zur Absicherung von Fahrerassistenzsystemen im Closed-Loop auf Basis des Reinforcement Learnings.

Lesedauer: circa 4 Minuten.

Die ASAP Gruppe hat eine Absicherungsmethode für komplexe Systemfunktionen, wie beispielsweise Fahrerassistenzsysteme, auf Basis des Reinforcement Learnings entwickelt: die aleatorische Funktionsabsicherung. Damit begegnet der Entwicklungspartner der Automobilindustrie der überproportionalen Zunahme der Vielfältigkeit und Komplexität von Fahrzeugfunktionen und den daraus resultierenden Herausforderungen bei ihrer Validierung. Durch den Einsatz Künstlicher Intelligenz (KI) lassen sich auch komplexe Wirkketten mit Querwirkungen diverser Steuergeräte umfassend und zeitsparend validieren. Dabei suchen selbstlernende Algorithmen gezielt nach kritischen Stimulationen, die zu Fehlern in der Wirkkette führen. Auf diese Weise ermöglicht die aleatorische Funktionsabsicherung eine Absicherung über eine Vielzahl von Parameter- und Stimulationsräumen – unter anderem ein wichtiger Schritt in Richtung Autonomes Fahren. Die Effizienz- und Qualitätssteigerung in der Funktionsabsicherung durch die neue selbstlernende Methode wird im Folgenden am Beispiel der Absicherung von Rückfahrsystemen deutlich.

Das US-Gesetz FMVSS111 beschäftigt aktuell Automobilhersteller und deren Entwicklungspartner wie die ASAP Gruppe. Es schreibt eine Rückfahrkamera bei allen ab Mai 2018 in den USA verkauften PKWs vor. Wesentlich dabei: das Bild der Rückfahrkamera muss spätestens zwei Sekunden nach Einlegen des Rückwärtsgangs angezeigt werden und darf zu keinem Zeitpunkt durch andere Anzeigen überlagert werden. Die Absicherung von Rückfahrsystemen im Hinblick auf die neuen Vorgaben birgt viele Herausforderungen, da es sich bei dem Assistenzsystem um eine komplexe Wirkkette mit zahlreichen Querwirkungen handelt. Um sicherzustellen, dass das Bild der Rückfahrkamera immer gesetzeskonform angezeigt wird, müssen unzählige Signale und deren Auswirkungen auf das Gesamtsystem überprüft werden. Beispiele für unerwünschte Querwirkungen sind die Anzeige einer Unwetterwarnung während der Rückwärtsfahrt oder eines Hinweises, dass der Akkustand des verbundenen Handys gering ist. Mit der Entwicklung einer neuen Absicherungsmethode auf Basis des Reinforcement Learnings – der aleatorischen Funktionsabsicherung – sorgt ASAP für die passende Lösung: mit ihr lassen sich Funktionen in weitaus höherer Vielfalt und gleichzeitig gezielter absichern als mit herkömmlichen Methoden. 

Neue Methode sorgt für Effizienz- und Qualitätssteigerung in der Funktionsabsicherung.

Der kontinuierlich steigenden Vielfalt und Komplexität von Funktionen wird in der Absicherung bisher mit manuellen Tests sowie dem Einsatz von Testautomatisierungen begegnet: bei Testfahrten etwa werden in zufälliger Reihenfolge Kundenfunktionen ausgeführt und Fehler aufgezeichnet. Gerade bei komplexen Wirkketten mit mehreren Steuergeräten im Verbund sind manuelle Erprobungen oder die Validierung mit Testautomatisierungen alleine nicht ausreichend, da sie zu zeitaufwendig und entsprechend kostspielig sind und die nötige Testtiefe fehlt. ASAP hat deshalb die Methode der aleatorischen Funktionsabsicherung entwickelt, die bereits vor der Erprobung im Fahrzeug ansetzt und eine Lösung für die Herausforderungen der Absicherung bietet: durch den Einsatz künstlicher Intelligenz und das Testen an Closed-Loop-Prüfstanden lassen sich komplexe Wirkketten mit Querwirkungen diverser Steuergeräte umfassend und zeitsparend validieren. Nicht nur ermöglicht die aleatorische Funktionsabsicherung demnach die Integration von Funktionen im Fahrzeug, die von vornherein besser abgesichert sind – gleichzeitig wird so der Bedarf an Testfahrten und -szenarien mit Prototypen auf diese Weise erheblich minimiert.

Die Vorteile der selbstlernenden Methode sind vielfältig. Im Gegensatz zum anforderungsbasierten Testen müssen bei der aleatorischen Funktionsabsicherung vor Validierungsbeginn keine Testspezifikationen festgelegt werden – der Entwicklungsprozess wird somit beschleunigt. Außerdem ist die aleatorische Funktionsabsicherung nicht auf manuelle Eingaben angewiesen und kann folglich rund um die Uhr kostengünstig eingesetzt werden [1]. Ein weiterer wichtiger Punkt ist, dass die gelernten Zusammenhänge und Fehlerquellen für alle zukünftigen Absicherungen zur Verfügung stehen. Dieser Punkt unterscheidet sich grundsätzlich vom manuellen Testen, bei dem jeder Tester nur auf seinen persönlichen Erfahrungsschatz zugreifen kann. Ein weiterer Vorteil der aleatorischen Funktionsabsicherung ist die automatische Generierung einer Datenbank, in der alle Ergebnisse dokumentiert werden. Besonders hervorzuheben ist zudem, dass Entscheidungen auf Basis von objektiven Kriterien getroffen werden – dadurch erhöht sich die Testtiefe und somit der Validierungsgrad der getesteten Software. 

Selbstlernende Methode zur Absicherung komplexer Wirkketten.

Die genannten Vorteile machen die aleatorische Funktionsabsicherung von ASAP zur optimalen Absicherungsmethode für komplexe Systeme mit vielen Querwirkungen. Beispielhaft seien hier Assistenzfunktionen beim Parken beziehungsweise bei der Rückwärtsfahrt genannt. Angefangen vom Gangwahlschalter über Motorsteuergeräte und Head Unit bis hin zum Kamerasystem sind eine Vielzahl von Steuergeräten Teil einer Wirkkette. Aus diesem Steuergeräteverbund ergeben sich zahlreiche Querwirkungen. So können beispielsweise Pop-ups zu Einstellungen oder Sicherheitsmeldungen das Bild der Rückfahrkamera überlagern. Im schlimmsten Fall könnte das Kamerabild durch Steuergerätefehler sogar ganz ausfallen.

Die Ursachen für Fehler können verschiedenste Eingabe-Kombinationen oder kritische Zustände von Steuergeräten sein. Da es unmöglich ist, alle Eingabe-Kombinationen mit unterschiedlichen Wartezeiten zu testen, setzt die aleatorische Funktionsabsicherung auf das Testen intelligent ausgewählter Stichproben. Dabei geht sie folgendermaßen vor: zunächst werden Randbedingungen, Erwartungswerte und Stimulationsräume definiert. Unter Randbedingungen versteht man beispielsweise die gesetzlichen Vorgaben, dass der Fahrer das Bild auf eigenen Wunsch deaktivieren kann oder dass bei geöffnetem Kofferraum kein Bild der Rückfahrkamera angezeigt wird, da sich die Kamera typischerweise in der Kofferraumabdeckung befindet. Der Erwartungswert beschreibt, welcher Zustand nach der Stimulation mit Eingabe-Kombinationen eintreten soll, und die Stimulationsräume legen fest, welche Eingaben zulässig sind.

Anschließend werden mithilfe von Mustererkennungsverfahren gezielt Stichproben aus den verschiedenen Eingabe-Kombinationen bestimmt. Dabei wird ein selbstlernender Algorithmus – das Reinforcement Learning – verwendet [2]. Der Algorithmus funktioniert wie folgt: kontinuierlich werden Aktionen ausgeführt, die den Zustand der Umwelt, also des Steuergeräteverbunds, verändern. Falls nach einer Aktion nicht der Erwartungswert eintritt, erhält der Algorithmus eine Belohnung für seine durchgeführten Aktionen. Dadurch wird der Algorithmus darauf konditioniert, nach Abweichungen vom Erwartungswert zu suchen. Der Algorithmus sucht demnach innerhalb des zur Verfügung stehenden Stimulationsraums nach Fehlern.

Wirkungsweise des Reinforcement Learnings.

Das Reinforcement Learning basiert auf der Annahme, dass für den aktuellen Zeitpunkt die Belohnung rt vom aktuellen Zustand st sowie von der Aktion αt abhängt. Dabei sind die Lernrate ∝ und der Diskontierungsfaktor ϒ frei wählbare Parameter, die je nach Problemstellung und Anforderungen bestimmt werden müssen. Prinzipiell gibt es einen Zusammenhang zwischen der Lernrate ∝ ∈ ]0,1] und der Umgebung. Für deterministische Umgebungen ist die optimale Lernrate ∝ = 1, da jeder gelernte Zusammenhang auch in Zukunft Gültigkeit hat. Je unberechenbarer die Umgebung ist, desto kleiner sollte ∝  gewählt werden, um nur die wichtigsten Zusammenhänge zu lernen und seltenen Ereignissen nicht zu viel Gewicht zu verleihen. Gleichzeitig sollte der Diskontierungsfaktor ϒ∈ [0,1] an die Dauer des Testlaufs angepasst werden. Grundsätzlich gilt: je kürzer der Testlauf, desto kleiner der Parameter ϒ. Der Grund dafür ist, dass für kleine Werte ϒ verstärkt an problematischen Stellen gesucht wird, während große Werte für ϒ dazu führen, dass der Suchraum umfassender durchsucht wird. Zusammenfassend ergibt sich folgende Q-Funktion, die die erwartete Belohnung Q einer Aktion ∝ im Zustand s beschreibt: 

 

Q(st,∝t)=(1-∝)Q(st,∝t)+∝(rt+ϒmax⁡Q(st+1,∝))

 

 

Testumgebung der aleatorischen Funktionsabsicherung.

Die aleatorische Funktionsabsicherung benötigt einen Closed-Loop-Prüfstand an dem alle relevanten Stimuli automatisiert ausgeführt werden können. Unter Closed-Loop-Prüfstand versteht man die Eigenschaft, dass der real verbaute Steuergeräteverbund und die simulierte Umgebung sich gegenseitig beeinflussen. Beschleunigen die beteiligten Steuergeräte den Prüfstand virtuell auf eine bestimmte Geschwindigkeit, muss die simulierte Umgebung sich dementsprechend verändern und Rückmeldung über Steigungswinkel der Straße, Gegenwind und weitere Details an die entsprechenden Steuergeräte und Sensoren geben. Zudem muss die zu validierende Funktion ein eindeutiges Ergebnis haben. Insbesondere bei der Auswertung von Kundenfunktionen werden typischerweise Algorithmen aus der Bildverarbeitung und des maschinellen Lernens eingesetzt.

Aleatorische Funktionsabsicherung als Wegbereiter für Autonomes Fahren.

Die Absicherung von Fahrfunktionen für Autonomes Fahren stellt die Automobilindustrie vor neue Herausforderungen [3, 4]. Als Faustregel gilt: mindestens eine Million Testkilometer sollten mit autonomen Fahrfunktionen zurückgelegt werden, bevor eine Freigabe erteilt werden kann. Die von ASAP entwickelte Methode der aleatorischen Funktionsabsicherung unterstützt dabei aktiv den Entwicklungsprozess. Mit ihr lassen sich in jeder Entwicklungsstufe automatisierte, realitätsnahe Tests ausführen und mögliche Fehler finden. Durch das gezielte Suchen nach Fehlern bekommt der Funktionsentwickler innerhalb kürzester Zeit ein Feedback zum aktuellen Entwicklungsstand.

Ein Beispiel für eine Funktion des Autonomen Fahrens ist etwa die Personenerkennung. Eine vollständige Spezifizierung zur Absicherung ist dabei nicht möglich, da es unendlich viele Situationen gibt, in denen Personen erkannt werden müssen. Eine Auswahl an Parametern, die sich ändern können und trotzdem zu einer fehlerfreien Erkennung der Person führen müssen, sind: Größe, Bekleidung, Gehgeschwindigkeit der Person, Winkel zwischen Person und Auto, Lichtverhältnisse, Wetter, Straßenbelag sowie Objekte wie Bäume und Schilder. Alle diese Parameter in sämtlichen Kombinationen zu evaluieren ist schlicht unmöglich. An dieser Stelle hilft die von ASAP entwickelte Methodik, kritische Konfigurationen – wie beispielsweise schlechte Lichtverhältnisse – zu identifizieren und kann so einen großen Beitrag bei der Realisierung von Mobilitätslösungen der Zukunft leisten.

Literaturverzeichnis.

[1] Fromm, T.: Abschied von den geheimen Fahrten. Unter: https://www.sueddeutsche.de/wirtschaft/das-ende-der-erlkoenige-abschied-von-den-geheimen-fahrten-1.1008700 (abgerufen am 06.08.2018).
[2] Barto, A. G.; Sutton, R. S. (1998). Introduction to Reinforcement Learning. MIT Press, Cambridge.
[3] Brenner, W.; Herrmann, A. (2018). An Overview of Technology, Benefits and Impact of Automated and Autonomous Driving on the Automotive Industry. In: Digital Marketplaces Unleashed, pp. 427-442. Springer Berlin Heidelberg.
[4] Becker, J.: Der Entwicklungsaufwand bei selbstfahrenden Autos ist riesig. Unter: https://www.sueddeutsche.de/auto/autonomes-fahren-der-entwicklungsaufwand-bei-selbstfahrenden-autos-ist-riesig-1.3838094  (abgerufen am 08.08.2018).

X
News
Sie interessieren sich für unsere aktuellen Projekte, neuesten Entwicklungen und wichtigsten Unternehmensnews? Dann melden Sie sich für unseren ASAP Newsletter an.
Jetzt anmelden