Sicherheitsgarantien für Deep Reinforcement Learning in Black-Box-Szenarien

Kollisionsfrei unterwegs

Mit Hilfe von Reinforcement-Learning-Algorithmen können Roboter auch anspruchsvolle Bewegungen in einer unbekannten Umgebung und bei unbekannten Robotermodellen erlernen - doch wie kann man sicherstellen, dass sie Sicherheitsbeschränkungen respektieren, ohne dass sich ihre Performance verschlechtert?
Damit RL-Agenten in Echtsituationen zum Einsatz kommen können, muss es daher zusätzliche Sicherheitsfunktionen geben, die möglichst Performance-freundlich sind. Dem Team von Wissenschaftlern ist es mit Hilfe des BRSL gelungen, die Sicherheit wesentlich zu erhöhen und gleichzeitig das System nur geringfügig einzuschränken.
Damit RL-Agenten in Echtsituationen zum Einsatz kommen können, muss es zusätzliche Sicherheitsfunktionen geben, die möglichst Performance-freundlich sind. Einem Team von Wissenschaftlern ist es mit Hilfe des BRSL gelungen, die Sicherheit wesentlich zu erhöhen und gleichzeitig das System nur geringfügig einzuschränken. – Bild: Amr Alanwar, TUM Campus Heilbronn GmbH

Das Reinforcement-Learning (RL) spielt eine zentrale Rolle für die Verbesserung von Sicherheitsfunktionen und Bewegungsabläufen bei autonomen Fahrzeugen, Lieferdrohnen oder anderen mobilen Robotersystemen. In autonomen mobilen Robotern übernehmen vernetzte, eingebettete Systeme wichtige Planungs- und Steuerungsaufgaben und berücksichtigen Informationen aus der Umgebung.

Eine grundlegende Herausforderung in der Robotik ist die Trajektorien- oder Bahnplanung. Sie zielt darauf ab, den kürzesten hindernisfreien Weg vom Start- zum Zielzustand zu finden. Der Pfad kann dabei eine beliebig große Menge von Zuständen (Position und Orientierung) oder Wegpunkten sein. Um dieses Planungsproblem lösen zu können, gibt es mehrere Ansätze. Sie werden hauptsächlich in zwei Kategorien eingeteilt: klassische Ansätze und lernbasierte Ansätze. Während Systeme bei dem klassischen Ansatz durch menschlichen Input trainiert werden, basieren selbstlernende Verfahren auf Datensets und künstlicher Intelligenz. Das RL bedeutet, dass ein System selbständig mit seiner Umgebung interagiert und lernt, indem es Rückmeldungen (Belohnungen oder Bestrafungen) für seine Handlungen erhält. In Folge werden Aktionen in ähnlichen Situationen durch den lernenden Agenten wiederholt oder vermieden.

Anhand des lernbasierten RL trainiert ein Robotersystem z.B. das Vermeiden von Kollisionen, indem sich das autonome und softwaregestützte System, der Agent, in seiner Umgebung bewegt und mit ihr interagiert. Durch Trial-und-Error bzw. Aktion und folgender Belohnung oder Bestrafung, kann das System sich somit mit Hilfe von Machine Learning kontinuierlich verbessern. Der Agent ist dabei durch Lernalgorithmen angewiesen, die kumulative langfristige Belohnung zu erhöhen. Entsprechende RL-Methoden werden für die Ausführung und Verbesserung anspruchsvoller Bewegungsabläufe in unsicheren Umgebungen eingesetzt. Allerdings fehlen modernen Deep-RL-Ansätzen in der Regel Sicherheitsgarantien, insbesondere wenn die Systemumgebung und das Robotermodell unbekannt sind. In solchen Szenarien gelten die Umgebung und das unbekannte Robotermodell als Black Box. Doch wie lassen Kollisionen auch in einem Black-Box-System verhindern?

Neuer Forschungsansatz: Sicherheit für Black-Box-Systeme

Mit dem Ziel, Sicherheitsgefahren noch zuverlässiger ausschließen zu können, werden derzeit in der Forschung im Bereich der Cyber-physischen Systeme (CPS) und der Robotersicherheit neue Ansätze untersucht, die bislang existierende RL-Methoden übertreffen. Um einen Serieneinsatz in großem Maßstab zu rechtfertigen, müssen Roboter Sicherheitsbeschränkungen in einer Weise einhalten können, die nicht zu gleichzeitigen Performanceeinbußen führt. Zu diesem Zweck haben Wissenschaftler der Technischen Universität München am Campus Heilbronn, zusammen mit Wissenschaftlern der Stanford University, den sogenannten Black-Box-Reachability-based Safety Layer (BRSL) entwickelt. Hierbei wird RL in Verbindung mit datengesteuerten Erreichbarkeitsanalysen zur Planung komplexer Handlungsabläufe genutzt, um Sicherheit auch für Black-Box-Systeme zu garantieren.

Sicherheitgarantiertes Reinforcement Learning

Wie kann ein System mit einem auf Trial und Error basierendem RL geschult werden, ohne, dass es dabei zu realen Fehlern kommt? Um der Maschine beizubringen, sichere Aktionen auszuführen, wird ein sogenanntes sicherheitsgarantiertes RL durchgeführt. Der BRSL sorgt für Sicherheit, indem er die Gesamtheit aller möglichen Trajektorien des Roboters berechnet, die das Resultat einer bestimmten Aktion sind, ausgehend von den Ausgangspunkten. Wenn es eine mögliche Kollision zwischen der Menge der erreichbaren Zustände und einem Hindernis gibt, so wird die unsichere Aktion durch eine sichere Aktion ersetzt, die zu einer kollisionsfreien Aktion führt.

Wie läuft das konkret ab? Zunächst berechnet der Agent dafür eine mögliche Bewegungsbahn, unter Anwendung eines Regelsets und eines neuronalen Netzwerkes, das eine Blackbox-Umgebung abbildet und für diese trainiert wurde. Im nächsten Schritt wird die Bewegungsplanung so geändert, dass die Sicherheit durch datengesteuerte Erreichbarkeit und eine Kollisionsprüfung für den erreichbaren Bereich des Roboters gewährleistet ist. Sollte eine Kollisionsprüfung nicht in der erforderlichen Zeit durchführbar sein, wird ein sicheres Manöver ausgeführt. Anschließend wird der neue sichere Plan an den Roboter weitergegeben und dem RL-Agenten wird eine Strafe für die Wahl einer unsicheren Aktion auferlegt. Ein wichtiger Aspekt: Die Erreichbarkeitsanalyse verwendet hierfür ein Set an Störungsdaten, die offline für das Black-Box-Systemmodells gesammelt wurden. Online gesammelte Daten werden nur für das Training des Richtlinien- und Umgebungsmodells verwendet. Um den RL-Agenten in die Lage zu versetzen, dynamisch informierte Entscheidungen zu treffen, trainiert der BRSL auch ein Online-Umgebungsmodell, was jedoch die Sicherheitsgarantie nicht beeinträchtigt.

Zusammengefasst besteht der BRSL im Wesentlichen aus drei Hauptkomponenten:

  • einer datengesteuerten Erreichbarkeitsanalyse für ein Black-Box-Robotermodell
  • einem Trajektorien-Rollout-Planer, der zukünftige Aktionen und Beobachtungen mithilfe eines Ensembles von online trainierten neuronalen Netzwerken vorhersagt
  • einer differenzierbaren Polytop-Kollisionsüberprüfung zwischen dem erreichbaren Bereich und Hindernissen, die die Korrektur unsicherer Aktionen ermöglicht

Evaluation anhand von vier Bewegungsplanungsproblemen

Sicheres RL mit einem unbekannten Systemmodell ist somit mit Hilfe eines BRSL möglich. Die Methode wurde anhand von vier Roboter-Bewegungsplanungsproblemen evaluiert, bei denen der BRSL die Sicherheitsbedingungen respektiert und gleichzeitig über den Zeitverlauf eine wesentlich höheren Belohnungsanteil im Vergleich zu herkömmlichen Methoden erzielt. In Simulationen übertrifft BRSL andere sichere RL-Methoden auf einem Turtlebot 3, einem Quadrotor, einer Trajectory-Tracking-Punktmasse und einem Hexarotor im Wind mit einem vorbestimmten unsicheren Bereich, der direkt neben einem highest-reward-Bereich definiert wurde.

Seiten: 1 2Auf einer Seite lesen

TUM Campus Heilbronn gGmbH
https://www.chn.tum.de/

Das könnte Sie auch Interessieren

Bild: SMW-electronics GmbH
Bild: SMW-electronics GmbH
Kontaktlose Übertragung von Energie und Signalen durch induktive Koppelsysteme von SMW-Electronics

Kontaktlose Übertragung von Energie und Signalen durch induktive Koppelsysteme von SMW-Electronics

Eine wesentliche Rolle auf dem Weg zur digitalen Fabrik spielt smarte Konnektivität. Zur kontaktlosen Übertragung von Energie und Signalen für die Anbindung von Sensoren und Aktoren hat SMW-Electronics induktive Koppelsysteme entwickelt. In den unterschiedlichen Bauformen können sie nicht nur zusätzlichen Nutzen ausspielen, sondern ermöglichen auch ganz neuartige Anwendungen. Endlos rotierende Robotergreifer sind nur ein Beispiel.

Bild: DM-Drogerie Markt
Bild: DM-Drogerie Markt
Kommissionierung von Versandpaletten

Kommissionierung von Versandpaletten

Im Verteilzentrum der Drogeriekette DM in Wustermark bei Berlin sind insgesamt 19 Kuka-Roboter im Einsatz. Sie palettieren, depalettieren und positionieren die Waren vor, die dann vom Verteilzentrum aus ihren Weg in die DM-Filialen finden. Die automatisierten Intralogistiklösungen dort kommen von Swisslog. Das neuartige daran: Um alle Filialen flexibel und individuell mit Waren zu versorgen, kommt ein digitaler Zwilling der Filiale zum Einsatz.