Nachrichten

Ein Schritt hin zu sicheren und zuverlässigen Autopiloten für das Fliegen | MIT-Nachrichten

Im Film „Top Gun: Maverick,” Maverick, gespielt von Tom Cruise, hat die Aufgabe, junge Piloten für eine scheinbar unmögliche Mission auszubilden: Sie müssen ihre Jets tief in eine felsige Schlucht fliegen, so tief über dem Boden bleiben, dass sie vom Radar nicht erkannt werden können, und dann schnell aus der Schlucht aufsteigen in einem extremen Winkel und meiden Sie die Felswände. Spoiler-Alarm: Mit Mavericks Hilfe erfüllen diese menschlichen Piloten ihre Mission.

Eine Maschine hingegen würde Schwierigkeiten haben, die gleiche rasante Aufgabe zu bewältigen. Für ein autonomes Flugzeug beispielsweise steht der einfachste Weg zum Ziel im Widerspruch zu dem, was die Maschine tun muss, um eine Kollision mit den Canyonwänden zu vermeiden oder unentdeckt zu bleiben. Viele bestehende KI-Methoden sind nicht in der Lage, diesen Konflikt, das sogenannte Stabilisierungs-Vermeidungs-Problem, zu überwinden und würden ihr Ziel nicht sicher erreichen.

MIT-Forscher haben eine neue Technik entwickelt, die komplexe Stabilisierungs- und Vermeidungsprobleme besser lösen kann als andere Methoden. Ihr maschinell lernender Ansatz erreicht oder übertrifft die Sicherheit bestehender Methoden und sorgt gleichzeitig für eine zehnfache Steigerung der Stabilität, was bedeutet, dass der Agent seinen Zielbereich erreicht und dort stabil bleibt.

In einem Experiment, das Maverick stolz machen würde, steuerte ihre Technik ein simuliertes Düsenflugzeug effektiv durch einen engen Korridor, ohne auf den Boden zu krachen.

„Dies ist ein seit langem bestehendes, herausforderndes Problem. Viele Leute haben sich das angeschaut, wussten aber nicht, wie sie mit derart hochdimensionalen und komplexen Dynamiken umgehen sollen“, sagt Chuchu Fan, Wilson-Assistenzprofessor für Luft- und Raumfahrt und Mitglied des Laboratory for Information and Decision Systems (LIDS). ) und leitender Autor eines neuen Artikels zu dieser Technik.

Lesen Sie auch Jetzt ist der Moment für Großbritannien, über seine Zukunft zu entscheiden: Inmitten der Nervosität der Tories über Rishis schockierendes Timing – und einer regennassen Rede – sagt der Premierminister, die Wähler müssten sich zwischen zwei sehr unterschiedlichen Visionen entscheiden

Zu Fan gesellt sich Hauptautor Oswin So, ein Doktorand. Das Papier wird auf der Konferenz „Robotics: Science and Systems“ vorgestellt.

Die Stabilisierung-Vermeidung-Herausforderung

Viele Ansätze lösen komplexe Stabilisierungs-Vermeidungs-Probleme, indem sie das System vereinfachen, sodass sie es mit einfacher Mathematik lösen können, aber die vereinfachten Ergebnisse halten der Dynamik in der realen Welt oft nicht stand.

Effektivere Techniken nutzen Reinforcement Learning, eine Methode des maschinellen Lernens, bei der ein Agent durch Versuch und Irrtum lernt und für Verhalten, das ihn einem Ziel näher bringt, eine Belohnung erhält. Aber hier gibt es eigentlich zwei Ziele – stabil bleiben und Hindernissen ausweichen – und die richtige Balance zu finden ist mühsam.

Die MIT-Forscher haben das Problem in zwei Schritte unterteilt. Zunächst formulieren sie das Stabilisierungs-Vermeidungs-Problem in ein eingeschränktes Optimierungsproblem um. In diesem Setup ermöglicht die Lösung der Optimierung dem Agenten, sein Ziel zu erreichen und zu stabilisieren, was bedeutet, dass er innerhalb einer bestimmten Region bleibt. Durch die Anwendung von Einschränkungen stellen sie sicher, dass der Agent Hindernissen aus dem Weg geht, erklärt So.

Im zweiten Schritt formulieren sie dann dieses eingeschränkte Optimierungsproblem in eine mathematische Darstellung um, die als Epigraph-Form bekannt ist, und lösen es mithilfe eines Deep-Reinforcement-Learning-Algorithmus. Mit der Epigraph-Form können sie die Schwierigkeiten umgehen, mit denen andere Methoden beim Einsatz von Reinforcement Learning konfrontiert sind.

„Deep Reinforcement Learning ist jedoch nicht darauf ausgelegt, die Epigraphform eines Optimierungsproblems zu lösen, daher konnten wir es nicht einfach in unser Problem integrieren. Wir mussten die mathematischen Ausdrücke ableiten, die für unser System funktionieren. Sobald wir diese neuen Ableitungen hatten, kombinierten wir sie mit einigen bestehenden technischen Tricks, die von anderen Methoden verwendet wurden“, sagt So.

Lesen Sie auch Russland sagt, es brauche keinen US-Treibstoff für Saporischschja: Nuklearpolitik

Keine Punkte für den zweiten Platz

Um ihren Ansatz zu testen, entwarfen sie eine Reihe von Kontrollexperimenten mit unterschiedlichen Anfangsbedingungen. In einigen Simulationen muss der autonome Agent beispielsweise eine Zielregion erreichen und darin bleiben, während er drastische Manöver durchführt, um Hindernissen auszuweichen, die sich auf Kollisionskurs mit ihm befinden.

Dieses Video zeigt, wie die Forscher ihre Technik einsetzten, um ein simuliertes Düsenflugzeug in einem Szenario effektiv zu fliegen, in dem es sich auf einem bodennahen Ziel stabilisieren und dabei eine sehr niedrige Höhe beibehalten und innerhalb eines engen Flugkorridors bleiben musste.

Mit freundlicher Genehmigung der Forscher

Im Vergleich zu mehreren Basislinien war ihr Ansatz der einzige, der alle Flugbahnen stabilisieren und gleichzeitig die Sicherheit gewährleisten konnte. Um ihre Methode noch weiter voranzutreiben, flogen sie damit ein simuliertes Düsenflugzeug in einem Szenario, das man in einem „Top Gun“ sehen könnte. Film. Der Jet musste sich auf einem bodennahen Ziel stabilisieren und dabei eine sehr niedrige Höhe beibehalten und innerhalb eines engen Flugkorridors bleiben.

Dieses simulierte Jet-Modell wurde 2018 als Open-Source-Version bereitgestellt und von Flugsteuerungsexperten als Testherausforderung entwickelt. Könnten Forscher ein Szenario erstellen, in dem ihr Controller nicht fliegen könnte? Aber das Modell war so kompliziert, dass es schwierig war, damit zu arbeiten, und es konnte immer noch keine komplexen Szenarien bewältigen, sagt Fan.

Der Controller der MIT-Forscher war in der Lage, einen Absturz oder Strömungsabriss des Jets zu verhindern und gleichzeitig das Ziel weitaus besser zu stabilisieren als alle anderen Basislinien.

Zukünftig könnte diese Technik ein Ausgangspunkt für die Entwicklung von Steuerungen für hochdynamische Roboter sein, die Sicherheits- und Stabilitätsanforderungen erfüllen müssen, wie etwa autonome Lieferdrohnen. Oder es könnte als Teil eines größeren Systems implementiert werden. Möglicherweise wird der Algorithmus nur dann aktiviert, wenn ein Auto auf einer verschneiten Straße ins Schleudern gerät, um dem Fahrer zu helfen, sicher wieder auf eine stabile Flugbahn zu navigieren.

Lesen Sie auch „Der WHO-Pandemievertrag wird einen globalen, polizeilichen, medizinischen und wissenschaftlichen Staat errichten“, Francis Boyle, Professor für Rechtswissenschaften

„Das Navigieren in Extremszenarien, mit denen ein Mensch nicht umgehen könnte, ist die Stärke ihres Ansatzes“, fügt So hinzu.

„Wir glauben, dass ein Ziel, das wir als Fachgebiet anstreben sollten, darin besteht, dem Verstärkungslernen die Sicherheits- und Stabilitätsgarantien zu geben, die wir benötigen, um uns Sicherheit zu geben, wenn wir diese Controller auf geschäftskritischen Systemen einsetzen.“ Wir glauben, dass dies ein vielversprechender erster Schritt zur Erreichung dieses Ziels ist“, sagt er.

In Zukunft wollen die Forscher ihre Technik verbessern, damit sie Unsicherheiten bei der Lösung der Optimierung besser berücksichtigen kann. Sie wollen auch untersuchen, wie gut der Algorithmus funktioniert, wenn er auf Hardware eingesetzt wird, da es zu Diskrepanzen zwischen der Dynamik des Modells und der in der realen Welt kommen wird.

„Das Team von Professor Fan hat die Leistung des verstärkenden Lernens für dynamische Systeme verbessert, bei denen es auf Sicherheit ankommt. Anstatt nur ein Ziel zu erreichen, entwickeln sie Controller, die dafür sorgen, dass das System sein Ziel sicher erreichen und dort auf unbestimmte Zeit bleiben kann“, sagt Stanley Bak, Assistenzprofessor am Fachbereich Informatik der Stony Brook University, der nicht an dieser Forschung beteiligt war . „Ihre verbesserte Formulierung ermöglicht die erfolgreiche Generierung sicherer Steuerungen für komplexe Szenarien, einschließlich eines nichtlinearen Düsenflugzeugmodells mit 17 Zuständen, das teilweise von Forschern des Air Force Research Lab (AFRL) entwickelt wurde und nichtlineare Differentialgleichungen mit Hub- und Widerstandstabellen enthält. ”

Die Arbeit wird zum Teil vom MIT Lincoln Laboratory im Rahmen des Programms „Safety in Aerobatic Flight Regimes“ finanziert.