Bildnachweis: Zaffar et al
Bei der visuellen Ortserkennung (VPR) geht es darum, den Ort zu identifizieren, an dem bestimmte Bilder aufgenommen wurden. Informatiker haben kürzlich verschiedene Deep-Learning-Algorithmen entwickelt, die diese Aufgabe effektiv bewältigen könnten und den Benutzern mitteilen, wo in einer bekannten Umgebung ein Bild aufgenommen wurde.
Ein Forscherteam der Technischen Universität Delft (TU Delft) hat kürzlich einen neuen Ansatz zur Verbesserung der Leistung von Deep-Learning-Algorithmen für VPR-Anwendungen vorgestellt. Ihre vorgeschlagene Methode, beschrieben in einem Artikel in IEEE-Transaktionen zur Robotikbasiert auf einem neuen Modell namens Continuous Place-Descriptor Regression (CoPR).
„Unsere Studie entstand aus einer Reflexion über die grundlegenden Engpässe bei der VPR-Leistung und die damit verbundenen visuellen Lokalisierungsansätze“, sagte Mubariz Zaffar, Erstautor der Studie, gegenüber Tech Xplore.
„Zuerst sprachen wir über das Problem des ‚Wahrnehmungsaliasing‘, d Auf der Spur ganz links derselben Autobahn bestünde die genaueste VPR-Schätzung darin, diese Referenzbilder in der Nähe abzugleichen. Der visuelle Inhalt stimmt jedoch möglicherweise fälschlicherweise mit einem anderen Autobahnabschnitt überein, auf dem Referenzbilder ebenfalls auf der Spur ganz links erfasst wurden.“
Ein möglicher Weg, diese von Zaffar und seinen Kollegen identifizierte Einschränkung der VPR-Ansätze zu überwinden, könnte darin bestehen, den sogenannten Bilddeskriptor-Extraktor (d. h. eine Komponente von VPR-Modellen, die beschreibende Elemente aus Bildern extrahiert) zu trainieren, um Bilder unabhängig vom Fahrverhalten auf ähnliche Weise zu analysieren Dies würde jedoch ihre Fähigkeit beeinträchtigen, den Ort, an dem ein Bild aufgenommen wurde, effektiv zu bestimmen.
„Wir haben uns daher gefragt: Ist VPR nur möglich, wenn wir Bilder auf allen Fahrspuren für jede kartierte Autobahn sammeln oder wenn wir nur auf genau derselben Fahrspur fahren? Wir wollten das einfache, aber effektive Bildabrufparadigma von VPR erweitern, um solche praktischen Probleme zu bewältigen“, so Zaffar genannt.
„Zweitens haben wir erkannt, dass selbst die Posenschätzung eines perfekten VPR-Systems in ihrer Genauigkeit begrenzt sein würde, da die endliche Größe der Referenzbilder und ihrer Posen dazu führt, dass die Karte nicht für jede mögliche Abfrage eine Referenz mit genau derselben Pose enthalten kann.“ Wir waren daher der Meinung, dass es möglicherweise wichtiger ist, diese Knappheit anzugehen, als zu versuchen, noch bessere VPR-Deskriptoren zu entwickeln.“
Bei der Durchsicht früherer Literatur stellten Zaffar und seine Kollegen außerdem fest, dass VPR-Modelle häufig als Teil eines größeren Systems verwendet werden. Beispielsweise können SLAM-Techniken (Visual Simultaneous Localization and Mapping) von VPR-Ansätzen zur Erkennung sogenannter Schleifenschlüsse profitieren, während grobe bis feine Lokalisierungsansätze durch Verfeinerung der groben Posenschätzungen von VPR eine Lokalisierungsgenauigkeit im Submeterbereich erreichen können.
„Im Vergleich zu diesen komplexeren Systemen lässt sich der VPR-Schritt gut auf große Umgebungen skalieren und ist einfach zu implementieren, aber seine Posenschätzung ist nicht so genau, da er nur die Pose(n) der zuvor gesehenen Bilder zurückgeben kann passen optisch am besten zur Suchanfrage“, sagte Zaffar.
„Dennoch liefern SLAM und die relative Posenschätzung hochpräzise Posenschätzungen unter Verwendung derselben spärlichen Referenzbilder und Posen. Wie unterscheiden sich diese Ansätze also grundlegend von VPR? Unsere Beobachtung ist, dass solche Techniken eine kontinuierliche räumliche Darstellung aus den Referenzen erstellt haben, die sich explizit darauf bezieht.“ eine Pose zu den visuellen Merkmalen, die es ermöglicht, über den visuellen Inhalt von Posen nachzudenken, die aus den gegebenen Referenzen interpoliert und extrapoliert wurden.“
Basierend auf ihren Beobachtungen wollten die Forscher untersuchen, ob die gleichen kontinuierlichen Darstellungen, die durch SLAM- und relative Posenschätzungsansätze erzielt werden, auf VPR-Modelle ausgeweitet werden könnten, die alleine arbeiten. Herkömmliche VPR-Ansätze funktionieren, indem sie ein Abfragebild in einen einzelnen sogenannten Deskriptorvektor umwandeln und ihn dann mit vorberechneten Deskriptoren vergleichen, während grobe bis feine Lokalisierungsansätze durch Verfeinerung der groben Posenschätzungen von VPR eine Lokalisierungsgenauigkeit im Submeterbereich erreichen können . Alle diese Referenzdeskriptoren werden zusammen als „Karte“ bezeichnet.
Nach dem Vergleich dieser Deskriptoren ermittelt das Modell, welcher Referenzdeskriptor am ehesten mit dem Deskriptor des Abfragebilds übereinstimmt. Das Modell löst somit die VPR-Aufgabe, indem es den Standort und die Ausrichtung (d. h. Pose) des Referenzdeskriptors teilt, der dem Deskriptor des Abfragebilds am ähnlichsten ist.
Um die VPR-Lokalisierung zu verbessern, verdichten Zaffar und seine Kollegen einfach die gesamte „Karte“ der Deskriptoren durch den Einsatz von Deep-Learning-Modellen. Anstatt sich die Deskriptoren von Referenzbildern als eine von ihren Posen getrennte diskrete Menge vorzustellen, betrachtet ihre Methode die Referenzen im Wesentlichen als Punkte auf einer zugrunde liegenden kontinuierlichen Funktion, die Posen mit ihren Deskriptoren in Beziehung setzt.

Bildnachweis: Zaffar et al
„Wenn Sie an ein Paar Referenzen mit zwei nahe beieinander liegenden Posen denken (also Bilder mit etwas unterschiedlichen Standorten und Ausrichtungen, die aber immer noch dieselbe Szene betrachten), können Sie sich vorstellen, dass die Deskriptoren einigermaßen ähnlich sind, da sie ähnliche visuelle Inhalte darstellen.“ Julian Kooji, Co-Autor der Studie, erklärte.
„Dennoch sind sie auch etwas unterschiedlich, da sie unterschiedliche Standpunkte repräsentieren. Während es schwierig wäre, manuell zu definieren, wie sich die Deskriptoren genau ändern, kann dies aus den spärlich verfügbaren Referenzdeskriptoren mit bekannten Posen gelernt werden. Das ist dann die Essenz unseres Ansatzes.“ : Wir können modellieren, wie sich Bilddeskriptoren als Funktion einer Posenänderung ändern, und dies verwenden, um die Referenzkarte zu verdichten. In einer Offline-Phase passen wir eine Interpolations- und Extrapolationsfunktion an, die den Deskriptor auf eine unsichtbare Pose aus der nahegelegenen bekannten Pose zurückführen kann Referenzdeskriptoren.
Nach Abschluss dieser Schritte konnte das Team die von VPR-Modellen berücksichtigte Karte verdichten, indem es die regressierten Deskriptoren für neue Posen hinzufügte, die dieselbe Szene in den Referenzbildern darstellen, jedoch leicht verschoben oder gedreht. Bemerkenswerterweise erfordert der von Zaffar und seinen Kollegen entwickelte Ansatz keine Designänderungen an VPR-Modellen und ermöglicht ihnen den Online-Betrieb, da den Modellen ein größerer Satz an Referenzen angeboten wird, mit denen sie ein Abfragebild abgleichen können. Ein weiterer Vorteil dieses neuen Ansatzes für VPR besteht darin, dass er relativ wenig Rechenleistung erfordert.
„Einige andere neuere Arbeiten (z. B. neuronale Strahlungsfelder und Multi-View-Stereo) folgten einem ähnlichen Denkprozess und versuchten ebenfalls, die Karte zu verdichten, ohne mehr Referenzbilder zu sammeln“, sagte Zaffar. „In diesen Arbeiten wurde vorgeschlagen, implizit/explizit ein texturiertes 3D-Modell der Umgebung zu erstellen, um Referenzbilder in neuen Posen zu synthetisieren und dann die Karte durch Extrahieren der Bilddeskriptoren dieser synthetischen Referenzbilder zu verdichten. Dieser Ansatz weist Parallelen zu den 3D-Punktwolken auf geschätzt durch visuelles SLAM, und das eine sorgfältige Abstimmung und teure Optimierung erfordert. Außerdem könnte der resultierende VPR-Deskriptor Erscheinungsbedingungen (Wetter, Jahreszeiten usw.) einschließen, die für VPR als irrelevant angesehen werden oder übermäßig empfindlich gegenüber zufälligen Rekonstruktionsartefakten sind.
Im Vergleich zu früheren Ansätzen, die darauf abzielten, die Leistung von VPR-Modellen durch Rekonstruktion der Szene im Bildraum zu verbessern, schließt Zaffars Ansatz diesen Zwischenbildraum aus, was seine Rechenlast erhöhen und irrelevante Details einführen würde. Anstatt diese Bilder zu rekonstruieren, arbeitet der Ansatz des Teams im Wesentlichen direkt an den Referenzdeskriptoren. Dies macht die Implementierung in VPR-Modellen im großen Maßstab wesentlich einfacher.
„Darüber hinaus benötigt unser Ansatz keinen Zugriff auf die Referenzbilder selbst, sondern lediglich auf die Referenzdeskriptoren und Posen“, sagte Kooji. „Interessanterweise zeigen unsere Experimente, dass der Deskriptor-Regressionsansatz am effektivsten ist, wenn eine auf Deep Learning basierende VPR-Methode mit einem Verlust trainiert wurde, der Deskriptorübereinstimmungen anhand der Posenähnlichkeit gewichtet, da dies dabei hilft, den Deskriptorraum an der Geometrie der visuellen Informationen auszurichten.“
In ersten Auswertungen erzielte die Methode der Forscher trotz der Einfachheit der verwendeten Modelle vielversprechende Ergebnisse, sodass komplexere Modelle bald eine bessere Leistung erzielen könnten. Darüber hinaus wurde festgestellt, dass die Methode ein sehr ähnliches Ziel hat wie bestehende Methoden zur relativen Posenschätzung (dh zur Vorhersage, wie sich Szenen verändern, wenn man sie aus bestimmten Winkeln betrachtet).
„Beide Ansätze behandeln unterschiedliche Arten von VPR-Fehlern und ergänzen sich“, sagte Kooji. „Relative Pose Estimation kann die endgültigen Pose-Fehler aus einer von VPR korrekt abgerufenen Referenz weiter reduzieren, kann die Pose jedoch nicht korrigieren, wenn VPR fälschlicherweise den falschen Ort mit einem ähnlichen Erscheinungsbild wie der wahre Standort abgerufen hat („Wahrnehmungsaliasing“). Wir zeigen Anhand von Beispielen aus der Praxis kann die Kartierung der Verdichtung mit unserer Methode dabei helfen, solche katastrophalen Fehlanpassungen zu erkennen oder zu vermeiden.“
Der von diesem Forscherteam entwickelte neue Ansatz könnte in Zukunft dazu beitragen, die Leistung von Algorithmen für VPR-Anwendungen agnostisch zu verbessern, ohne deren Rechenlast zu erhöhen. Dadurch könnte es auch die Gesamtleistung von SLAM- oder Grob-zu-Fein-Lokalisierungssystemen verbessern, die auf diesen Modellen basieren.
Bisher haben Zaffar und seine Kollegen ihren Ansatz mithilfe einfacher Regressionsfunktionen zur Interpolation und Extrapolation von Deskriptoren getestet, beispielsweise durch lineare Interpolation und flache neuronale Netze, die nur einen oder mehrere nahegelegene Referenzdeskriptoren berücksichtigten. In ihren nächsten Studien möchten sie fortgeschrittenere lernbasierte Interpolationstechniken entwickeln, die viel mehr Referenzen berücksichtigen können, da dies ihren Ansatz weiter verbessern könnte.
„Bei einer Abfrage, die einen Korridor hinunterblickt, könnte beispielsweise eine Referenz weiter unten im Korridor detailliertere Informationen darüber liefern, was der Deskriptor enthalten sollte, als eine nähere Referenz, die in die andere Richtung blickt“, fügte Kooji hinzu.
„Ein weiteres Ziel unserer zukünftigen Arbeit wird darin bestehen, ein vorab trainiertes Kartenverdichtungsnetzwerk bereitzustellen, das auf verschiedene Posen in verschiedenen Datensätzen verallgemeinert werden kann und das mit wenig bis gar keiner Feinabstimmung gut funktioniert. In unseren aktuellen Experimenten passen wir das Modell im Rahmen eines Trainings von Grund auf an.“ Aufteilung jedes Datensatzes separat. Ein einheitliches vorab trainiertes Modell kann mehr Trainingsdaten verwenden, was komplexere Netzwerkarchitekturen ermöglicht und bessere Out-of-the-Box-Ergebnisse für Endbenutzer von VPR liefert.“
Mehr Informationen:
Mubariz Zaffar et al, CoPR: Auf dem Weg zu einer genauen visuellen Lokalisierung mit kontinuierlicher Ortsdeskriptor-Regression, IEEE-Transaktionen zur Robotik (2023). DOI: 10.1109/TRO.2023.3262106
© 2023 Science X Network
Zitat: Ein neuer Ansatz zur Kartenverdichtung bei der visuellen Ortserkennung (2023, 22. Mai), abgerufen am 22. Mai 2023 von https://techxplore.com/news/2023-05-approach-densification-visual-recognition.html
Dieses Dokument unterliegt dem Urheberrecht. Abgesehen von einem fairen Handel zum Zweck des privaten Studiums oder der Forschung darf kein Teil ohne schriftliche Genehmigung reproduziert werden. Der Inhalt dient ausschließlich Informationszwecken.