Welt

Lungenentzündungserkennung basierend auf RSNA-Datensatz und ankerfreiem Deep-Learning-Detektor

#Lungenentzündungserkennung #basierend #auf #RSNADatensatz #und #ankerfreiem #DeepLearningDetektor

Gesamtrahmen

Der in diesem Artikel verwendete Gesamtrahmen ist in Abb. 1 dargestellt. Zunächst werden die Eingabebilder zunächst einer Reihe von Datenerweiterungen unterzogen, die darauf abzielen, den Datensatz durch dieses Schema zu erweitern und so den Trainingseffekt zu verbessern und Überanpassung zu reduzieren. Zweitens werden die datenerweiterten Eingabebilder zum Training in das Erkennungsframework eingespeist. Das Erkennungsframework ist ein ankerfreier Detektor, der keinen voreingestellten Anker zum Scannen des zu messenden Bildes benötigt, wodurch seine Erkennungswirkung unabhängig von den Parametern und Einstellungen des Ankers usw. wird und robustere Ergebnisse erzielt werden. Nach dem Training erkennt das Framework das zu messende Bild, sodass die IoU-Ergebnisse berechnet und die endgültigen Erkennungsergebnisse erhalten werden.

Abbildung 1

Gesamtflussdiagramm des Frameworks.

Datenerweiterung

Die Mittel zur Datenerweiterung umfassen eine Reihe von Methoden. Zunächst wird das Bild horizontal und vertikal gespiegelt, um das ursprüngliche Eingabebild insgesamt um das Vierfache zu vergrößern. Zweitens wird das Bild gespiegelt und dann sowohl horizontal als auch vertikal gespiegelt, um eine insgesamt 8-fache Vergrößerung zu erhalten.

Zusätzlich zur grundlegenden Datenerweiterung werden auch Luminanzerweiterung und zufälliges Zuschneiden eingesetzt. Unter Luminanzverstärkung versteht man die zufällige Änderung der Luminanzparameter des Eingabebildes, während die Luminanz für jedes Training zufällig generiert wird, wodurch das Erkennungsframework effektiv an jede Art von Testbild angepasst und somit bessere Erkennungsergebnisse erzielt werden können. Zufälliges Zuschneiden bedeutet, dass das Eingabebild zufällig zugeschnitten wird, dh nur einige Informationen über das Eingabebild bleiben erhalten. Wie die Luminanzerhöhung führt auch das zufällige Zuschneiden dazu, dass die Trainingseingabe für jede Trainingssitzung unterschiedlich ist, wodurch das Gesamtgerüst robuster für Tests wird.

Lesen Sie auch Ein andalusisches Astrolabium wurde entdeckt, das von Muslimen, Juden und Christen genutzt wurde | Wissenschaft

Erkennungsrahmen

Eines der gravierendsten Probleme bei der Objekterkennung ist die inkonsistente Größe des Objekts. In den letzten Jahren wurde in Deep-Learning-basierten Detektoren nur ein Merkmalsextraktionsmodul angewendet, was es schwierig macht, alle Objekte zu erkennen. Insbesondere wenn das gut trainierte Modell bei großen Objekten eine gute Erkennungsleistung zeigt, werden die Erkennungsergebnisse bei kleinen Objekten stark abnehmen. Daher wird ein Feature-Pyramide-Modul eingesetzt, um Features mit unterschiedlichen Maßstäben zu extrahieren, was von zahlreichen Erkennungs-Frameworks verifiziert wurde.

Das in diesem Artikel verwendete Erkennungsframework ist in Abb. 2 dargestellt. Zuerst wird ein zu messendes Bild in ein fünfschichtiges Grundgerüst B1 bis B5 eingegeben, und dann durchläuft jede Schicht einen 1 × 1-Faltungskern, um eine Fünf zu bilden -Schicht-Feature-Pyramide, L1 bis L5, wobei die Schritte jeder Schicht 8, 16, 32, 64 bzw. 128 betragen. Wie wir alle wissen, umfassen Objekterkennungsaufgaben zwei Teilaufgaben: Klassifizierung und Lokalisierung. Daher führen wir für diese Teilaufgaben auch eine Reihe von Erkennungsköpfen mit zwei Zweigen ein. In jedem Erkennungskopf wird zuerst ein 3 × 3-Faltungskern übergeben, und dann werden zwei 1 × 1-Faltungskerne übergeben, um jeweils die beiden Zweige vorherzusagen.

Im Erkennungsframework werden eine Reihe von Verlustfunktionen angewendet. Eine davon betrifft die CENTER-Vorhersage, da hier ein ernstes Klassenungleichgewichtsproblem besteht. Mit anderen Worten: Da die Anzahl der CENTER-Punkte in einem Bild sehr unausgeglichen ist mit der Anzahl der Pixelpunkte im Hintergrund, gibt es in einem Diagramm normalerweise nur wenige oder gar keine Punkte, die zur CENTER-Kategorie gehören. Daher ist die Leistung der herkömmlichen Kreuzentropieverlustfunktion in einer solchen Situation normalerweise schlecht. Auf dieser Grundlage geht dieser Artikel von einem Fokusverlust aus¹² als Verlustfunktion des Zentrums:

Lesen Sie auch Neuigkeiten auf einen Blick: Long-Covid-definierte, geröntgte Atome und eine Bilanz der Tiefsee-Biodiversität | Wissenschaft

$${L}_{center}=-frac{1}{N}sum_{i=1}^{W/r}{sum }_{j=1}^{H/r}{ alpha }_{ij}{left(1-{p}_{ij}right)}^{gamma }{text{log}}left({p}_{ij}right)$$

(1)

Wo ({p}_{ij}) ist die Wahrscheinlichkeit der Position (i, j) im Bereich von 0 bis 1. ({mathrm{alpha }}_{ij}) ist der Gewichtsparameter.

Zusätzlich zur Mitte wurde auch ein glatter L1-Verlust angewendet, um Vorhersagen wie folgt zu skalieren:

$${L}_{scale}=frac{1}{N}{sum }_{n=1}^{N}{text{Glatt}} {L}_{1}({s} _{n},g{t}_{n})$$

(2)

Dabei ist N die Anzahl der zu messenden Objekte, s das vorhergesagte Ergebnis und gt die Basislinienbezeichnung.

Da die fünf Erkennungsköpfe die Merkmalskarte separat trainieren und vorhersagen, entsteht zwischen den einzelnen Erkennungsköpfen eine gewisse Unsicherheit. In diesem Artikel verwenden wir eine Auswahlstrategie, das heißt, der größte Schritt im Vorhersageergebnis wird als bestes Erkennungsergebnis für die Aufbewahrung verwendet. Da die Featuregröße nicht in jeder Ebene konsistent ist, legen wir auch die Größe der Begrenzungsrahmen in jeder Ebene fest. Angenommen, der maximale Abstand der Regression der Schicht i auf einem bestimmten Objekt beträgt ({m}_{i}) und der Regressionspunkt ist (l, T, R, B). Wenn ({m}_{i}, dann wird dieser aktuelle Regressionspunkt als Stichprobe des Objekts betrachtet. Daher können wir die Vorhersageunsicherheit zwischen mehreren Feature-Layern begrenzen, indem wir den maximalen Abstand jedes Layers festlegen.

Testen und IoU-Computing

Intersection over Union (IoU) ist ein gängiges Maß für die Differenz zwischen dem getesteten Begrenzungsrahmen und dem realen Rahmen bei der Objekterkennung. Mit anderen Worten: Je größer das IoU-Ergebnis, desto besser eignet sich das Framework für die Objekterkennung und umgekehrt. Die IoU wird wie folgt berechnet:

$$IoU=frac{Acap B}{Acup B}=frac{C}{A+BC}$$

(3)

Bewertungsmetriken

Die durchschnittliche Präzision (Average Precision, AP), eine der am häufigsten verwendeten experimentellen Metriken zur Objekterkennung, wird in diesem Artikel zur Bewertung der Erkennungsleistung verwendet, die wie folgt definiert ist:

Lesen Sie auch Moses was here: In Jordanien warten die Antike und Lifestyle der Wüste

$$Durchschnitt, Präzision left(APright)={int }_{r=0}^{1}p(r)dr$$

wobei p(r) die über die Verwirrungsmatrix berechnete Precision-Recall-Kurve darstellt. Mit anderen Worten, AP ist die Fläche unter der Precision-Recall-Kurve.

Unter diesen verwendet AP ohne besondere Einstellungen und Erklärungen standardmäßig die Anzahl der erkannten Frames plus eins, wenn davon ausgegangen wird, dass sich der Testframe und das Groundtruth-Label bei IoU > 0,5 überlappt haben. Darüber hinaus der gemeinsame AP_SAP_M und AP_L Metriken repräsentieren die erkannten AP-Werte für kleine, mittlere und große Objekte. Da der in diesem Artikel verwendete Datensatz kein entsprechendes kleines Objekt enthält, AP_M und AP_L werden als Metriken verwendet. Darüber hinaus AR₁₀AR_M und AR_Ldie Maßstäbe für die durchschnittliche Rückrufquote sind, werden in diesem Artikel auch als experimentelle Metriken verwendet.