Eine Methode zum Entwurf neuronaler Netze, die für bestimmte Aufgaben optimal geeignet sind

Bildnachweis: Pixabay/CC0 Public Domain

Neuronale Netze, eine Art maschinelles Lernmodell, werden verwendet, um Menschen bei der Bewältigung einer Vielzahl von Aufgaben zu unterstützen, von der Vorhersage, ob die Kreditwürdigkeit einer Person hoch genug ist, um sich für einen Kredit zu qualifizieren, bis hin zur Diagnose, ob ein Patient an einer bestimmten Krankheit leidet. Doch wie diese Modelle funktionieren, wissen die Forscher noch immer nur bedingt. Ob ein bestimmtes Modell für eine bestimmte Aufgabe optimal ist, bleibt eine offene Frage.

MIT-Forscher haben einige Antworten gefunden. Sie führten eine Analyse neuronaler Netzwerke durch und bewiesen, dass sie so gestaltet werden können, dass sie „optimal“ sind, was bedeutet, dass sie die Wahrscheinlichkeit minimieren, dass Kreditnehmer oder Patienten falsch in die falsche Kategorie eingeordnet werden, wenn die Netzwerke viele gekennzeichnete Trainingsdaten erhalten. Um Optimalität zu erreichen, müssen diese Netzwerke mit einer bestimmten Architektur aufgebaut werden.

Die Forscher fanden heraus, dass in bestimmten Situationen die Bausteine, die ein optimales neuronales Netz ermöglichen, nicht die sind, die Entwickler in der Praxis verwenden. Diese optimalen Bausteine, die durch die neue Analyse abgeleitet wurden, sind unkonventionell und wurden bisher nicht in Betracht gezogen, sagen die Forscher.

In einem Papier, das diese Woche in der veröffentlicht wurde Proceedings of the National Academy of Sciencesbeschreiben sie diese optimalen Bausteine, Aktivierungsfunktionen genannt, und zeigen, wie sie verwendet werden können, um neuronale Netze zu entwerfen, die bei jedem Datensatz eine bessere Leistung erzielen. Die Ergebnisse gelten auch dann, wenn die neuronalen Netze sehr groß werden. Diese Arbeit könnte Entwicklern bei der Auswahl der richtigen Aktivierungsfunktion helfen und ihnen ermöglichen, neuronale Netze zu bauen, die Daten in einer Vielzahl von Anwendungsbereichen genauer klassifizieren, erklärt Seniorautorin Caroline Uhler, Professorin am Departement für Elektrotechnik und Informatik (EECS). .

„Obwohl dies neue Aktivierungsfunktionen sind, die noch nie zuvor verwendet wurden, handelt es sich um einfache Funktionen, die jemand tatsächlich für ein bestimmtes Problem implementieren könnte. Diese Arbeit zeigt wirklich, wie wichtig es ist, theoretische Beweise zu haben. Wenn Sie nach einem prinzipiellen Verständnis dieser Modelle suchen, das kann Sie tatsächlich zu neuen Aktivierungsfunktionen führen, an die Sie sonst nie gedacht hätten”, sagt Uhler, der auch Co-Direktor des Eric and Wendy Schmidt Center am Broad Institute von MIT und Harvard und Forscher am MIT-Labor ist für Informations- und Entscheidungssysteme (LIDS) und sein Institut für Daten, Systeme und Gesellschaft (IDSS).

Neben Uhler sind der Hauptautor Adityanarayanan Radhakrishnan, ein EECS-Doktorand und Eric and Wendy Schmidt Center Fellow, und Mikhail Belkin, Professor am Halicioğlu Data Science Institute an der University of California in San Diego, an der Arbeit beteiligt.

Aktivierungsuntersuchung

Ein neuronales Netzwerk ist eine Art maschinelles Lernmodell, das lose auf dem menschlichen Gehirn basiert. Viele Schichten miteinander verbundener Knoten oder Neuronen verarbeiten Daten. Forscher trainieren ein Netzwerk, um eine Aufgabe zu erledigen, indem sie ihm Millionen von Beispielen aus einem Datensatz zeigen.

Beispielsweise erhält ein Netzwerk, das darauf trainiert wurde, Bilder in Kategorien zu klassifizieren, z. B. Hunde und Katzen, ein Bild, das als Zahlen codiert wurde. Das Netzwerk führt Schicht für Schicht eine Reihe komplexer Multiplikationsoperationen durch, bis das Ergebnis nur noch eine Zahl ist. Wenn diese Zahl positiv ist, klassifiziert das Netzwerk das Bild als Hund, und wenn sie negativ ist, als Katze.

Aktivierungsfunktionen helfen dem Netzwerk, komplexe Muster in den Eingabedaten zu lernen. Sie tun dies, indem sie eine Transformation auf die Ausgabe einer Schicht anwenden, bevor Daten an die nächste Schicht gesendet werden. Wenn Forscher ein neuronales Netzwerk aufbauen, wählen sie eine zu verwendende Aktivierungsfunktion aus. Sie wählen auch die Breite des Netzwerks (wie viele Neuronen befinden sich in jeder Schicht) und die Tiefe (wie viele Schichten befinden sich im Netzwerk).

„Es stellt sich heraus, dass Sie, wenn Sie die Standard-Aktivierungsfunktionen nehmen, die die Leute in der Praxis verwenden, und die Tiefe des Netzwerks weiter erhöhen, eine wirklich schreckliche Leistung erzielen. Wir zeigen, dass Sie mehr bekommen, wenn Sie mit verschiedenen Aktivierungsfunktionen entwerfen Daten wird Ihr Netzwerk immer besser”, sagt Radhakrishnan.

Er und seine Mitarbeiter untersuchten eine Situation, in der ein neuronales Netzwerk unendlich tief und breit ist – was bedeutet, dass das Netzwerk aufgebaut wird, indem kontinuierlich mehr Schichten und mehr Knoten hinzugefügt werden – und für die Durchführung von Klassifizierungsaufgaben trainiert werden. Bei der Klassifizierung lernt das Netzwerk, Dateneingaben in separate Kategorien einzuordnen.

„Ein sauberes Bild“

Nach einer detaillierten Analyse stellten die Forscher fest, dass es nur drei Möglichkeiten gibt, wie diese Art von Netzwerk lernen kann, Eingaben zu klassifizieren. Ein Verfahren klassifiziert eine Eingabe basierend auf der Mehrheit der Eingaben in den Trainingsdaten; Wenn es mehr Hunde als Katzen gibt, entscheidet es, dass jede neue Eingabe ein Hund ist. Ein anderes Verfahren klassifiziert durch Auswählen des Labels (Hund oder Katze) des Trainingsdatenpunkts, der der neuen Eingabe am ähnlichsten ist.

Die dritte Methode klassifiziert eine neue Eingabe basierend auf einem gewichteten Durchschnitt aller Trainingsdatenpunkte, die ihr ähnlich sind. Ihre Analyse zeigt, dass dies die einzige der drei Methoden ist, die zu einer optimalen Leistung führt. Sie identifizierten eine Reihe von Aktivierungsfunktionen, die immer diese optimale Klassifizierungsmethode verwenden.

„Das war eines der überraschendsten Dinge – egal, was Sie für eine Aktivierungsfunktion wählen, es wird nur einer dieser drei Klassifikatoren sein. Wir haben Formeln, die Ihnen explizit sagen, welcher dieser drei es sein wird. Es ist ein sehr sauberes Bild“, sagt er.

Sie testeten diese Theorie an mehreren Klassifikations-Benchmarking-Aufgaben und stellten fest, dass sie in vielen Fällen zu einer verbesserten Leistung führte. Ersteller neuronaler Netze könnten ihre Formeln verwenden, um eine Aktivierungsfunktion auszuwählen, die eine verbesserte Klassifizierungsleistung ergibt, sagt Radhakrishnan.

Künftig wollen die Forscher das Gelernte nutzen, um Situationen zu analysieren, in denen sie über begrenzte Datenmengen verfügen und für Netze, die nicht unendlich breit oder tief sind. Sie wollen diese Analyse auch auf Situationen anwenden, in denen Daten keine Labels haben.

„Beim Deep Learning wollen wir theoretisch fundierte Modelle erstellen, damit wir sie zuverlässig in einigen unternehmenskritischen Umgebungen einsetzen können. Dies ist ein vielversprechender Ansatz, um so etwas zu erreichen – Architekturen auf theoretisch fundierte Weise zu erstellen, die zu besseren Ergebnissen führen üben“, sagt er.

Mehr Informationen:
Adityanarayanan Radhakrishnan et al., Breite und tiefe neuronale Netze erreichen Konsistenz für die Klassifizierung, Proceedings of the National Academy of Sciences (2023). DOI: 10.1073/pnas.2208779120

Diese Geschichte wird mit freundlicher Genehmigung von MIT News (web.mit.edu/newsoffice/) neu veröffentlicht, einer beliebten Website, die Neuigkeiten über MIT-Forschung, -Innovation und -Lehre abdeckt.

Zitat: A method for designing neuronal networksoptimallyly-tasks (2023, 30. März), abgerufen am 3. April 2023 von https://techxplore.com/news/2023-03-method-neural-networks-optimally-tasks.html

Dieses Dokument ist urheberrechtlich geschützt. Abgesehen von einem fairen Handel zum Zwecke des privaten Studiums oder der Forschung darf kein Teil ohne schriftliche Genehmigung reproduziert werden. Der Inhalt dient nur zu Informationszwecken.

Lesen Sie auch  Giants‘ Adoree‘ Jackson macht sich keine Sorgen, da die Handelsfrist näher rückt

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.