Deep Learning: Neue neuronale Netze könnten kontinuierliche Prozesse modellieren

Beim Deep Learning verwenden neuronale Netze bestimmte verborgene Schichten, um definierte Ergebnisse zu liefern. Der KI-Forscher David Duvenaud stellt all das mit ODE-Netzen in Frage.

Deep Learning ist unglaublich: wirklich, das ist es. Die Fähigkeit, menschenähnliche Gehirnleistung auf einen Computer abzubilden, damit dieser so lernt wie wir, sollte niemals als selbstverständlich angesehen werden. Es ist einer der erstaunlichsten wissenschaftlichen Durchbrüche in der Geschichte unserer Spezies, aber Deep Learning ist nicht unübertroffen.

Das Herzstück eines Deep-Learning-Modells ist ein neuronales Netz. Dies ist das Gehirn, wenn Sie so wollen: eine Kombination aus gestapelten Schichten einfacher Knoten, die versuchen, Muster in Daten zu finden. Das Netz weist dann den von ihm verarbeiteten Daten Werte zu und filtert diese Daten durch verschiedene Schichten, um zu einem endgültigen Ergebnis zu kommen.

Nun fragen sich Wissenschaftler, wie die Werte den Daten zugeordnet werden und ob es einen effizienteren Weg gibt, Deep-Learning-Algorithmen auszuführen.

David Duvenaud, ein KI-Forscher an der University of Toronto, machte sich daran, ein medizinisches Deep-Learning-Modell zu entwickeln, das die Gesundheit eines Patienten über einen bestimmten Zeitraum vorhersagen würde. Herkömmliche neuronale Netze gedeihen, wenn sie aus Daten mit definierten Beobachtungsphasen lernen: im Grunde die verborgenen Schichten innerhalb eines Deep-Learning-Modells. Dies lässt sich nur schwer mit dem Gesundheitswesen in Einklang bringen.

Gesundheit ist ein kontinuierliches Thema, das es zu bewerten gilt. Es stützt sich nicht auf binäre Fragen, da es so viele Variablen enthält. Wie kann ein neuronales Netz also kontinuierliche Daten erfassen?

Können neuronale Netze verbessert werden?

Stellen Sie sich ein Deep-Learning-Modell ähnlich wie ein klassisches Brettspiel vor. Guess Who. Im Spiel hat jeder Spieler eine Auswahl an Charakteren vor sich, die alle unterschiedlich aussehen: Einige haben Gesichtsbehaarung, Brille, blaue Augen, braune Augen und jeder von ihnen ist einzigartig.

Ein Spieler von Guess Who stellt den anderen binären Fragen, Zeichen von ihrer Untersuchung auszuschließen, bis sie durch diesen Eliminierungsprozess mit dem endgültig gewählten Zeichen zurückbleiben: Dies ist die Ausgabeschicht.

Dies ähnelt der Funktionsweise eines neuronalen Netzwerks. Es verarbeitet seine Daten in verschiedenen Phasen und eliminiert immer mehr des Datensatzes, bis die richtigen Antworten verfügbar sind. Dies ist die Technologie, die in verwendet wird Gesichtserkennungssoftware, beispielsweise.

Software 2.0: Wie neuronale Netze funktionieren
Grundlegendes neuronales Netzwerkmodell

David Duvenaud sah eine Chance. Er versuchte, mit dem Binären zu brechen und eine fließendere Form des Deep Learning zu finden.

Traditionell besteht die Antwort darin, einfach mehr Schichten zu einem neuronalen Netz hinzuzufügen, um einen genaueren Endpunkt zu erreichen. Dies ist jedoch nicht immer sinnvoll. Warum sollte man zum Beispiel die Anzahl der Schichten innerhalb eines neuronalen Netzes definieren, die Daten trainieren und dann abwarten, wie genau sie sind? Mit dem neuronalen Netz von Duvenaud können Sie zuerst die Genauigkeit angeben und dann den effizientesten Weg finden, sich innerhalb dieser Fehlergrenze selbst zu trainieren.

Forscher bezeichnen dies als „ODE-Netz“, kurz für „gewöhnliche Differentialgleichungen“.

Wie kann eine ODE gelöst werden?

Das numerische Lösen einer ODE kann durch Integration erfolgen. Dies ist eine rechenintensive Aufgabe, und es wurden in der Vergangenheit Methoden vorgeschlagen, um die verborgenen Stufen innerhalb des Deep Learning zu reduzieren.

Duvenaud arbeitete mit einer Reihe von Forschern an einem Papier, das eine einfachere Methode vorschlug um eine ODE zu lösen. Das Verfahren beruht auf dem Lösen einer zweiten, erweiterten ODE rückwärts und nimmt nicht zu viel Speicher in Anspruch. Der Gradientenberechnungsalgorithmus funktioniert durch die Einführung eines „ODEsolve“ Betrieb als Bediener später im Prozess.


Die ODE wirft interessante Fragen darüber auf, was wirklich die effizientesten Methoden des Deep Learning sind.


Dieser Operator stützt sich auf den Anfangszustand, die Funktion, die Anfangszeit, die Endzeit und die gesuchten Parameter aus der ODE. Das vorgestellte Papier stellte Python-Code bereit, um die Ableitungen des ODE-Lösers einfach zu berechnen.

Das Papier schlug vor, dass überwachtes Lernen – insbesondere die MNIST-Klassifizierung von geschriebenen Ziffern – eine Anwendung sei, bei der die ODESolve-Methode im Vergleich zu einem Restnetzwerk mit viel weniger Parametern funktionieren kann.

Werden ODEs Deep Learning revolutionieren?

Die ODE ist nicht die einzige Möglichkeit, ein Deep-Learning-Modell auszuführen. Es kann eine Reihe von Gründen geben, warum ein Wissenschaftler die Anzahl der Stufen für die von ihm ausgeführte KI definieren möchte. Wie auch immer, „es ist noch nicht bereit für die Hauptsendezeit“, behauptet Duvenaud.

Die ODE wirft jedoch interessante Fragen für Deep Learning auf, um voranzukommen, wie wir neuronale Netze aufbauen und was die effizientesten Methoden des Deep Learning wirklich sind. Dies ist keine besonders neue Idee, aber dies ist eine Art Durchbruch. Ob dieser Ansatz für eine Reihe von Modellen funktioniert, bleibt abzuwarten.

Lukas Konrad

Technologie- und Marketing-Enthusiast

Erzielen Sie Produktivitäts- und Effizienzsteigerungen durch Datenmanagement

Russ Kennedy • 04. Juli 2023

Unternehmensdaten sind seit vielen Jahren eng mit Hardware verknüpft, doch jetzt ist ein spannender Wandel im Gange, da die Ära der Hardware-Unternehmen vorbei ist. Mit fortschrittlichen Datendiensten, die über die Cloud verfügbar sind, können Unternehmen auf Investitionen in Hardware verzichten und das Infrastrukturmanagement zugunsten des Datenmanagements aufgeben.