Was ist Reinforcement Learning und was kann es?

Kredit: CIO.com

Insilico Medicine hat ein Medikament in nur 21 Tagen entwickelt: Was normalerweise acht Jahre dauert, wurde durch Reinforcement Learning auf drei Wochen verkürzt. Aber wie?

„Wir haben KI-Strategie kombiniert mit KI-Fantasie“, sagte Alex Zhavoronkov, CEO von Insilico Forbes. Das in Hongkong ansässige Medizinunternehmen veröffentlichte kürzlich Forschungsergebnisse, die behaupteten, dass ihr GENTRL-System potenzielle Behandlungen für Fibrose in nur 21 Tagen identifizieren könnte. Das ist ein Effizienzniveau, von dem jede Branche träumt, geschweige denn das Gesundheitswesen.

Berichten zufolge interessierte sich Zhavoronkov für Ian Goodfellows Arbeit im Bereich des maschinellen Lernens. Dies informierte die Richtung des Unternehmens, das eine verstärkt lernende KI erforscht und entwickelt, die in der Lage ist, ein Medikament in nur drei Wochen herzustellen.

Der traditionelle Prozess zur Entwicklung von Medikamentenkandidaten dauert über acht Jahre. Es kostet auch Millionen von Dollar, verglichen mit der Methode von Insilico, deren Implementierung ungefähr 150,000 Dollar kostet. Um Medikamente zu entwickeln, müssen Moleküle gescreent werden: Die Vision von Insilico war: Wenn das eine Maschine könnte, würde das rundum viel Zeit und Mühe sparen.

Insilico Medicine ist nicht das Beispiel dessen, was Zhavoronkov als Verbindung zwischen Vorstellungskraft und Strategie beschreibt. AlphaGo Zero hat sich erfolgreich selbst beigebracht um das Go-Spiel zu verbessern, indem ein neuronales Netzwerk mit einem Suchalgorithmus kombiniert wird, um Züge vorherzusagen. In der Zeitung, 'Reinforcement Learning-basiertes Multi-Agenten-System zur Netz-Ampelsteuerung', testeten Forscher Multi-Agenten-Verstärkungslernen für ein effizienteres Ampelsystem.

Sogar Twitter setzt verstärktes Lernen ein Fake News einzudämmen.

Wie funktioniert bestärkendes Lernen?

Reinforcement Learning ist eine sehr leistungsfähige KI-Methode und im Vergleich zum überwachten Lernen ziemlich unabhängig. Im Gegensatz zum überwachten Lernen müssen Sie keine gekennzeichneten Eingabe- oder Ausgabepaare präsentieren: Stattdessen steht ein Gleichgewicht zwischen der Exploration und Verwertung von Daten im Mittelpunkt.

Denken Sie für eine Minute an Pac-Man. In dem legendären Arcade-Spiel der 80er Jahre muss die Titelfigur Punkte sammeln, Geistern ausweichen und Belohnungen auswählen, die auf dem Bildschirm aufleuchten.

Pac-Man befindet sich in einem fortwährenden Kampf um Erforschung und Ausbeutung. Er kann die kleinen Punkte in seiner Nähe ausnutzen, um Punkte zu sammeln, und sogar auf die größeren Punkte zielen, wenn sie sich in seiner Nähe befinden. Sollte er das Labyrinth jedoch etwas weiter erkunden, kann er noch mehr Punkte sammeln, wenn er die Geister frisst, wenn er energetisiert ist: Dies ist eine riskante Strategie, da er sein Raubtier eine Weile jagt und in Gefahr sein könnte, wenn der Energizer nachlässt aus.

Das Spiel Pac-Man hat Ähnlichkeiten mit den Grundlagen des verstärkten Lernens. / Anerkennung: KnowYourMeme

Dies ist ein Beispiel für den Kompromiss zwischen Exploitation und Exploration: Die Idee, dass ein Versuch, etwas zu erforschen, Sie mehr belohnt. Es ist ein Eckpfeiler der Informatikphilosophie.

Überwachtes Lernen ist auf die bereitgestellten Daten angewiesen: Beim Reinforcement Learning muss die KI die Daten im Laufe der Zeit selbst aufnehmen, ähnlich wie Pac-Man sich durch blinkende Punkte fressen muss. Die Aktionen Ihrer KI, wie Pac-Man, informieren also über die gesammelten Daten: Manchmal lohnt es sich, neue Aktionen in Betracht zu ziehen, um neue Daten zu sammeln – zu erkunden –, während eine KI manchmal die Daten ausnutzt, die sie hat.

Ausnutzen oder erforschen

Die Entscheidung, ob Exploits oder Exploits nach dem Zufallsprinzip durchgeführt werden sollen, ist nicht die effizienteste Methode, um Ergebnisse zu erzielen. Wäre es nicht besser, wenn eine KI genauer sein könnte – genauer gesagt gierig – und den höchsten Wert einer Aktion finden könnte, ohne so viel erforschen zu müssen?

Dies ist ein sogenannter Markov-Entscheidungsprozess.

Angenommen, die KI steht vor der Wahl zwischen einer Zahl (k) verschiedener Aktionen. Nach jeder Auswahl kann die KI je nach Aktion eine Belohnung erhalten. Ziel der KI ist es, die größtmögliche Belohnung zu erhalten. Dies ist die sogenannte k-Armed-Bandit-Problem, ein Verweis auf Spielautomaten und eine Fortsetzung des Arcade-Themas. Die KI zieht sozusagen immer wieder am Hebel, um ihren Jackpot zu maximieren.


Reinforcement Learning erfordert enorme Fähigkeiten, gigantisch komplexe Algorithmen und genaue Simulationen realer Umgebungen.


Wenn wir also den Wert von a berechnen können k Aktion können wir immer die Aktion mit dem höchsten Wert auswählen. Es ist fair anzunehmen, dass wir Aktionswerte nicht kennen, aber wir können sie schätzen. Eine Aktion muss zu jedem Zeitpunkt den größten geschätzten Wert haben.

Dies sind sogenannte „gierige Aktionen“: Wenn Sie eine dieser Aktionen auswählen, nutzen Sie ihr Wissen über die Werte der Aktionen aus. Wenn Sie sich dafür entscheiden, zu spielen und „nicht gierig“ zu werden, ist dies eine Erkundung. Ausbeutung maximiert die erwartete Belohnung, aber Exploration kann langfristig eine größere Belohnung bringen. Exploration ist notwendig, weil wir nie sicher sein können, wie genau Schätzungen des Aktionswerts sind. 

Erforschung und Ausbeutung drehen sich um Belohnung und Reue; das gilt für informatik, etwas neues aus der speisekarte bestellen oder einen glücklichen job für mehr geld aufgeben. Eine KI möchte die kumulative Belohnung maximieren und das gesamte Bedauern minimieren.

Wir wollen Algorithmen, die das Bedauern näher an Null bringen: Tiefe neuronale Netze können extrem komplexe Funktionen wie diese verarbeiten.

Verstärktes Lernen tritt in den Kampf ein

Überwachtes Lernen ist immer noch die dominierende Technik in der künstlichen Intelligenz. Beispiele für große Unternehmen, die bestärkendes Lernen einsetzen, sind immer noch ziemlich selten, aber sie wachsen stetig: bestärkendes Lernen war lange Zeit ein akademisches Forschungsthema, das zugunsten einfacherer Frameworks gemieden wurde.

Wenn Reinforcement Learning komplex klingt, dann deshalb, weil es so ist: sehr. Es erfordert enorme Fähigkeiten, gigantisch komplexe Algorithmen und genaue Simulationen realer Umgebungen.

Der Kern des Reinforcement Learning ist jedoch leicht zugänglich: ein Dilemma, das dem ähnelt, dem wir als Individuen in unserem täglichen Leben gegenüberstehen. Stecken oder drehen wir? Diese Frage stellen wir uns regelmäßig, doch bisher waren nur wenige bereit, in eine lange Zeit als riskant geltende Technik zu investieren.

Insilico Medicine ist nur ein aktuelles Beispiel dafür, wie verstärktes Lernen zu unglaublichen neuen Entdeckungen führen kann. Genau wie bei der Technik selbst wird die Reise prägend sein. Reinforcement Learning mag ein komplexes Thema sein, das gerade erst ins Rampenlicht gerückt wird, aber mit Risiken kommt immer viel Lohn.

Lukas Konrad

Technologie- und Marketing-Enthusiast

Ab Initio arbeitet mit der BT Group zusammen, um Big Data bereitzustellen

Lukas Konrad • 24. Oktober 2022

KI wird zu einem immer wichtigeren Element der digitalen Transformation vieler Unternehmen. Neben der Einführung neuer Möglichkeiten stellt dies auch eine Reihe von Herausforderungen für IT-Teams und die sie unterstützenden Datenteams dar. Ab Initio hat eine Partnerschaft mit der BT Group angekündigt, um seine Big-Data-Management-Lösungen auf BTs internem...

WAICF – Tauchen Sie ein in die KI und besuchen Sie eines der ...

Delia Salinas • 10. März 2022

Cannes veranstaltet jedes Jahr eine internationale Technologieveranstaltung namens World Artificial Intelligence Cannes Festival, besser bekannt unter dem Akronym WAICF. Eine der luxuriösesten Städte der Welt, an der französischen Riviera gelegen und Gastgeber der jährlichen Filmfestspiele von Cannes, der Midem und des Cannes Lions International Festival of Creativity. 

Resilienz von einer Naturkatastrophe erholen

Amber Donovan-Stevens • 16. Dezember 2021

In den letzten zehn Jahren haben wir einige der extremsten Wetterereignisse seit Beginn der Aufzeichnungen erlebt, die alle durch unseren menschlichen Einfluss auf die Anlage verursacht wurden. Unternehmen versuchen schnell, neue umweltfreundliche Richtlinien umzusetzen, um ihren Beitrag zu leisten, aber der Klimawandel hat Unternehmen auch gezwungen, ihren Ansatz zur Wiederherstellung nach Katastrophen anzupassen und neu zu definieren. Curtis Preston...