Wird bestärkendes (maschinelles) Lernen überbewertet?

Stellen Sie sich vor, Sie würden sich gleich hinsetzen, um mit einem Freund ein Spiel zu spielen. Aber das ist nicht irgendein Freund, sondern ein Computerprogramm, das die Spielregeln nicht kennt. Es versteht jedoch, dass es ein Ziel hat, und dieses Ziel ist es, zu gewinnen.

Da dieser Freund die Regeln nicht kennt, macht er zunächst zufällige Züge. Einige von ihnen machen absolut keinen Sinn, und es ist einfach, für Sie zu gewinnen. Aber nehmen wir einfach an, Sie genießen es so sehr, mit diesem Freund zu spielen, dass Sie sich entscheiden, den Rest Ihres Lebens (und zukünftiger Leben, wenn Sie an diese Idee glauben) ausschließlich diesem Spiel zu widmen.

Der digitale Freund wird schließlich gewinnen, weil er nach und nach die Gewinnzüge lernt, die erforderlich sind, um Sie zu schlagen. Dieses Szenario mag weit hergeholt erscheinen, sollte Ihnen aber eine grundlegende Vorstellung davon vermitteln, wie Reinforcement Learning (RL) – ein Bereich des maschinellen Lernens (ML) – ungefähr funktioniert.

Wie intelligent ist Reinforcement Learning?

Die menschliche Intelligenz umfasst viele Merkmale, einschließlich der Erlangung von Wissen, dem Wunsch, die intellektuellen Fähigkeiten zu erweitern, und intuitivem Denken. Unsere Fähigkeit zur Intelligenz wurde jedoch weitgehend in Frage gestellt, als Garry Kasparov, ein Meisterschachspieler, gegen einen IBM-Computer namens Deep Blue verlor. Abgesehen davon, dass sie die Aufmerksamkeit der Öffentlichkeit erregten, eroberten Weltuntergangsszenarien, die eine Welt darstellen, in der Roboter Menschen beherrschen, das Mainstream-Bewusstsein.

Deep Blue war jedoch kein durchschnittlicher Gegner. Das Spielen mit diesem Programm ist vergleichbar mit einem Match mit einem tausend Jahre alten Menschen, der sein ganzes Leben dem ununterbrochenen Schachspielen gewidmet hat. Dementsprechend war Deep Blue geschickt darin, ein bestimmtes Spiel zu spielen – nicht in anderen intellektuellen Beschäftigungen wie dem Spielen eines Instruments, dem Schreiben eines Buches, der Durchführung eines wissenschaftlichen Experiments, der Erziehung eines Kindes oder der Reparatur eines Autos.

Ich versuche in keiner Weise, die Errungenschaften der Erschaffung von Deep Blue herunterzuspielen. Stattdessen schlage ich einfach vor, dass die Idee, dass Computer uns an intellektuellen Fähigkeiten übertreffen können, einer sorgfältigen Prüfung bedarf, beginnend mit einem Zusammenbruch der RL-Mechanik.

Wie Reinforcement Learning funktioniert

Wie bereits erwähnt, ist RL eine Teilmenge von ML, die sich damit befasst, wie intelligente Agenten agieren sollen
eine Umgebung, um den Begriff der kumulativen Belohnung zu maximieren.

Einfach ausgedrückt werden RL-Roboteragenten auf einen Belohnungs- und Bestrafungsmechanismus trainiert, bei dem sie für korrekte Bewegungen belohnt und für die falschen bestraft werden. RL-Roboter „denken“ nicht über die besten Aktionen nach – sie machen einfach alle möglichen Bewegungen, um die Erfolgschancen zu maximieren.

Nachteile des Reinforcement Learning

Der Hauptnachteil von Reinforcement Learning ist die exorbitante Menge an Ressourcen, die es benötigt, um sein Ziel zu erreichen. Dies wird durch den Erfolg von RL in einem anderen Spiel namens GO veranschaulicht – einem beliebten 2-Spieler-Spiel, bei dem das Ziel darin besteht, Spielsteine ​​​​(Steine ​​genannt) zu verwenden, um das Territorium auf einem Brett zu maximieren und gleichzeitig den Verlust von Steinen zu vermeiden.

AlphaGo Master, ein Computerprogramm, das menschliche Spieler in Go besiegte, erforderte eine massive Investition, die viele Ingenieure, tausende Jahre Spielerfahrung und erstaunliche 256 GPUs und 128,000 CPU-Kerne umfasste. Das ist eine Menge Energie, die man aufwenden muss, um zu lernen, wie man ein Spiel gewinnt. Dies wirft dann die Frage auf, ob es rational ist, zu entwerfen AI das kann nicht intuitiv denken. Sollte die KI-Forschung nicht versuchen, die menschliche Intelligenz nachzuahmen? Ein Argument, das für RL spricht, ist, dass wir nicht erwarten sollten, dass sich KI-Agenten wie Menschen verhalten, und dass ihre Verwendung zur Lösung komplexer Probleme eine weitere Entwicklung rechtfertigt. Andererseits spricht gegen RL, dass sich die KI-Forschung darauf konzentrieren sollte, Maschinen in die Lage zu versetzen, Dinge zu tun, zu denen derzeit nur Menschen und Tiere in der Lage sind. In diesem Licht betrachtet, ist der Vergleich der KI mit der menschlichen Intelligenz angemessen.

Quantenverstärktes Lernen

Es gibt ein aufstrebendes Feld des bestärkenden Lernens, das angeblich einige der Probleme löst
die oben geschilderten Probleme. Quantum Reinforcement Learning (QRL) wurde als Möglichkeit zur Beschleunigung von Berechnungen untersucht.

In erster Linie sollte QRL das Lernen beschleunigen, indem die Phasen Exploration (Finden von Strategien) und Exploitation (Auswahl der besten Strategie) optimiert werden. Einige der aktuellen Anwendungen und vorgeschlagenen Quantenberechnungen verbessern die Datenbanksuche, die Faktorisierung großer Zahlen in Primzahlen und vieles mehr. Obwohl QRL noch nicht in bahnbrechender Weise angekommen ist, besteht die Erwartung, dass es einige der großen Herausforderungen für regelmäßiges bestärkendes Lernen lösen könnte.

Business Cases für RL

Wie ich bereits erwähnt habe, möchte ich in keiner Weise die Bedeutung der RL-Forschung und -Entwicklung untergraben. Tatsächlich haben wir bei Oxylabs an RL-Modellen gearbeitet, die die Zuweisung von Web-Scraping-Ressourcen optimieren werden.

Vor diesem Hintergrund ist hier nur ein Beispiel einiger realer Anwendungen für RL, die aus einem McKinsey-Bericht stammen, der aktuelle Anwendungsfälle in einer Vielzahl von Branchen hervorhebt:

  1. Optimierung von Silizium- und Chipdesign, Optimierung von Herstellungsprozessen und Verbesserung der Ausbeute für die Halbleiterindustrie
  2. Steigerung der Erträge, Optimierung der Logistik zur Reduzierung von Abfall und Kosten sowie Verbesserung der Margen in der Landwirtschaft
  3. Verkürzung der Markteinführungszeit für neue Systeme in der Luft- und Raumfahrt- und Verteidigungsindustrie
  4. Optimierung von Konstruktionsprozessen und Erhöhung der Fertigungsausbeute für die Automobilindustrie
  5. Umsatzsteigerung durch Handels- und Preisstrategien in Echtzeit, Verbesserung der Kundenerfahrung und Bereitstellung fortschrittlicher Personalisierung für Kunden im Finanzdienstleistungsbereich
  6. Optimierung des Minendesigns, Verwaltung der Stromerzeugung und Anwendung einer ganzheitlichen Logistikplanung, um den Betrieb zu optimieren, Kosten zu senken und die Erträge im Bergbau zu steigern
  7. Steigerung der Erträge durch Echtzeitüberwachung und Präzisionsbohrungen, Optimierung der Tankerrouten und Ermöglichung vorausschauender Wartung zur Vermeidung von Geräteausfällen und -ausfällen in der Öl- und Gasindustrie
  8. Erleichterung der Arzneimittelforschung, Optimierung von Forschungsprozessen, Automatisierung der Produktion und Optimierung biologischer Methoden für die pharmazeutische Industrie
  9. Optimierung von Lieferketten, Implementierung fortschrittlicher Bestandsmodellierung und Bereitstellung fortschrittlicher Personalisierungen für Kunden im Einzelhandelssektor
  10. Optimierung und Verwaltung von Netzwerken und Anwendung von Kundenpersonalisierung in der Telekommunikationsbranche
  11. Optimierung von Routing, Netzwerkplanung, Lagerbetrieb in Transport und Logistik
  12. Extrahieren von Daten von Websites unter Verwendung von Proxys der nächsten Generation

Reinforcement Learning neu denken

Reinforcement Learning mag begrenzt sein, aber es wird kaum überbewertet. Darüber hinaus nehmen mit zunehmender Forschung und Entwicklung von RL auch potenzielle Anwendungsfälle in fast allen Wirtschaftssektoren zu. Eine breite Akzeptanz hängt von mehreren Faktoren ab, einschließlich der Optimierung des Designs von Algorithmen, der Konfiguration von Lernumgebungen und der Verfügbarkeit von Rechenleistung.

Aleksandras ulženko

Product Owner bei Oxylabs.io

Neue Umfragen zur Beliebtheit von Programmiersprachen unterstreichen die Vorteile modernisierter...

Graham Morphew • 04. Mai 2023

Die Modernisierung von VxWorks bekräftigt unser Engagement, das zu liefern, was unsere Kunden am meisten wollen: die Fähigkeit, Innovationen zu beschleunigen, ohne Sicherheit, Zuverlässigkeit und Zertifizierbarkeit zu opfern. Wie auch immer Sie die digitale Transformation definieren, wo immer Sie sich auf Ihrem Weg zu modernen DevOps befinden, Geschwindigkeit ist von entscheidender Bedeutung.

Schalten Sie die Kraft von WiFi 6 frei: So nutzen Sie es ...

TBT-Newsroom • 01. März 2023

Sind Sie es leid, in der technologischen Welt zurückgelassen zu werden? Nun, keine Angst! WiFi 6 ist hier, um den Tag zu retten und Ihr Unternehmen in die Zukunft zu führen. Mit beispiellosen Geschwindigkeiten und einer Vielzahl neuer Funktionen ist WiFi 6 die unverzichtbare Technologie für jedes Unternehmen, das der Zeit voraus sein möchte.