Reinforcement Controllers in Technical Applications

Reinforcement Lernen hat sich in vielen Anwendungen als geeignete Methodik erwiesen, um Agenten selbständig optimale oder näherungsweise optimale Strategien erlernen zu lassen. Allerdings sind dazu im allgemeinen sehr lange Trainingsläufe notwendig, weshalb für die meisten Anwendungen anhand von Simulationsmodellen trainiert werden muss.

Ziel dieses Antrags ist es deshalb, Methoden bereitzustellen, die eine drastische Reduzierung der zum Training benötigten Erfahrungssequenzen erlauben. Im Unterschied zu anderen Arbeiten kommt es uns dabei nicht so sehr auf die Reduzierung der Gesamttrainingszeit, sondern vorrangig um die Reduzierung der Interaktionen mit dem zu steuernden System an. Wenn man hier erfolgreiche Konzepte finden kann, ist es möglich, Lernen direkt an realen Prozessen ('in Echtzeit') durchzuführen. Typische Anwendungsfelder dafür sind in der Robotik und Regelungstechnik zu finden, aber auch bei Anwendungen in anderen Bereichen ist eine fortdauernde Optimierierung im laufenden Betrieb erstrebenswert (z. B. in der Produktionssteuerung). Im Rahmen des Projekts soll an verschiedenen Angriffspunkten des Basis-Lernverfahrens angesetzt werden. Die vorgeschlagenen Varianten basieren teilweise auf unseren eigenen neueren Arbeiten und teilweise auf aktuellen Vorschlägen aus der Literatur. In diesem Projekt sollen die im folgenden aufgeführten Ansatzpunkte hinsichtlich ihrer individuellen Leistungsfähigkeit bezüglich der angestrebten Reduzierung der Trainingssequenzen untersucht werden. Darauf aufbauend werden wir eigene Verfahren vorschlagen, die sich aus der Weiterentwicklung und Kombination der folgenden Ansatzpunkte ergeben:

Ziel ist die drastische Reduzierung der benötigten Trainingssequenzen (bzw. benötigten Interaktionen mit dem zu steuernden System) in Hinblick auf den direkten Einsatz in realen Systemen. Die zu erforschenden Verfahren sollen konkret anhand eines realen Systems validiert werden, das wir zu diesem Zweck aufgebaut haben. Aufgrund der vielfachen Verwendung als Benchmark haben wir uns hier für ein reales Wagen-Stab-System (Mehrgrössenregelung mit Randbedingungen) entschieden. Dabei werden wir sowohl das Erlernen einer Positionierungs- als auch einer (hochgradig nichtlinearen) Aufschwingstrategie betrachten.

Schedule

Start: 01/2003 End: 07/2004

Industrial Partners

People

Researchers working on this project:

Publications

Contact

For more information on this research project, please contact Martin Riedmiller.