~~NOTOC~~
====== Spezialvorlesung (Special Lecture) KI (D)======

**Optimierendes Lernen (Reinforcement Learning)**\\
//Prof. Dr. M. Riedmille, Dr. Thomas Gabel und Dr. Sascha Lange//

 
  * **Ankündigungen:**
    * Sondertermin Vorlesung Freitag, 22.10.2010: 8:00 - 9:30, Raum 00-010/14
    * Sondertermin Vorlesung Dienstag, 26.10.2010: 10:15 - 11:45, Raum 01/18
    * keine Vorlesung am Freitag, 29.10.2010
    * keine Vorlesung am Freitag, 5.11.2010
    * Erste Übung am Mittwoch, 3.11.2010, 16:00-17:30
    * Sondertermin Vorlesung Dienstag, 7.12.2010: 10:15 - 11:45, Gebäude 101 Raum 01-018, dafür keine Vorlesung am Mittwoch, 8.12.2010.
    * Übung am Mittwoch, 12.1.2011 fällt wg. Krankheit aus! Nachholtermin: Dienstag, 1.2.2011: 10:15 - 11:45, Raum 01-018.


  * **Vorlesungen:**
    * Mittwoch, 16:00 - 17:30, Geb. 101, Raum 00-010/14
    * Freitag, 9:15 - 10:45, Geb. 101, Raum 00-010/14
    * Ausweichtermin: Di, 10:15-11:45, Geb. 101, Raum 01-018

  * **Übungen (im Wechsel, nach Ankündigung):**
    * Freitag, 9:15 - 10:45, Geb. 101, Raum 00-010/14
  * **Prüfung:** 
    * ACHTUNG: Die Zulassung zur Prüfung setzt die persönliche Anwesenheit in den Übungen (>50%) voraus!
    * **Klausur (für Masterstudenten): Donnerstag, 24.02.2011, Raum 101-026, Beginn: 10:00 Uhr**
    * Mündliche Prüfung (nur Bachelor): 24. und 25.02.2011
    * Anmeldung übers Prüfungsamt
  * **Kreditpunkte:**
    * 6 ECTS
  * **Sprache:**
    * Deutsch/German oder Englisch/ English bei Bedarf

===== Überblick: =====

Die Vorlesung behandelt den Lerntypus des optimierenden Lernens (Reinforcement Learning). Beim optimierenden Lernen steht dem Lerner nur die Information über Erfolg oder Misserfolg zur Verfügung. Die Vorlesung bespricht Lösungsmethoden und Algorithmen zur Lösung dieser Aufgabenstellung auf der Grundlage Markov'scher Entscheidungsprobleme.
===== Folien =====

  * {{:documents:teaching:ws1011:rl/ue1.handout.pdf/|Vorlesung: Einführung }}  {{:documents:teaching:ws1011:rl:ue1.printer.pdf|(1-seitig)}}
  * {{:documents:teaching:ws1011:rl:ue2.handout.pdf|Vorlesung: MDPs }}  {{:documents:teaching:ws1011:rl:ue2.printer.pdf|(1-seitig)}}
  * {{:documents:teaching:ws1011:rl:ue3.handout.pdf|Vorlesung: Value Iteration }}  {{:documents:teaching:ws1011:rl:ue3.printer.pdf|(1-seitig)}}
  * {{:documents:teaching:ws1011:rl:ue4.handout.pdf|Vorlesung: Value Iteration and Policy Iteration}}  {{:documents:teaching:ws1011:rl:ue4.printer.pdf|(1-seitig)}}
  * {{:documents:teaching:ws1011:rl:ue_viproof.handout.pdf|Vorlesung: Beweis Value Iteration}}  {{:documents:teaching:ws1011:rl:ue_viproof.printer.pdf|(1-seitig)}}
  * {{:documents:teaching:ws1011:rl:ue5.handout.pdf|Vorlesung: Beispiele MDPs}}  {{:documents:teaching:ws1011:rl:ue5.printer.pdf|(1-seitig)}}
  * {{:documents:teaching:ws1011:rl:ue6.handout.pdf|Vorlesung: TD(lambda)}}  {{:documents:teaching:ws1011:rl:ue6.printer.pdf|(1-seitig)}}
  * {{:documents:teaching:ws1011:rl:ue6_umformung_tdl.handout.pdf|Herleitung TD(lambda)}}  {{:documents:teaching:ws1011:rl:ue6_umformung_tdl.printer.pdf|(1-seitig)}}
  * {{:documents:teaching:ws1011:rl:ue7.handout.pdf|Vorlesung: Optimistische Strategie Iteration}}  {{:documents:teaching:ws1011:rl:ue7.printer.pdf|(1-seitig)}}
  * {{:documents:teaching:ws1011:rl:ue8.handout.pdf|Vorlesung: Trajektorienbasiertes Lernen}}  {{:documents:teaching:ws1011:rl:ue8.printer.pdf|(1-seitig)}}
  * {{:documents:teaching:ws1011:rl:ue9.handout.pdf|Vorlesung: Q-Learning}}  {{:documents:teaching:ws1011:rl:ue9.printer.pdf|(1-seitig)}}
  * {{:documents:teaching:ws1011:rl:ue10.handout.pdf|Vorlesung: Funktionsapproximation}}  {{:documents:teaching:ws1011:rl:ue10.printer.pdf|(1-seitig)}}
  * {{:documents:teaching:ws1011:rl:ue11.handout.pdf|Vorlesung: Anwendungsbeispiel}}  {{:documents:teaching:ws1011:rl:ue11.printer.pdf|(1-seitig)}}
  * {{:documents:teaching:ws1011:rl:policy_search.pdf|Vorlesung: Policy Search Methods}}  
  * {{:documents:teaching:ws1011:rl:ue_nfq.handout.pdf|Vorlesung: (Neural) Fitted Q Iteration}}  {{:documents:teaching:ws1011:rl:ue_nfq.printer.pdf|(1-seitig)}}


/*

===== Übungen =====

Übungstermine:

  * Übung 1, 03.11.2010, 16.00 Uhr
  * Übung 2, 19.11.2010, 9.15 Uhr
  * Übung 3, 26.11.2010, 9.15 Uhr
  * Übung 4, 10.12.2010, 9.15 Uhr
  * Übung 5, 26.01.2011, 16.00 Uhr
  * Übung 6, 01.02.2011, 10.15 Uhr, Gebäude 101, Raum 01-018, **Sondertermin**
  * Übung 7, **09**.02.2011, 16.00 Uhr (corrected)

Aufgabenblätter:

  * {{:teaching:ws1011:u1a.pdf|Aufgabenblatt 1}}
  * {{:teaching:ws1011:u2a_en.pdf|Aufgabenblatt 2}}
  * {{:teaching:ws1011:u3a_en.pdf|Aufgabenblatt 3}}
  * {{:teaching:ws1011:u4a_en.pdf|Aufgabenblatt 4}}, **korrigierte Version** (deterministische Übergänge im Maze)
  * {{:teaching:ws1011:u5a_en.pdf|Aufgabenblatt 5}}
  * {{:teaching:ws1011:u6a_en.pdf|Aufgabenblatt 6}}, [[:teaching:ws1011:rlu:index|CLSquare-Paket und Kurzanleitung]] zur Bearbeitung der Aufgabe 6.2
  * {{:teaching:ws1011:u7a_en.pdf|Aufgabenblatt 7}}, [[:teaching:ws1011:rlu:index|CLSquare-Paket]] mit Mountain-Car Verzeichnis in "Demos" und Lösung zur Aufgabe 6.2

Weitere Unterlagen zu den Übungen finden sich [[:teaching:ws1011:rlu:index|hier]].

===== Prüfung =====

ACHTUNG: Zur Teilnahme an der Prüfung ist der persönliche Besuch der Übungen 
(>=50%) verpflichtend!

Prüfungsmodalitäten werden im Laufe der Vorlesung bekannt gegeben.

*/