
Reinforcement Learning mit Python
Reinforcement Learning (RL) ist das Trainingsparadigma hinter AlphaGo, ChatGPT RLHF und modernen Robotersteuerungen. Mit Gymnasium (ehemals OpenAI Gym) und Stable Baselines3 lassen sich RL-Agenten in Python entwickeln und trainieren. Sie lernen die Grundlagen von RL, wie Agenten mit Umgebungen interagieren, und welche Trainingsstrategien (DQN, PPO, SAC) für welche Aufgabenklassen geeignet sind.






Ziele
Sie erwerben das Fundament, um Reinforcement-Learning-Agenten mit Python zu entwickeln. Sie lernen, wie Markov-Decision-Prozesse, Q-Learning und Policy-Gradient-Methoden funktionieren, wie Gymnasium-Umgebungen genutzt und eigene Umgebungen erstellt werden und welche RL-Algorithmen für Unternehmensanwendungen geeignet sind.
Behandelte Themen
Die Module im Überblick
Modul 1: Reinforcement-Learning-Grundlagen
- RL-Grundkonzepte: Agent, Environment, State, Action, Reward, Policy
- Markov Decision Process (MDP): Formalismus und Bellman-Gleichung
- Exploration vs. Exploitation: Epsilon-Greedy und UCB
- Gymnasium: Umgebungen einrichten und erste Agenten ausführen
Modul 2: Tabellarisches Reinforcement Learning
- Q-Learning: Q-Tabellen aufbauen und aktualisieren
- SARSA: On-Policy vs. Off-Policy Learning
- Gymnasium: CartPole und FrozenLake mit tabellarischen Methoden lösen
- Limitierungen: warum tabellarische Methoden nicht skalieren
Modul 3: Deep Reinforcement Learning
- Deep Q-Network (DQN): neuronale Netze als Q-Funktionsapproximatoren
- Experience Replay und Target Networks: Stabilität im Training
- Stable Baselines3: DQN, A2C, PPO und SAC in der Praxis
- Atari-Umgebungen: Bildschirmzustände als Eingabe für CNN-Agenten
Modul 4: Policy-Gradient-Methoden
- Policy-Gradient-Theorem: Gradienten der Policy direkt schätzen
- Proximal Policy Optimization (PPO): der meistgenutzte RL-Algorithmus
- Actor-Critic-Architektur: Wertfunktion und Policy kombinieren
- Continuous Action Spaces mit SAC und TD3
Modul 5: Eigene Umgebungen und Praxisanwendungen
- Gymnasium-kompatible Umgebungen selbst entwickeln
- Anwendungsfälle: Lagerhaltungsoptimierung, Scheduling, Routing
- Multi-Agent-Systeme: PettingZoo und kooperative Agenten
- RLHF-Grundlagen: menschliches Feedback für LLM-Training
Modul 6: Training, Evaluation und Deployment
- Hyperparameter-Tuning: Optuna mit Stable Baselines3
- Evaluation: Reward-Kurven, Lernkurven und Video-Aufnahmen
- Modelle speichern und laden: Stable-Baselines3-API
- Deployment: trainierte Policies in Produktionssystemen nutzen
Kodschul-Trainer & Team
Lernen Sie von Experten - erfahrene Fachleute mit praktischem Know-how
Erfahrene Trainer mit praktischer Technik-Erfahrung
Über 3000 Fachkräfte in zwei Jahren geschult
Praxisnahe Expertise und tiefes Branchenwissen
Wirkungsvolles Lernen mit realen Anwendungen
Über 300+ Projekte gemeinsam abgeschlossen

Experte für IT & KI, Trainer

Experte für IT & KI, Trainer

Experte für IT & KI, Trainer, CEO

Experte für IT & KI, Trainer

Experte für IT & KI, Trainer

Experte für IT & KI, Trainer

Joelle Keim
Key Account Manager

Selina Schmid
Seminar Manager

Elisa Saleh
Back Office

Lars Gerigk
Portfolio Manager

Axel Kamga
Trainer & Vertrieb

Sebastian Carnal
HR & People
So läuft das Training ab
Unsere Schulungen sind 100% hands-on, mit einem praktischen Anteil von 70% und 30% Theorie. Sie finden vor Ort, bei uns oder online (auf allen gängigen Plattformen) statt. Zusätzlich erhalten die Teilnehmenden kostenfrei Hands-outs und Unterlagen, die sie zur Vertiefung und weiteren Anwendung nutzen können.
Grundlagen
Zu Beginn sorgen wir dafür, dass alle Teilnehmenden auf denselben Wissensstand gebracht werden, unabhängig von ihrem Ausgangsniveau. So wird jeder optimal auf die weiteren Themen vorbereitet, und niemand bleibt zurück.
Durchführung
Wir starten mit einer Einführung in das Thema, gefolgt von Demos und praxisnahen Beispielen. Anschließend üben die Teilnehmenden eigenständig, während der Trainer individuelles Feedback gibt und bei Bedarf Korrekturen vornimmt.
Anwendungsfälle
Das Gelernte wird auf konkrete Anwendungsfälle der Teilnehmenden angewendet. In einer praxisorientierten Session erarbeiten wir gemeinsam Lösungen, die den Teilnehmern helfen, das Wissen direkt in ihren Arbeitsalltag zu integrieren.
Am häufigsten gestellte Fragen
Für wen ist dieser Kurs konzipiert?
+Wie kann ich mich für den Kurs anmelden?
+Wie hoch sind die Kosten für den Kurs?
+Brauche ich Vorkenntnisse zum Thema des Kurses?
+Werde ich das Gelernte in diesem Kurs anwenden können?
+Welche Software oder Tools benötige ich für den Kurs?
+Lassen Sie uns über Ihr nächstes Training sprechen.
Unser Team steht Ihnen rund um die Uhr zur Verfügung und freut sich auf Ihre Anfrage. Einfach anrufen oder eine Nachricht hinterlassen – wir kümmern uns schnellstmöglich um Ihre Anfrage, ob es um eine Schulung, einen Vortrag oder eine Präsentation geht. Jetzt loslegen!

Joelle Keim
Key Account Manager