Reinforcement Learning mit Python: Agenten, Umgebungen & Trainingsstrategien im Unternehmen

Reinforcement Learning mit Python

Vor Ort / Online (Weltweit)
Deutsch/Englisch/Französisch

Reinforcement Learning (RL) ist das Trainingsparadigma hinter AlphaGo, ChatGPT RLHF und modernen Robotersteuerungen. Mit Gymnasium (ehemals OpenAI Gym) und Stable Baselines3 lassen sich RL-Agenten in Python entwickeln und trainieren. Sie lernen die Grundlagen von RL, wie Agenten mit Umgebungen interagieren, und welche Trainingsstrategien (DQN, PPO, SAC) für welche Aufgabenklassen geeignet sind.

3 Tage (empfohlen)
Bundeswehr
Mercedes Benz
DB Bahn
T-Systems
Polizei
Reinforcement Learning mit Python: Agenten, Umgebungen & Trainingsstrategien im Unternehmen training

Ziele

Sie erwerben das Fundament, um Reinforcement-Learning-Agenten mit Python zu entwickeln. Sie lernen, wie Markov-Decision-Prozesse, Q-Learning und Policy-Gradient-Methoden funktionieren, wie Gymnasium-Umgebungen genutzt und eigene Umgebungen erstellt werden und welche RL-Algorithmen für Unternehmensanwendungen geeignet sind.

Behandelte Themen

Die Module im Überblick

Modul 1: Reinforcement-Learning-Grundlagen

  • RL-Grundkonzepte: Agent, Environment, State, Action, Reward, Policy
  • Markov Decision Process (MDP): Formalismus und Bellman-Gleichung
  • Exploration vs. Exploitation: Epsilon-Greedy und UCB
  • Gymnasium: Umgebungen einrichten und erste Agenten ausführen

Modul 2: Tabellarisches Reinforcement Learning

  • Q-Learning: Q-Tabellen aufbauen und aktualisieren
  • SARSA: On-Policy vs. Off-Policy Learning
  • Gymnasium: CartPole und FrozenLake mit tabellarischen Methoden lösen
  • Limitierungen: warum tabellarische Methoden nicht skalieren

Modul 3: Deep Reinforcement Learning

  • Deep Q-Network (DQN): neuronale Netze als Q-Funktionsapproximatoren
  • Experience Replay und Target Networks: Stabilität im Training
  • Stable Baselines3: DQN, A2C, PPO und SAC in der Praxis
  • Atari-Umgebungen: Bildschirmzustände als Eingabe für CNN-Agenten

Modul 4: Policy-Gradient-Methoden

  • Policy-Gradient-Theorem: Gradienten der Policy direkt schätzen
  • Proximal Policy Optimization (PPO): der meistgenutzte RL-Algorithmus
  • Actor-Critic-Architektur: Wertfunktion und Policy kombinieren
  • Continuous Action Spaces mit SAC und TD3

Modul 5: Eigene Umgebungen und Praxisanwendungen

  • Gymnasium-kompatible Umgebungen selbst entwickeln
  • Anwendungsfälle: Lagerhaltungsoptimierung, Scheduling, Routing
  • Multi-Agent-Systeme: PettingZoo und kooperative Agenten
  • RLHF-Grundlagen: menschliches Feedback für LLM-Training

Modul 6: Training, Evaluation und Deployment

  • Hyperparameter-Tuning: Optuna mit Stable Baselines3
  • Evaluation: Reward-Kurven, Lernkurven und Video-Aufnahmen
  • Modelle speichern und laden: Stable-Baselines3-API
  • Deployment: trainierte Policies in Produktionssystemen nutzen
LERNEN SIE VON EXPERTEN

Kodschul-Trainer & Team

Lernen Sie von Experten - erfahrene Fachleute mit praktischem Know-how

Erfahrene Trainer mit praktischer Technik-Erfahrung

Über 3000 Fachkräfte in zwei Jahren geschult

Praxisnahe Expertise und tiefes Branchenwissen

Wirkungsvolles Lernen mit realen Anwendungen

Über 300+ Projekte gemeinsam abgeschlossen

Jannik Zinkl

Experte für IT & KI, Trainer

Adam T.

Experte für IT & KI, Trainer

Franz Nkemaka

Experte für IT & KI, Trainer, CEO

Raffael H.

Experte für IT & KI, Trainer

Erik H.

Experte für IT & KI, Trainer

Patrik Garten

Experte für IT & KI, Trainer

Joelle Keim

Joelle Keim

Key Account Manager

Selina Schmid

Selina Schmid

Seminar Manager

Elisa Saleh

Elisa Saleh

Back Office

Lars Gerigk

Lars Gerigk

Portfolio Manager

Axel Kamga

Axel Kamga

Trainer & Vertrieb

Sebastian Carnal

Sebastian Carnal

HR & People

So läuft das Training ab

Unsere Schulungen sind 100% hands-on, mit einem praktischen Anteil von 70% und 30% Theorie. Sie finden vor Ort, bei uns oder online (auf allen gängigen Plattformen) statt. Zusätzlich erhalten die Teilnehmenden kostenfrei Hands-outs und Unterlagen, die sie zur Vertiefung und weiteren Anwendung nutzen können.

Grundlagen

Grundlagen

Zu Beginn sorgen wir dafür, dass alle Teilnehmenden auf denselben Wissensstand gebracht werden, unabhängig von ihrem Ausgangsniveau. So wird jeder optimal auf die weiteren Themen vorbereitet, und niemand bleibt zurück.

Durchführung

Durchführung

Wir starten mit einer Einführung in das Thema, gefolgt von Demos und praxisnahen Beispielen. Anschließend üben die Teilnehmenden eigenständig, während der Trainer individuelles Feedback gibt und bei Bedarf Korrekturen vornimmt.

Anwendungsfälle

Anwendungsfälle

Das Gelernte wird auf konkrete Anwendungsfälle der Teilnehmenden angewendet. In einer praxisorientierten Session erarbeiten wir gemeinsam Lösungen, die den Teilnehmern helfen, das Wissen direkt in ihren Arbeitsalltag zu integrieren.

UNSERE HÄUFIGE FRAGEN

Am häufigsten gestellte Fragen

Für wen ist dieser Kurs konzipiert?

+
Unsere Kurse sind für alle Arten von Personen konzipiert. Kontaktieren Sie uns einfach, und wir bieten Ihnen eine individuelle Lösung an.

Wie kann ich mich für den Kurs anmelden?

+
Zur Anmeldung rufen Sie uns einfach an oder senden Sie uns eine E-Mail. Wir führen Sie durch den Registrierungsprozess und beantworten alle Fragen, die Sie möglicherweise haben.

Wie hoch sind die Kosten für den Kurs?

+
Die Kursgebühren sind auf unserer Website aufgeführt, aber wir glauben, dass Preise niemanden vom Lernen abhalten sollten. Unser Ziel ist es, so viele Entwickler wie möglich zu unterrichten. Bitte rufen Sie uns an, um über die Preisoptionen zu sprechen.

Brauche ich Vorkenntnisse zum Thema des Kurses?

+
Es sind keine Vorkenntnisse zum spezifischen Thema erforderlich. Der Kurs ist so gestaltet, dass er sowohl Anfängern als auch Personen mit etwas Erfahrung gerecht wird. Er deckt die Grundlagen ab und bietet praktische Einblicke.

Werde ich das Gelernte in diesem Kurs anwenden können?

+
Ja, am Ende des Kurses werden Sie über die Fähigkeiten und das Wissen verfügen, um das Gelernte effektiv anzuwenden. Der Kurs enthält praktische Übungen und Beispiele, um sicherzustellen, dass Sie Ihr Wissen umsetzen können.

Welche Software oder Tools benötige ich für den Kurs?

+
Der Kurs könnte spezifische Software oder Tools erfordern. Detaillierte Anforderungen werden zu Beginn des Kurses bereitgestellt, zusammen mit Anleitungen zur Installation und Einrichtung.
Nehmen Sie Kontakt auf

Lassen Sie uns über Ihr nächstes Training sprechen.

Unser Team steht Ihnen rund um die Uhr zur Verfügung und freut sich auf Ihre Anfrage. Einfach anrufen oder eine Nachricht hinterlassen – wir kümmern uns schnellstmöglich um Ihre Anfrage, ob es um eine Schulung, einen Vortrag oder eine Präsentation geht. Jetzt loslegen!

Joelle Keim

Joelle Keim

Key Account Manager

Reinforcement Learning Python Schulung | Kodschul