課程簡介

介紹 Reinforcement Learning

  • 強化學習及其應用概述
  • 監督學習、無監督學習和強化學習之間的區別
  • 關鍵概念:代理、環境、獎勵和策略

瑪律可夫決策過程 (MDP)

  • 了解狀態、操作、獎勵和狀態轉換
  • 值函數和 Bellman 方程
  • 用於求解 MDP 的動態規劃

核心 RL 演算法

  • 表格方法:Q-Learning 和 SARSA
  • 基於策略的方法:REINFORCE 演算法
  • Actor-Critic 框架及其應用

深 Reinforcement Learning

  • 深度 Q 網路 (DQN) 簡介
  • 體驗重播和目標網路
  • 策略梯度和高級深度 RL 方法

RL 框架和工具

  • OpenAI Gym 和其他 RL 環境簡介
  • 使用 PyTorch 或 TensorFlow 進行 RL 模型開發
  • RL 代理的訓練、測試和基準測試

RL 中的挑戰

  • 在訓練中平衡探索和開發
  • 處理稀疏獎勵和信用分配問題
  • ScalaRL 中的能力和計算挑戰

動手實踐 Activities

  • 從頭開始實施 Q-Learning 和 SARSA 演算法
  • 訓練基於 DQN 的代理在 OpenAI Gym 中玩簡單的遊戲
  • 微調 RL 模型以提高自定義環境中的性能

總結和後續步驟

最低要求

  • 對機器學習原理和演算法有深入的理解
  • 精通 Python 個程式設計
  • 熟悉神經網路和深度學習框架

觀眾

  • 機器學習工程師
  • AI 專家
 14 時間:

課程分類