Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
課程簡介
介紹
- 通過正強化學習
Elements 的 Reinforcement Learning
重要術語(操作、狀態、獎勵、政策、價值、Q 值等)
表格解決方案方法概述
創建 Software Agent
瞭解基於價值、基於策略和基於模型的方法
使用 Markov 決策過程 (MDP)
策略如何定義代理的行為方式
使用 Monte Carlo 方法
時間差異學習
n 步 Bootstrapping
近似求解方法
使用近似值進行策略預測
使用近似的策略控制
使用近似的非策略方法
了解資格跟蹤
使用策略梯度方法
總結和結論
最低要求
- 機器學習經驗
- Programming 經驗
觀眾
- 數據科學家
21 時間: