2022-07-01から1ヶ月間の記事一覧

深層学習以前の強化学習をまとめる

強化学習の観点何を学習するか状態や行動の価値を学習: Valueベース戦略を学習: Policyベース学習に使う環境をモデル化できるかできる: モデルベースできない: モデルフリー学習に用いる実績情報はなにか報酬のみから学習: モンテカルロ法報酬と見…