強化学習の観点 何を学習するか 状態や行動の価値を学習: Valueベース 戦略を学習: Policyベース 学習に使う環境をモデル化できるか できる: モデルベース できない: モデルフリー 学習に用いる実績情報はなにか 報酬のみから学習: モンテカルロ法 報酬と見…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。