UEI Corporation is a user on mstdn.uei.co.jp. You can follow them or interact with them if you have an account anywhere in the fediverse. If you don't, you can sign up here.
UEI Corporation @info

Explore, Exploit or Listen: Combining Human Feedback and Policy Model to Speed up Deep Reinforcement Learning in 3D Worlds
探検、搾取、聴取:人間のフィードバックと政策モデルを組み合わせて、3D世界で深く強化された学習をスピードアップ
arxiv.org/abs/1709.03969

要約:人間のフィードバックの信頼性と一貫性をモデル化するために深い強化学習を拡張することにより、離散的なヒューマンフィードバックを使用して仮想3次元環境における深い学習エージェントのパフォーマンスを向上させる方法を説明する。これにより、人間のフィードバックを聞いたり、現在のポリシーモデルを悪用したり、エージェントの環境を探索したりするのに最も適切な時間を決定するための深い強化学習アルゴリズムが可能になります。これらの3つの戦略の間のトレードオフを管理することで、DRLエージェントは一貫性のない、または断続的な人間のフィードバックに対して堅牢になる。実験を通して...