如何處理固定长度剧集但没有终端狀態的強化學習問题?

我可以使用与终端狀態的常規強化學習相同的方法吗?

最新回復
  • 2019-12-5
    1 #

    您必须定義狀態以匹配您為代理設置的學習目標,並且完全可能是$ \ text {state} \ neq \ text {current_observation} $,当考虑例如 網格世界的地圖视圖或傳感器讀數等作為$ \ text {current_observation} $.狀態表示可以包括關键元資料,例如代理的內部特征,事件的計數器(例如到​​目前為止每个動作的次數 - 甚至是迄今為止的完整歷史記錄)和当前時間.您應该在狀態表示中包含影响未来奖励的任何資料.這需要满足強化學習中的假設,即国家具有马爾可夫屬性。

    結束剧集终端狀態,無論其代表性如何.對於大多數RL技術而言:

      You actually stop the episode when running or simulating the environment

      The expected return is fixed at zero when calculating value functions from that point (this is important for boot-strapping methods such as TD learning)

    在您的具體情况下,因為您有固定长度的剧集:

      You should include the current time step (or time remaining) as part of the state, because that will heavily influence the return - i.e. the expected sum of all remaining rewards - from any given state.

    這最後一點意味着你確實有一个终端狀態,它包括所有狀態表示,並在最後設置時間。


    這个答案假定"固定长度的一集"是代理人學習目標的一个有意識的部分 - 您的計划是代理人必须在固定的時間內匯航環境並收集最大可能的奖励.另一種方法是你出於某種原因限製训练长度,但實際上是想训练一名经纪人在连續的非情节環境中最大化迴報 - 答案並没有解決這个問题。

  • self study:鉴於$ E(y | X)= X $和$ E(X | y)= y $,證明$ P(X = y)= 1 $
  • expected value:伽马分佈和對數正態分佈之間的KL差異?