一個強化學習模型,下列敘述何者為真?()
A. 一組可以動態變化的狀態 (state) 。比如圍棋棋盤上的黑白子的分佈位置,市場上的每 支股票的價格
B. 一組可以選取的動作 (action) 。比如對於圍棋來說,就是可以落子的位置;對於股票交易來說,就是每個時間點,買入或者賣出的股票以及數量
C. 一個可以和決策主體 (agent) 進行交互的環境。這個環境會決定每個動作後狀態如何變化。比如說圍棋博弈中的對手,或者股票市場。在強化學習中,為了降低學習的代價,很多時後我們會使用一個通過機器模擬的環境,而不是以真實場景作為環境
D. 回報 (reward) 規則。當決策主體通過行動狀態發生變化時,它會獲得回報或者受到懲罰
E. 以上皆是
查看答案
该试题由用户804****85提供
查看答案人数:31262
如遇到问题请
联系客服
正确答案
该试题由用户804****85提供
查看答案人数:31263
如遇到问题请联系客服