A.一組可以動態變化的狀態 (state) 。比如圍棋棋盤上的黑白子的分佈位置,市場上的每 支股票的價格 B.一組可以選取的動作 (action) 。比如對於圍棋來說,就是可以落子的位置;對於股票交易來說,就是每個時間點,買入或者賣出的股票以及數量 C.一個可以和決策主體 (agent) 進行交互的環境。這個環境會決定每個動作後狀態如何變化。比如說圍棋博弈中的對手,或者股票市場。在強化學習中,為了降低學習的代價,很多時後我們會使用一個通過機器模擬的環境,而不是以真實場景作為環境 D.回報 (reward) 規則。當決策主體通過行動狀態發生變化時,它會獲得回報或者受到懲罰 E.以上皆是