最大化 Expected cumulative reward 期望累计奖励
Q(s0,a0)表示:当状态为s0,做a0的动作,期望累计奖励是Q。
如果我们有n个action,m个state,理论上我们将有nm的Q值。笛卡尔积。
这个表就是Q table。
Q就是在初始状态为s0和a0的时候,最终可以获得的累积reward的最大值是多少。
因为γ在公式中是t次方,所以随着t的增加,γ**t是不断减小的,所以它是衰减因子 discounted factor。a1和s2是初始状态
Q(), 括号里是初始的state和action。当Q1(s1,a1)=5,然后经历了s2,a1这个值。那么就是Q2 (s1,a1=5+2=7
target policy: 是为了更新Q value
behavior policy:是为了更新action。
如果target和behavior结果一直,就是on-policy algorithm。否则就是off-policy algorithm。off-policy就是有时候policy可能抑制action的发生,所以它不会去执行这个action。