文章目录 1. RLHF的发展历程 2. 强化学习 2.1 强化学习基本概念 2.2 强化学习分类 2.3 Policy Gradient 2.3.1 add a baseline 2.3.2 assign suitable credit 2.4 TRPO和PPO算法 2.4.1 on-policy 2.4.2 Important Sampling 2.4.3 Off Policy 2.4.4 TRPO 和 PPO 算法 2.4.5 P