Categories

None.

Tags

Tag: Reinforcement Learning

2025-08

08-10

Brief Reinforcement Learning 02 - From GRPO to ?: 更优与更稳定的 LLM critic-free RL

2025-07

07-30

Brief Reinforcement Learning 01 - Proximal Policy Optimization (PPO) 简单理解近端策略优化

1