UMD F25 NLP #16: GRPO and reasoning models · Minideo

UMD F25 NLP #16: GRPO and reasoning models

Download

1:10:25

UMD F25 NLP #16: Test-time scaling

1:13:01

UMD F25 NLP #14: Reward models

1:10:01

UMD F25 NLP #16: PPO

1:10:35

UMD F25 NLP #6: Attention mechanisms

1:15:16

UMD F25 NLP #12: Instruction tuning and PEFT