ORPO: Monolithic Preference Optimization without Reference Model (Paper Explained) · Minideo

ORPO: Monolithic Preference Optimization without Reference Model (Paper Explained)

53:02

Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters (Paper)

28:23

TokenFormer: Rethinking Transformer Scaling with Tokenized Model Parameters (Paper Explained)

9:26

A Brief History of Astronomy | Dr. Brian Keating & Dr. Andrew Huberman

27:14

Transformers (how LLMs work) explained visually | DL5

45:44

What is Q-Learning (back to basics)

22:43

How might LLMs store facts | DL7

27:48

Were RNNs All We Needed? (Paper Explained)

53:07

Reinforced Self-Training (ReST) for Language Modeling (Paper Explained)