12:46
Speculative Decoding: When Two LLMs are Faster than One
12:43
LLMs de habla: modelos que escuchan y responden
19:46
Cuantización vs. poda vs. destilación: Optimización de redes neuronales para la inferencia
14:50
Structured LLM Output with Pydantic and LangChain
12:02