Ivan Medvedev's picture

2 1

Ivan Medvedev

med1v

·

AI & ML interests

None yet

Recent Activity

upvoted a paper 11 days ago

VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training

upvoted a paper 11 days ago

Does Your Reasoning Model Implicitly Know When to Stop Thinking?

liked a Space 11 days ago

lm-provers/qed-nano-blogpost

View all activity

Organizations

None yet

upvoted 2 papers 11 days ago

VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training

Paper • 2602.10693 • Published 23 days ago • 216

Does Your Reasoning Model Implicitly Know When to Stop Thinking?

Paper • 2602.08354 • Published 26 days ago • 258

liked a Space 11 days ago

QED-Nano: Teaching a Tiny Model to Prove Hard Theorems

Who needs 1T parameters? Olympiad proofs with a 4B model