XYX

xuyd16

·

AI & ML interests

None yet

Recent Activity

upvoted a paper 6 days ago

TRIAGE: Role-Typed Credit Assignment for Agentic Reinforcement Learning

authored a paper about 2 months ago

Beyond GRPO and On-Policy Distillation: An Empirical Sparse-to-Dense Reward Principle for Language-Model Post-Training

upvoted a paper about 2 months ago

Beyond GRPO and On-Policy Distillation: An Empirical Sparse-to-Dense Reward Principle for Language-Model Post-Training

View all activity

Organizations

None yet

Papers 5

arxiv:2605.12483

arxiv:2603.11178

arxiv:2603.05433

arxiv:2602.21420

models 0

None public yet

datasets 0

None public yet