RLHFlow

university

AI & ML interests

Workflow of Reinforcement Learning from Human Feedback (RLHF). Blog: https://rlhflow.github.io/

Papers

Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training

View all Papers

RLHFlow 's models 37

RLHFlow/Qwen2.5-Math-1.5B-DAPO-easy

2B • Updated Oct 26, 2025 • 4

RLHFlow/Qwen2.5-Math-1.5B-GRPO-n8-easy

2B • Updated Oct 26, 2025 • 3

RLHFlow/Qwen2.5-Math-1-5B-Reinforce-Ada-balance-hard

Updated Oct 15, 2025 • 2

RLHFlow/Qwen2.5-Math-1-5B-Reinforce-Ada-balance-easy

2B • Updated Oct 11, 2025 • 2

RLHFlow/Qwen2.5-Math-7B-Reinforce-Ada-balance-easy

8B • Updated Oct 10, 2025 • 4

RLHFlow/Qwen2.5-Math-7B-Reinforce-Ada-balance-hard

8B • Updated Oct 10, 2025 • 122

RLHFlow/Qwen3-4B-Instruct-2507-Reinforce-Ada-balance-hard

4B • Updated Oct 10, 2025 • 3 • 1

RLHFlow/Llama-3.2-3B-Instruct-Reinforce-Ada-balance-hard

4B • Updated Oct 10, 2025 • 3

RLHFlow/Qwen2.5-Math-7B-Zero-RAFTpp

Text Generation • 8B • Updated May 21, 2025 • 5 • 1

RLHFlow/Qwen2.5-Math-7B-Zero-Reinforce-Rej

Text Generation • 8B • Updated May 21, 2025 • 3 • 1

RLHFlow/Llama3.1-8B-PRM-Deepseek-Data

Text Generation • 8B • Updated May 10, 2025 • 3.74k • • 39

RLHFlow/Qwen2.5-7B-SFT

8B • Updated Feb 17, 2025 • 2

RLHFlow/Qwen2.5-7B-RAFT-Zero

8B • Updated Feb 17, 2025 • 4

RLHFlow/Qwen2.5-7B-DPO-NLL-Zero

8B • Updated Feb 17, 2025 • 1

RLHFlow/Qwen2.5-7B-DPO-Zero

8B • Updated Feb 17, 2025 • 1

RLHFlow/Qwen2.5-7B-DPO

8B • Updated Feb 17, 2025 • 4

RLHFlow/Qwen2.5-7B-PPO-Zero

8B • Updated Feb 17, 2025 • 6 • 3

RLHFlow/Decision-Tree-Reward-Gemma-2-27B

Text Classification • 27B • Updated Jan 24, 2025 • 9 • 8

RLHFlow/Decision-Tree-Reward-Llama-3.1-8B

Text Classification • 8B • Updated Jan 24, 2025 • 9 • 7

RLHFlow/Llama3.1-8B-PRM-Mistral-Data

Text Generation • 8B • Updated Nov 9, 2024 • 158 • • 10

RLHFlow/Llama3.1-8B-ORM-Deepseek-Data

Text Generation • 8B • Updated Nov 9, 2024 • 3 • • 2

RLHFlow/Llama3.1-8B-ORM-Mistral-Data

Text Generation • 8B • Updated Nov 9, 2024 • 16 •

RLHFlow/Llama3-v2-iterative-DPO-iter3

Text Generation • 8B • Updated Nov 4, 2024 • 5 • • 1

RLHFlow/Llama3-v2-iterative-DPO-iter2

Text Generation • 8B • Updated Nov 4, 2024 • 3

RLHFlow/Llama3-v2-iterative-DPO-iter1

Text Generation • 8B • Updated Nov 4, 2024 • 2

RLHFlow/LLaMA3-SFT-v2

Text Generation • 8B • Updated Nov 3, 2024 • 722 • • 3

RLHFlow/Llama3-SFT-v2.0-epoch1

Text Generation • 8B • Updated Nov 3, 2024 • 2

RLHFlow/Llama3-SFT-v2.0-epoch2

Text Generation • 8B • Updated Nov 3, 2024 • 3

RLHFlow/Llama3-SFT-v2.0-epoch3

Text Generation • 8B • Updated Nov 3, 2024 • 4 •

RLHFlow/LLaMA3-SFT

Text Generation • 8B • Updated Nov 3, 2024 • 5 • • 10