Edit Models filters

Apps

Docker Model Runner

Inference Providers

OVHcloud AI Endpoints

HF Inference API

Misc

Inference Endpoints

text-generation-inference

4-bit precision

8-bit precision

text-embeddings-inference

Mixture of Experts

Carbon Emissions

Models

72

Full-text search

Active filters: gsm8k

August4293/mistral_gsm8k_ssl_it1

Updated Jul 4, 2024

August4293/mistral_gsm8k_ssl_it2

Updated Jul 4, 2024

emre/Qwen-0.5B-GRPO

Text Generation • Updated Feb 3, 2025 • 20 •

mradermacher/Qwen-0.5B-GRPO-GGUF

0.5B • Updated Feb 3, 2025 • 55

mradermacher/prem-1B-grpo-GGUF

Reinforcement Learning • 1B • Updated Feb 5, 2025 • 38

yeok/DeepScaleR-1.5B-Preview-GSM8K-Demo

2B • Updated Feb 17, 2025 • 4

LahiruWije/Qwen2.5-0.5B-Instruct-GPRO-GSM8K

Question Answering • 0.5B • Updated Mar 10, 2025 • 5

eagle0504/qwen-2-5-3b-instruct-using-openai-gsm8k-gguf-data-enhanced-with-deepseek-v3-small

3B • Updated Mar 3, 2025 • 311

eagle0504/qwen-2-5-3b-instruct-using-openai-gsm8k-data-enhanced-with-deepseek-v3

3B • Updated Apr 8, 2025 • 155

eagle0504/qwen-2-5-3b-instruct-using-openai-gsm8k-data-enhanced-with-deepseek-v4

3B • Updated Mar 7, 2025 • 70

devZeeshaan/NanoR1

Text Generation • Updated Mar 18, 2025 • 1 • 1

koolkarni-Atharva10/Nano_R1

Reinforcement Learning • Updated Mar 17, 2025

klei1/bleta-logjike-27b

Text Generation • Updated Mar 23, 2025 • 23 • 3

klei1/bleta-logjike-27b-gguf

27B • Updated Mar 23, 2025 • 3

faxnoprinter/OpenELM-450M-gsm8k-LoRA

Updated Jun 9, 2025

darshjoshi16/phi2-lora-math

Updated Jun 4, 2025 • 2

Makrrr/Qwen3-1.7B-GSM8K-GRPO-verl

Reinforcement Learning • 2B • Updated Jul 5, 2025 • 46 • 2

alphadl/ppo-gsm8k-0.5b

Text Generation • 0.6B • Updated Aug 4, 2025 • 63 • 2

shivs28/jee_nujan_mix_v2_base

Text Generation • 2B • Updated Aug 14, 2025 • 4

tahamajs/Qwen3-4B-GSM8k-GRPO-Unsloth

4B • Updated Aug 14, 2025 • 3

tahamajs/gemma-3-1b-it-finetune-gsmk8

Text Generation • 1.0B • Updated Aug 15, 2025 • 8

TroglodyteDerivations/smol_lm_3b

Updated Aug 31, 2025

safouaneelg/Apertus-8B-Instruct-2509-GSM8k-SFT

Text Generation • 8B • Updated Sep 5, 2025 • 6

kotekjedi/qwen3-32b-lora-jailbreak-detection-merged

Text Generation • 33B • Updated Sep 13, 2025 • 3

yassine-boua/olmo-gsm8k-finetuned

Text Generation • Updated Sep 13, 2025 • 3

kotekjedi/qwen3-32b-lora-jailbreak-detection-merged_v2

Text Generation • 33B • Updated Sep 15, 2025 • 4

mradermacher/qwen3-32b-lora-jailbreak-detection-merged_v2-GGUF

33B • Updated Sep 15, 2025 • 101

karthik/verl-qwen2.5-0.5b-gsm8k-ppo-step360

Text Generation • 0.5B • Updated Sep 21, 2025 • 3

DeryFerd/Qwen2.5-Math-7B-Instruct-Distill-Phi2-2.5K-MixMath

Text Generation • 3B • Updated Sep 26, 2025 • 10 • 1

DeryFerd/Qwen2.5-Math-Coder-Distill-Phi-2-4.4K-MixMathCode

Text Generation • 3B • Updated Sep 29, 2025 • 13 • 4