UnstableBaselines

community

https://github.com/LeonGuertler/UnstableBaselines

AI & ML interests

None defined yet.

Recent Activity

bobbycxy authored a paper about 1 month ago

Super Tiny Language Models

bobbycxy authored a paper about 1 month ago

MEMO: Memory-Augmented Model Context Optimization for Robust Multi-Turn Multi-Agent LLM Games

tim-grams updated a model 4 months ago

UnstableBaselines/Qwen3-8B-Base-ColonelBlotto-v0-train

View all activity

Organization Card

Community About org cards

An Async, Online, Multi-Turn, Multi-Agent RL library for training reasoning models on TextArena games.

models 46

UnstableBaselines/Qwen3-8B-Base-ColonelBlotto-v0-train

Updated Feb 2 • 2

UnstableBaselines/Qwen3-8B-Base-HighSociety-v0-train

Updated Feb 2 • 3

UnstableBaselines/Qwen3-8B-Base-TicTacToe-v0-train

Updated Feb 2 • 3

UnstableBaselines/Qwen3-8B-Base-Snake-v0-train

Updated Feb 2 • 5

UnstableBaselines/Qwen3-8B-Base-GermanWhist-v0-train

Updated Feb 2 • 1

UnstableBaselines/Qwen3-1.7B-Base-IndianPoker-v0-train

Updated Jan 23 • 1

UnstableBaselines/Qwen3-1.7B-Base-Briscola-v0-train

Updated Jan 22 • 1

UnstableBaselines/Qwen3-1.7B-Base-KuhnPoker-v0-train

Updated Jan 22 • 2

UnstableBaselines/Qwen3-1.7B-Base-LiarsDice-v0-train

Updated Jan 22 • 2

UnstableBaselines/Qwen3-1.7B-Base-Golf-v0-train

Updated Jan 22 • 2

datasets 1

UnstableBaselines/trajectories-twodollar-v0-train

Viewer • Updated Oct 1, 2025 • 41.1k • 9