Model Card for DuckyModel_V1
LLaMA-style decoder-only transformer, обученная с нуля.
Model Details
Model Description
Языковая модель на ~1.05B параметров, архитектура в стиле LLaMA (RMSNorm, RoPE, SwiGLU, Flash Attention, weight tying). Обучена с нуля на собственном BPE-токенизаторе.
- Developed by: AxisCommunity
- Model type: Decoder-only transformer (text generation)
- Language(s): Russian, English, Kazakh
- License: [More Information Needed]
Model Sources
Uses
Direct Use
Генерация текста на русском, английском, казахском языках.
Out-of-Scope Use
Модель обучена на ограниченном объёме данных (300 шагов), не предназначена для высокоточных или критичных задач.
Bias, Risks, and Limitations
Модель обучена на небольшом количестве шагов и может выдавать несвязный или некорректный текст.
How to Get Started with the Model
Модель использует кастомную архитектуру (не из transformers), весовой файл в формате safetensors с 4-bit квантованием.
Training Details
Training Data
Датасет: AxisCommunity/Dataset_ModelDucky (подвыборка ~20000 примеров)
Training Procedure
Training Hyperparameters
- Training regime: bf16 mixed precision, AdamW8bit optimizer
- Steps: 300
- Batch size: 2
- Learning rate: 3e-4
- Sequence length: 512
Speeds, Sizes, Times
- Размер модели: ~600MB (4-bit quantized)
Technical Specifications
Model Architecture and Objective
- Параметров: ~1.05B
- Слоёв: 20
- Hidden size: 2048
- Attention heads: 16
- Intermediate size (FFN): 5632
- Vocab size: 9482
- Компоненты: RMSNorm, RoPE, SwiGLU, Flash Attention (scaled_dot_product_attention), weight tying
Compute Infrastructure
Software
PyTorch, bitsandbytes, tokenizers, safetensors
- Downloads last month
- 91