Model Card for DuckyModel_V1

LLaMA-style decoder-only transformer, обученная с нуля.

Model Details

Model Description

Языковая модель на ~1.05B параметров, архитектура в стиле LLaMA (RMSNorm, RoPE, SwiGLU, Flash Attention, weight tying). Обучена с нуля на собственном BPE-токенизаторе.

Developed by: AxisCommunity
Model type: Decoder-only transformer (text generation)
Language(s): Russian, English, Kazakh
License: [More Information Needed]

Model Sources

Repository: https://huggingface.co/AxisCommunity/DuckyModel_V1

Uses

Direct Use

Генерация текста на русском, английском, казахском языках.

Out-of-Scope Use

Модель обучена на ограниченном объёме данных (300 шагов), не предназначена для высокоточных или критичных задач.

Bias, Risks, and Limitations

Модель обучена на небольшом количестве шагов и может выдавать несвязный или некорректный текст.

How to Get Started with the Model

Модель использует кастомную архитектуру (не из transformers), весовой файл в формате safetensors с 4-bit квантованием.

Training Details

Training Data

Датасет: AxisCommunity/Dataset_ModelDucky (подвыборка ~20000 примеров)

Training Procedure

Training Hyperparameters

Training regime: bf16 mixed precision, AdamW8bit optimizer
Steps: 300
Batch size: 2
Learning rate: 3e-4
Sequence length: 512

Speeds, Sizes, Times

Размер модели: ~600MB (4-bit quantized)

Technical Specifications

Model Architecture and Objective

Параметров: ~1.05B
Слоёв: 20
Hidden size: 2048
Attention heads: 16
Intermediate size (FFN): 5632
Vocab size: 9482
Компоненты: RMSNorm, RoPE, SwiGLU, Flash Attention (scaled_dot_product_attention), weight tying

Compute Infrastructure

Software

PyTorch, bitsandbytes, tokenizers, safetensors

Downloads last month: 91