Model Card for DuckyModel_V1

LLaMA-style decoder-only transformer, обученная с нуля.

Model Details

Model Description

Языковая модель на ~1.05B параметров, архитектура в стиле LLaMA (RMSNorm, RoPE, SwiGLU, Flash Attention, weight tying). Обучена с нуля на собственном BPE-токенизаторе.

  • Developed by: AxisCommunity
  • Model type: Decoder-only transformer (text generation)
  • Language(s): Russian, English, Kazakh
  • License: [More Information Needed]

Model Sources

Uses

Direct Use

Генерация текста на русском, английском, казахском языках.

Out-of-Scope Use

Модель обучена на ограниченном объёме данных (300 шагов), не предназначена для высокоточных или критичных задач.

Bias, Risks, and Limitations

Модель обучена на небольшом количестве шагов и может выдавать несвязный или некорректный текст.

How to Get Started with the Model

Модель использует кастомную архитектуру (не из transformers), весовой файл в формате safetensors с 4-bit квантованием.

Training Details

Training Data

Датасет: AxisCommunity/Dataset_ModelDucky (подвыборка ~20000 примеров)

Training Procedure

Training Hyperparameters

  • Training regime: bf16 mixed precision, AdamW8bit optimizer
  • Steps: 300
  • Batch size: 2
  • Learning rate: 3e-4
  • Sequence length: 512

Speeds, Sizes, Times

  • Размер модели: ~600MB (4-bit quantized)

Technical Specifications

Model Architecture and Objective

  • Параметров: ~1.05B
  • Слоёв: 20
  • Hidden size: 2048
  • Attention heads: 16
  • Intermediate size (FFN): 5632
  • Vocab size: 9482
  • Компоненты: RMSNorm, RoPE, SwiGLU, Flash Attention (scaled_dot_product_attention), weight tying

Compute Infrastructure

Software

PyTorch, bitsandbytes, tokenizers, safetensors

Downloads last month
91
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support