BERT for SST-2 Sentiment Classification

Этот репозиторий содержит дообученный модельный чекпоинт bert-base-uncased для задачи бинарной классификации тональности на датасете SST-2 из набора GLUE. [file:1]

Модель

  • Базовая архитектура: bert-base-uncased (12 слоёв, скрытый размер 768, 12 голов внимания).
  • Задача: бинарная классификация тональности (положительная / отрицательная).
  • Заголовок классификации: полносвязный слой поверх [CLS]-эмбеддинга.

Датасет

Модель обучена на подмножестве GLUE SST-2:

  • Train: 67 349 примеров.
  • Validation: 872 примера.
  • Test: 1 821 пример.

Входные данные — отдельные предложения на английском языке, размеченные как положительные или отрицательные по тональности.

Обучение

Основные параметры обучения:

  • Epochs: 3
  • Learning rate: 2e-5
  • Batch size (per device): 16
  • Weight decay: 0.01
  • Evaluation strategy: epoch
  • Метрика для выбора лучшей модели: accuracy на валидации.

Запуск тренировки выполнялся через Trainer из transformers:

Результаты

По итогам обучения (3 эпохи) модель достигла следующей точности на валидационной выборке SST-2:

  • Validation accuracy ≈ 0.86
  • Validation loss ≈ 0.34–0.53 (по эпохам).

Использование

Пример использования через pipeline:

from transformers import pipeline

classifier = pipeline( "text-classification", model="AlsuGibadullina/bertsst2learn", )

classifier("The weather is not good today.")

Выход — метка POSITIVE или NEGATIVE с вероятностью. [file:1]

Лицензия и ограничения

  • Базовая модель: bert-base-uncased (лицензия от Hugging Face/Google; см. страницу модели).
  • Датасет: GLUE SST-2, используемый для исследовательских и образовательных целей. [file:1]
  • Модель предназначена для учебных и исследовательских задач по анализу тональности на английском языке; не рекомендуется применять её в проде без дополнительной валидации.
Downloads last month
26
Safetensors
Model size
0.1B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Dataset used to train AlsuGibadullina/bert_sst2_learn