SetFit with TurkuNLP/bert-base-finnish-cased-v1

This is a SetFit model that can be used for Text Classification. This SetFit model uses TurkuNLP/bert-base-finnish-cased-v1 as the Sentence Transformer embedding model. A LogisticRegression instance is used for classification.

The model has been trained using an efficient few-shot learning technique that involves:

  1. Fine-tuning a Sentence Transformer with contrastive learning.
  2. Training a classification head with features from the fine-tuned Sentence Transformer.

Model Details

Model Description

Model Sources

Model Labels

Label Examples
0
  • 'Etunimi Sukunimi miten luulet tilanteen parantuneen kun sairaala- ja tehohoito potilaiden määrä on vain kasvanut silloisesta?\nOlet niin totaalisen puusilmäinen ja hallirusvihan vallassa, että tätä on turha jatkaa pitemmälle. Pysy terveenä ja rauhallista joulua!'
  • 'Etunimi Sukunimi perustuslakia ei ole rikottu niissä asioissa mitä convoypellet väitti, kaikki mitä kaverit väittää ei ole totta .'
  • 'Takaisin hiilivoimaan?'
1
  • '"Hylkiö" unionin toimesta johon ei kuulu.'
  • 'Etunimi Almonkari-Kuikka en nyt varsinaisesti pelkästään tuota aihetta tarkoittanutkaan. Sekin on kuitenkin vähintään kyseenalaista, koska kyseessä ei ole valmis tuote, vaan hätämyyntiluvalla käytössä oleva ruiske, ja sen seurauksena on niinikään perusoikeudellinen terveydenhuollon taso turvaamattomalla tasolla.'
  • 'Mikään ei ole niin varmaa kuin epävarma. KUKAAN ei millään voi tietää mitä tapahtuu koronan tai ylipäätään minkään suhteen. Joka muuta väittää on typerys...'

Evaluation

Metrics

Label Metric
all 0.8719

Uses

Direct Use for Inference

First install the SetFit library:

pip install setfit

Then you can load this model and run inference.

from setfit import SetFitModel

# Download from the 🤗 Hub
model = SetFitModel.from_pretrained("Finnish-actions/SetFit-FinBERT1-Avg-statement")
# Run inference
preds = model("Kohta on lisää lapsia sairaalassa koronan vuoksi ☹")

Training Details

Training Set Metrics

Training set Min Median Max
Word count 1 19.9323 213
Label Training Sample Count
0 218
1 624

Training Hyperparameters

  • batch_size: (16, 16)
  • num_epochs: (4, 4)
  • max_steps: -1
  • sampling_strategy: oversampling
  • num_iterations: 6
  • body_learning_rate: (2e-05, 1e-05)
  • head_learning_rate: 0.01
  • loss: CosineSimilarityLoss
  • distance_metric: cosine_distance
  • margin: 0.25
  • end_to_end: False
  • use_amp: False
  • warmup_proportion: 0.1
  • l2_weight: 0.01
  • seed: 42
  • evaluation_strategy: epoch
  • eval_max_steps: -1
  • load_best_model_at_end: False

Training Results

Epoch Step Training Loss Validation Loss
0.0016 1 0.2335 -
0.0791 50 0.2607 -
0.1582 100 0.238 -
0.2373 150 0.1995 -
0.3165 200 0.1685 -
0.3956 250 0.0844 -
0.4747 300 0.0443 -
0.5538 350 0.0202 -
0.6329 400 0.0151 -
0.7120 450 0.0103 -
0.7911 500 0.0089 -
0.8703 550 0.0098 -
0.9494 600 0.0043 -
1.0 632 - 0.1711
1.0285 650 0.0007 -
1.1076 700 0.0002 -
1.1867 750 0.0006 -
1.2658 800 0.0001 -
1.3449 850 0.0012 -
1.4241 900 0.0006 -
1.5032 950 0.0001 -
1.5823 1000 0.0001 -
1.6614 1050 0.0002 -
1.7405 1100 0.0001 -
1.8196 1150 0.0001 -
1.8987 1200 0.0001 -
1.9778 1250 0.0001 -
2.0 1264 - 0.1870
2.0570 1300 0.0001 -
2.1361 1350 0.0001 -
2.2152 1400 0.0001 -
2.2943 1450 0.0001 -
2.3734 1500 0.0001 -
2.4525 1550 0.0 -
2.5316 1600 0.0001 -
2.6108 1650 0.0001 -
2.6899 1700 0.0001 -
2.7690 1750 0.0001 -
2.8481 1800 0.0 -
2.9272 1850 0.0001 -
3.0 1896 - 0.1924
3.0063 1900 0.0 -
3.0854 1950 0.0 -
3.1646 2000 0.0001 -
3.2437 2050 0.0 -
3.3228 2100 0.0 -
3.4019 2150 0.0 -
3.4810 2200 0.0 -
3.5601 2250 0.0001 -
3.6392 2300 0.0001 -
3.7184 2350 0.0 -
3.7975 2400 0.0 -
3.8766 2450 0.0 -
3.9557 2500 0.0 -
4.0 2528 - 0.1996

Framework Versions

  • Python: 3.11.9
  • SetFit: 1.1.3
  • Sentence Transformers: 3.2.0
  • Transformers: 4.44.0
  • PyTorch: 2.4.0+cu124
  • Datasets: 2.21.0
  • Tokenizers: 0.19.1

Citation

BibTeX

@article{https://doi.org/10.48550/arxiv.2209.11055,
    doi = {10.48550/ARXIV.2209.11055},
    url = {https://arxiv.org/abs/2209.11055},
    author = {Tunstall, Lewis and Reimers, Nils and Jo, Unso Eun Seo and Bates, Luke and Korat, Daniel and Wasserblat, Moshe and Pereg, Oren},
    keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
    title = {Efficient Few-Shot Learning Without Prompts},
    publisher = {arXiv},
    year = {2022},
    copyright = {Creative Commons Attribution 4.0 International}
}
Downloads last month
17
Safetensors
Model size
0.1B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for Finnish-actions/SetFit-FinBERT1-Avg-statement

Finetuned
(34)
this model

Evaluation results