PierrunoYT commited on 25 days ago

Commit

e5fe308

verified ·

1 Parent(s): 3727c37

Upload folder using huggingface_hub

Browse files

Files changed (49) hide show

README.md +99 -0
checkpoints/checkpoint-4000/config.json +24 -0
checkpoints/checkpoint-4000/model.safetensors +3 -0
checkpoints/checkpoint-4000/optimizer.pt +3 -0
checkpoints/checkpoint-4000/rng_state.pth +3 -0
checkpoints/checkpoint-4000/scaler.pt +3 -0
checkpoints/checkpoint-4000/scheduler.pt +3 -0
checkpoints/checkpoint-4000/special_tokens_map.json +7 -0
checkpoints/checkpoint-4000/tokenizer.json +0 -0
checkpoints/checkpoint-4000/tokenizer_config.json +56 -0
checkpoints/checkpoint-4000/trainer_state.json +410 -0
checkpoints/checkpoint-4000/training_args.bin +3 -0
checkpoints/checkpoint-4000/vocab.txt +0 -0
checkpoints/checkpoint-4500/config.json +24 -0
checkpoints/checkpoint-4500/model.safetensors +3 -0
checkpoints/checkpoint-4500/optimizer.pt +3 -0
checkpoints/checkpoint-4500/rng_state.pth +3 -0
checkpoints/checkpoint-4500/scaler.pt +3 -0
checkpoints/checkpoint-4500/scheduler.pt +3 -0
checkpoints/checkpoint-4500/special_tokens_map.json +7 -0
checkpoints/checkpoint-4500/tokenizer.json +0 -0
checkpoints/checkpoint-4500/tokenizer_config.json +56 -0
checkpoints/checkpoint-4500/trainer_state.json +457 -0
checkpoints/checkpoint-4500/training_args.bin +3 -0
checkpoints/checkpoint-4500/vocab.txt +0 -0
checkpoints/checkpoint-4689/config.json +24 -0
checkpoints/checkpoint-4689/model.safetensors +3 -0
checkpoints/checkpoint-4689/optimizer.pt +3 -0
checkpoints/checkpoint-4689/rng_state.pth +3 -0
checkpoints/checkpoint-4689/scaler.pt +3 -0
checkpoints/checkpoint-4689/scheduler.pt +3 -0
checkpoints/checkpoint-4689/special_tokens_map.json +7 -0
checkpoints/checkpoint-4689/tokenizer.json +0 -0
checkpoints/checkpoint-4689/tokenizer_config.json +56 -0
checkpoints/checkpoint-4689/trainer_state.json +464 -0
checkpoints/checkpoint-4689/training_args.bin +3 -0
checkpoints/checkpoint-4689/vocab.txt +0 -0
config.json +24 -0
logs/events.out.tfevents.1763396606.Pierruno.82048.0 +3 -0
logs/events.out.tfevents.1763397273.Pierruno.82048.1 +3 -0
logs/events.out.tfevents.1763397463.Pierruno.78916.0 +3 -0
logs/events.out.tfevents.1763398281.Pierruno.78916.1 +3 -0
model.safetensors +3 -0
special_tokens_map.json +7 -0
test_results.json +11 -0
tokenizer.json +0 -0
tokenizer_config.json +56 -0
training_args.json +21 -0
vocab.txt +0 -0

README.md ADDED Viewed

	@@ -0,0 +1,99 @@

+---
+language: en
+license: apache-2.0
+tags:
+- sentiment-analysis
+- text-classification
+- imdb
+datasets:
+- imdb
+metrics:
+- accuracy
+- f1
+model-index:
+- name: sentiment-imdb-distilbert
+  results:
+  - task:
+      type: text-classification
+      name: Sentiment Analysis
+    dataset:
+      name: IMDB
+      type: imdb
+    metrics:
+    - type: accuracy
+      value: 0.9145
+      name: Accuracy
+    - type: f1
+      value: 0.9144
+      name: F1 Score
+---
+# sentiment-imdb-distilbert
+## Model Description
+Fine-tuned **distilbert-base-uncased** for binary sentiment classification on the IMDB movie review dataset.
+**Training Date:** 2025-11-17 17:51:21
+## Intended Use
+This model classifies text into positive or negative sentiment. It was trained on movie reviews but may generalize to other domains.
+## Performance
+| Metric    | Score |
+|-----------|-------|
+| Accuracy  | 0.9145 |
+| F1 Score  | 0.9144 |
+| Precision | 0.9154 |
+| Recall    | 0.9135 |
+## Training Hyperparameters
+- **Model:** distilbert-base-uncased
+- **Epochs:** 3
+- **Batch Size:** 16
+- **Learning Rate:** 2e-05
+- **Max Length:** 256
+- **Warmup Ratio:** 0.1
+- **Weight Decay:** 0.01
+- **Training Samples:** 25000
+## Usage
+```python
+from transformers import AutoTokenizer, AutoModelForSequenceClassification
+import torch
+model_name = "PierrunoYT/sentiment-imdb-distilbert" if args.hf_username else "local model"
+tokenizer = AutoTokenizer.from_pretrained(model_name)
+model = AutoModelForSequenceClassification.from_pretrained(model_name)
+def predict(text):
+    inputs = tokenizer(text, return_tensors="pt", truncation=True, max_length=256)
+    with torch.no_grad():
+        outputs = model(**inputs)
+    probs = torch.nn.functional.softmax(outputs.logits, dim=-1)
+    return "Positive" if probs[0][1] > 0.5 else "Negative"
+print(predict("This movie was amazing!"))  # Positive
+```
+## Limitations
+- Trained primarily on movie reviews; performance may vary on other text types
+- May reflect biases present in the IMDB dataset
+- English language only
+## Citation
+```
+@misc{sentiment-imdb-distilbert,
+  author = {Your Name},
+  title = {Sentiment Analysis with distilbert-base-uncased},
+  year = {2025},
+  publisher = {HuggingFace},
+  howpublished = {\url{https://huggingface.co/PierrunoYT/sentiment-imdb-distilbert}}
+}
+```

checkpoints/checkpoint-4000/config.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "activation": "gelu",
+  "architectures": [
+    "DistilBertForSequenceClassification"
+  ],
+  "attention_dropout": 0.1,
+  "dim": 768,
+  "dropout": 0.1,
+  "dtype": "float32",
+  "hidden_dim": 3072,
+  "initializer_range": 0.02,
+  "max_position_embeddings": 512,
+  "model_type": "distilbert",
+  "n_heads": 12,
+  "n_layers": 6,
+  "pad_token_id": 0,
+  "problem_type": "single_label_classification",
+  "qa_dropout": 0.1,
+  "seq_classif_dropout": 0.2,
+  "sinusoidal_pos_embds": false,
+  "tie_weights_": true,
+  "transformers_version": "4.57.1",
+  "vocab_size": 30522
+}

checkpoints/checkpoint-4000/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:99e251dab1ddbea9af67337e0c963c6b53c249a6ae9abd25431341b1e0a041d5
+size 267832560

checkpoints/checkpoint-4000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6371669abd718e0c7910fe0f552eed2855482ee0a93dbf84a841749d52b2bca8
+size 535727290

checkpoints/checkpoint-4000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3e246deab8c1ed84dc59618a67f01b8cf36fbd8dfc802cc848fbfc628663fff8
+size 14244

checkpoints/checkpoint-4000/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8b34d1be2b8715bc6ed09db10ced5480b0e06e02f93931c3966bd87d4b75d535
+size 988

checkpoints/checkpoint-4000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:87dbc1df1308a500ad62871152b56c5c819fc0923bf7b626fb90ade7e5d963a8
+size 1064

checkpoints/checkpoint-4000/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

checkpoints/checkpoint-4000/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoints/checkpoint-4000/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,56 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": true,
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "DistilBertTokenizer",
+  "unk_token": "[UNK]"
+}

checkpoints/checkpoint-4000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,410 @@

+{
+  "best_global_step": 2500,
+  "best_metric": 0.9126647834274952,
+  "best_model_checkpoint": "./sentiment_model_transformer/checkpoints\\checkpoint-2500",
+  "epoch": 2.5591810620601407,
+  "eval_steps": 500,
+  "global_step": 4000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.06397952655150352,
+      "grad_norm": 1.2034984827041626,
+      "learning_rate": 4.221748400852878e-06,
+      "loss": 0.693,
+      "step": 100
+    },
+    {
+      "epoch": 0.12795905310300704,
+      "grad_norm": 6.451626777648926,
+      "learning_rate": 8.443496801705757e-06,
+      "loss": 0.582,
+      "step": 200
+    },
+    {
+      "epoch": 0.19193857965451055,
+      "grad_norm": 6.7827935218811035,
+      "learning_rate": 1.2665245202558636e-05,
+      "loss": 0.3471,
+      "step": 300
+    },
+    {
+      "epoch": 0.2559181062060141,
+      "grad_norm": 8.43331527709961,
+      "learning_rate": 1.6929637526652455e-05,
+      "loss": 0.3145,
+      "step": 400
+    },
+    {
+      "epoch": 0.3198976327575176,
+      "grad_norm": 3.5554704666137695,
+      "learning_rate": 1.9867298578199055e-05,
+      "loss": 0.3029,
+      "step": 500
+    },
+    {
+      "epoch": 0.3198976327575176,
+      "eval_accuracy": 0.88444,
+      "eval_f1": 0.8864966801555809,
+      "eval_loss": 0.2814505994319916,
+      "eval_precision": 0.8709951362618699,
+      "eval_recall": 0.90256,
+      "eval_runtime": 50.1894,
+      "eval_samples_per_second": 498.113,
+      "eval_steps_per_second": 31.142,
+      "step": 500
+    },
+    {
+      "epoch": 0.3838771593090211,
+      "grad_norm": 9.981550216674805,
+      "learning_rate": 1.9393364928909955e-05,
+      "loss": 0.3061,
+      "step": 600
+    },
+    {
+      "epoch": 0.44785668586052463,
+      "grad_norm": 12.963433265686035,
+      "learning_rate": 1.8919431279620855e-05,
+      "loss": 0.299,
+      "step": 700
+    },
+    {
+      "epoch": 0.5118362124120281,
+      "grad_norm": 15.598821640014648,
+      "learning_rate": 1.8445497630331755e-05,
+      "loss": 0.3067,
+      "step": 800
+    },
+    {
+      "epoch": 0.5758157389635317,
+      "grad_norm": 13.730338096618652,
+      "learning_rate": 1.7971563981042655e-05,
+      "loss": 0.2656,
+      "step": 900
+    },
+    {
+      "epoch": 0.6397952655150352,
+      "grad_norm": 6.761341094970703,
+      "learning_rate": 1.7497630331753558e-05,
+      "loss": 0.2907,
+      "step": 1000
+    },
+    {
+      "epoch": 0.6397952655150352,
+      "eval_accuracy": 0.89796,
+      "eval_f1": 0.90142586653271,
+      "eval_loss": 0.24962513148784637,
+      "eval_precision": 0.8718140369235369,
+      "eval_recall": 0.93312,
+      "eval_runtime": 59.8142,
+      "eval_samples_per_second": 417.961,
+      "eval_steps_per_second": 26.131,
+      "step": 1000
+    },
+    {
+      "epoch": 0.7037747920665387,
+      "grad_norm": 3.8816897869110107,
+      "learning_rate": 1.7023696682464458e-05,
+      "loss": 0.276,
+      "step": 1100
+    },
+    {
+      "epoch": 0.7677543186180422,
+      "grad_norm": 8.760039329528809,
+      "learning_rate": 1.6549763033175357e-05,
+      "loss": 0.2589,
+      "step": 1200
+    },
+    {
+      "epoch": 0.8317338451695457,
+      "grad_norm": 1.0741268396377563,
+      "learning_rate": 1.6075829383886257e-05,
+      "loss": 0.2585,
+      "step": 1300
+    },
+    {
+      "epoch": 0.8957133717210493,
+      "grad_norm": 5.111315727233887,
+      "learning_rate": 1.5601895734597157e-05,
+      "loss": 0.2564,
+      "step": 1400
+    },
+    {
+      "epoch": 0.9596928982725528,
+      "grad_norm": 12.378557205200195,
+      "learning_rate": 1.5127962085308059e-05,
+      "loss": 0.304,
+      "step": 1500
+    },
+    {
+      "epoch": 0.9596928982725528,
+      "eval_accuracy": 0.90884,
+      "eval_f1": 0.9085950346929772,
+      "eval_loss": 0.22750799357891083,
+      "eval_precision": 0.9110431915064747,
+      "eval_recall": 0.90616,
+      "eval_runtime": 47.4099,
+      "eval_samples_per_second": 527.317,
+      "eval_steps_per_second": 32.968,
+      "step": 1500
+    },
+    {
+      "epoch": 1.0236724248240563,
+      "grad_norm": 13.478399276733398,
+      "learning_rate": 1.4654028436018958e-05,
+      "loss": 0.19,
+      "step": 1600
+    },
+    {
+      "epoch": 1.0876519513755598,
+      "grad_norm": 5.589203357696533,
+      "learning_rate": 1.4180094786729858e-05,
+      "loss": 0.1837,
+      "step": 1700
+    },
+    {
+      "epoch": 1.1516314779270633,
+      "grad_norm": 5.220266819000244,
+      "learning_rate": 1.370616113744076e-05,
+      "loss": 0.2202,
+      "step": 1800
+    },
+    {
+      "epoch": 1.2156110044785668,
+      "grad_norm": 15.924393653869629,
+      "learning_rate": 1.323222748815166e-05,
+      "loss": 0.1922,
+      "step": 1900
+    },
+    {
+      "epoch": 1.2795905310300704,
+      "grad_norm": 3.0759739875793457,
+      "learning_rate": 1.2758293838862561e-05,
+      "loss": 0.1757,
+      "step": 2000
+    },
+    {
+      "epoch": 1.2795905310300704,
+      "eval_accuracy": 0.90656,
+      "eval_f1": 0.9086071987480439,
+      "eval_loss": 0.2567562162876129,
+      "eval_precision": 0.8891271056661562,
+      "eval_recall": 0.92896,
+      "eval_runtime": 58.5167,
+      "eval_samples_per_second": 427.228,
+      "eval_steps_per_second": 26.71,
+      "step": 2000
+    },
+    {
+      "epoch": 1.3435700575815739,
+      "grad_norm": 4.443939208984375,
+      "learning_rate": 1.228436018957346e-05,
+      "loss": 0.1916,
+      "step": 2100
+    },
+    {
+      "epoch": 1.4075495841330774,
+      "grad_norm": 11.637112617492676,
+      "learning_rate": 1.181042654028436e-05,
+      "loss": 0.1829,
+      "step": 2200
+    },
+    {
+      "epoch": 1.471529110684581,
+      "grad_norm": 5.834052562713623,
+      "learning_rate": 1.133649289099526e-05,
+      "loss": 0.1833,
+      "step": 2300
+    },
+    {
+      "epoch": 1.5355086372360844,
+      "grad_norm": 5.50422477722168,
+      "learning_rate": 1.086255924170616e-05,
+      "loss": 0.1702,
+      "step": 2400
+    },
+    {
+      "epoch": 1.599488163787588,
+      "grad_norm": 14.709617614746094,
+      "learning_rate": 1.0388625592417063e-05,
+      "loss": 0.189,
+      "step": 2500
+    },
+    {
+      "epoch": 1.599488163787588,
+      "eval_accuracy": 0.91096,
+      "eval_f1": 0.9126647834274952,
+      "eval_loss": 0.2622799873352051,
+      "eval_precision": 0.8955189405605174,
+      "eval_recall": 0.93048,
+      "eval_runtime": 57.0885,
+      "eval_samples_per_second": 437.917,
+      "eval_steps_per_second": 27.379,
+      "step": 2500
+    },
+    {
+      "epoch": 1.6634676903390915,
+      "grad_norm": 1.3613829612731934,
+      "learning_rate": 9.914691943127963e-06,
+      "loss": 0.2136,
+      "step": 2600
+    },
+    {
+      "epoch": 1.727447216890595,
+      "grad_norm": 5.129843235015869,
+      "learning_rate": 9.445497630331755e-06,
+      "loss": 0.1955,
+      "step": 2700
+    },
+    {
+      "epoch": 1.7914267434420985,
+      "grad_norm": 11.221867561340332,
+      "learning_rate": 8.971563981042654e-06,
+      "loss": 0.1888,
+      "step": 2800
+    },
+    {
+      "epoch": 1.855406269993602,
+      "grad_norm": 16.80147361755371,
+      "learning_rate": 8.497630331753554e-06,
+      "loss": 0.1715,
+      "step": 2900
+    },
+    {
+      "epoch": 1.9193857965451055,
+      "grad_norm": 1.4080605506896973,
+      "learning_rate": 8.023696682464456e-06,
+      "loss": 0.159,
+      "step": 3000
+    },
+    {
+      "epoch": 1.9193857965451055,
+      "eval_accuracy": 0.91048,
+      "eval_f1": 0.9090982940698619,
+      "eval_loss": 0.2924627661705017,
+      "eval_precision": 0.9233498349834983,
+      "eval_recall": 0.89528,
+      "eval_runtime": 57.9115,
+      "eval_samples_per_second": 431.693,
+      "eval_steps_per_second": 26.989,
+      "step": 3000
+    },
+    {
+      "epoch": 1.983365323096609,
+      "grad_norm": 10.077709197998047,
+      "learning_rate": 7.554502369668247e-06,
+      "loss": 0.1986,
+      "step": 3100
+    },
+    {
+      "epoch": 2.0473448496481126,
+      "grad_norm": 0.11581742018461227,
+      "learning_rate": 7.080568720379148e-06,
+      "loss": 0.1298,
+      "step": 3200
+    },
+    {
+      "epoch": 2.111324376199616,
+      "grad_norm": 0.21151360869407654,
+      "learning_rate": 6.606635071090048e-06,
+      "loss": 0.08,
+      "step": 3300
+    },
+    {
+      "epoch": 2.1753039027511196,
+      "grad_norm": 0.4802148938179016,
+      "learning_rate": 6.132701421800948e-06,
+      "loss": 0.1072,
+      "step": 3400
+    },
+    {
+      "epoch": 2.239283429302623,
+      "grad_norm": 21.213685989379883,
+      "learning_rate": 5.658767772511849e-06,
+      "loss": 0.1465,
+      "step": 3500
+    },
+    {
+      "epoch": 2.239283429302623,
+      "eval_accuracy": 0.91056,
+      "eval_f1": 0.9118226989510214,
+      "eval_loss": 0.3255835473537445,
+      "eval_precision": 0.8991289469590916,
+      "eval_recall": 0.92488,
+      "eval_runtime": 58.5259,
+      "eval_samples_per_second": 427.161,
+      "eval_steps_per_second": 26.706,
+      "step": 3500
+    },
+    {
+      "epoch": 2.3032629558541267,
+      "grad_norm": 2.2766849994659424,
+      "learning_rate": 5.1848341232227494e-06,
+      "loss": 0.1111,
+      "step": 3600
+    },
+    {
+      "epoch": 2.36724248240563,
+      "grad_norm": 2.196903944015503,
+      "learning_rate": 4.710900473933649e-06,
+      "loss": 0.0955,
+      "step": 3700
+    },
+    {
+      "epoch": 2.4312220089571337,
+      "grad_norm": 24.438621520996094,
+      "learning_rate": 4.23696682464455e-06,
+      "loss": 0.1145,
+      "step": 3800
+    },
+    {
+      "epoch": 2.495201535508637,
+      "grad_norm": 0.4384997487068176,
+      "learning_rate": 3.7630331753554506e-06,
+      "loss": 0.1342,
+      "step": 3900
+    },
+    {
+      "epoch": 2.5591810620601407,
+      "grad_norm": 7.266367435455322,
+      "learning_rate": 3.2890995260663512e-06,
+      "loss": 0.1028,
+      "step": 4000
+    },
+    {
+      "epoch": 2.5591810620601407,
+      "eval_accuracy": 0.91268,
+      "eval_f1": 0.9119225337905992,
+      "eval_loss": 0.31132665276527405,
+      "eval_precision": 0.9199023199023199,
+      "eval_recall": 0.90408,
+      "eval_runtime": 57.7956,
+      "eval_samples_per_second": 432.559,
+      "eval_steps_per_second": 27.044,
+      "step": 4000
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 4689,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 4237897017802752.0,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoints/checkpoint-4000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c927d2cb16dc987623e74b58eaecf59b19812c28268af85b7198d40b318a1776
+size 5432

checkpoints/checkpoint-4000/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoints/checkpoint-4500/config.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "activation": "gelu",
+  "architectures": [
+    "DistilBertForSequenceClassification"
+  ],
+  "attention_dropout": 0.1,
+  "dim": 768,
+  "dropout": 0.1,
+  "dtype": "float32",
+  "hidden_dim": 3072,
+  "initializer_range": 0.02,
+  "max_position_embeddings": 512,
+  "model_type": "distilbert",
+  "n_heads": 12,
+  "n_layers": 6,
+  "pad_token_id": 0,
+  "problem_type": "single_label_classification",
+  "qa_dropout": 0.1,
+  "seq_classif_dropout": 0.2,
+  "sinusoidal_pos_embds": false,
+  "tie_weights_": true,
+  "transformers_version": "4.57.1",
+  "vocab_size": 30522
+}

checkpoints/checkpoint-4500/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4b04b3e3b130814f7e7803af2368c5f5fbe982ce36c08b473f16acc665256bfa
+size 267832560

checkpoints/checkpoint-4500/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d206a06b2435968ff7deeeb8de97b9b35fee8cb3976faf09899fef7b2e4e0886
+size 535727290

checkpoints/checkpoint-4500/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bbe58c49a4bfe7bca5f1b1910fe18fa34ba03d8335e01d3db3f999402b469410
+size 14244

checkpoints/checkpoint-4500/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:46b6ab01cce18518b602553428d595df8bcf4506c096e9747cbb5f3f4ac94555
+size 988

checkpoints/checkpoint-4500/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a95a37fa91fa7c250d7742cdb09f56215352c9e81b719c2cf9281283b0657bae
+size 1064

checkpoints/checkpoint-4500/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

checkpoints/checkpoint-4500/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoints/checkpoint-4500/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,56 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": true,
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "DistilBertTokenizer",
+  "unk_token": "[UNK]"
+}

checkpoints/checkpoint-4500/trainer_state.json ADDED Viewed

	@@ -0,0 +1,457 @@

+{
+  "best_global_step": 4500,
+  "best_metric": 0.9144344344344344,
+  "best_model_checkpoint": "./sentiment_model_transformer/checkpoints\\checkpoint-4500",
+  "epoch": 2.8790786948176583,
+  "eval_steps": 500,
+  "global_step": 4500,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.06397952655150352,
+      "grad_norm": 1.2034984827041626,
+      "learning_rate": 4.221748400852878e-06,
+      "loss": 0.693,
+      "step": 100
+    },
+    {
+      "epoch": 0.12795905310300704,
+      "grad_norm": 6.451626777648926,
+      "learning_rate": 8.443496801705757e-06,
+      "loss": 0.582,
+      "step": 200
+    },
+    {
+      "epoch": 0.19193857965451055,
+      "grad_norm": 6.7827935218811035,
+      "learning_rate": 1.2665245202558636e-05,
+      "loss": 0.3471,
+      "step": 300
+    },
+    {
+      "epoch": 0.2559181062060141,
+      "grad_norm": 8.43331527709961,
+      "learning_rate": 1.6929637526652455e-05,
+      "loss": 0.3145,
+      "step": 400
+    },
+    {
+      "epoch": 0.3198976327575176,
+      "grad_norm": 3.5554704666137695,
+      "learning_rate": 1.9867298578199055e-05,
+      "loss": 0.3029,
+      "step": 500
+    },
+    {
+      "epoch": 0.3198976327575176,
+      "eval_accuracy": 0.88444,
+      "eval_f1": 0.8864966801555809,
+      "eval_loss": 0.2814505994319916,
+      "eval_precision": 0.8709951362618699,
+      "eval_recall": 0.90256,
+      "eval_runtime": 50.1894,
+      "eval_samples_per_second": 498.113,
+      "eval_steps_per_second": 31.142,
+      "step": 500
+    },
+    {
+      "epoch": 0.3838771593090211,
+      "grad_norm": 9.981550216674805,
+      "learning_rate": 1.9393364928909955e-05,
+      "loss": 0.3061,
+      "step": 600
+    },
+    {
+      "epoch": 0.44785668586052463,
+      "grad_norm": 12.963433265686035,
+      "learning_rate": 1.8919431279620855e-05,
+      "loss": 0.299,
+      "step": 700
+    },
+    {
+      "epoch": 0.5118362124120281,
+      "grad_norm": 15.598821640014648,
+      "learning_rate": 1.8445497630331755e-05,
+      "loss": 0.3067,
+      "step": 800
+    },
+    {
+      "epoch": 0.5758157389635317,
+      "grad_norm": 13.730338096618652,
+      "learning_rate": 1.7971563981042655e-05,
+      "loss": 0.2656,
+      "step": 900
+    },
+    {
+      "epoch": 0.6397952655150352,
+      "grad_norm": 6.761341094970703,
+      "learning_rate": 1.7497630331753558e-05,
+      "loss": 0.2907,
+      "step": 1000
+    },
+    {
+      "epoch": 0.6397952655150352,
+      "eval_accuracy": 0.89796,
+      "eval_f1": 0.90142586653271,
+      "eval_loss": 0.24962513148784637,
+      "eval_precision": 0.8718140369235369,
+      "eval_recall": 0.93312,
+      "eval_runtime": 59.8142,
+      "eval_samples_per_second": 417.961,
+      "eval_steps_per_second": 26.131,
+      "step": 1000
+    },
+    {
+      "epoch": 0.7037747920665387,
+      "grad_norm": 3.8816897869110107,
+      "learning_rate": 1.7023696682464458e-05,
+      "loss": 0.276,
+      "step": 1100
+    },
+    {
+      "epoch": 0.7677543186180422,
+      "grad_norm": 8.760039329528809,
+      "learning_rate": 1.6549763033175357e-05,
+      "loss": 0.2589,
+      "step": 1200
+    },
+    {
+      "epoch": 0.8317338451695457,
+      "grad_norm": 1.0741268396377563,
+      "learning_rate": 1.6075829383886257e-05,
+      "loss": 0.2585,
+      "step": 1300
+    },
+    {
+      "epoch": 0.8957133717210493,
+      "grad_norm": 5.111315727233887,
+      "learning_rate": 1.5601895734597157e-05,
+      "loss": 0.2564,
+      "step": 1400
+    },
+    {
+      "epoch": 0.9596928982725528,
+      "grad_norm": 12.378557205200195,
+      "learning_rate": 1.5127962085308059e-05,
+      "loss": 0.304,
+      "step": 1500
+    },
+    {
+      "epoch": 0.9596928982725528,
+      "eval_accuracy": 0.90884,
+      "eval_f1": 0.9085950346929772,
+      "eval_loss": 0.22750799357891083,
+      "eval_precision": 0.9110431915064747,
+      "eval_recall": 0.90616,
+      "eval_runtime": 47.4099,
+      "eval_samples_per_second": 527.317,
+      "eval_steps_per_second": 32.968,
+      "step": 1500
+    },
+    {
+      "epoch": 1.0236724248240563,
+      "grad_norm": 13.478399276733398,
+      "learning_rate": 1.4654028436018958e-05,
+      "loss": 0.19,
+      "step": 1600
+    },
+    {
+      "epoch": 1.0876519513755598,
+      "grad_norm": 5.589203357696533,
+      "learning_rate": 1.4180094786729858e-05,
+      "loss": 0.1837,
+      "step": 1700
+    },
+    {
+      "epoch": 1.1516314779270633,
+      "grad_norm": 5.220266819000244,
+      "learning_rate": 1.370616113744076e-05,
+      "loss": 0.2202,
+      "step": 1800
+    },
+    {
+      "epoch": 1.2156110044785668,
+      "grad_norm": 15.924393653869629,
+      "learning_rate": 1.323222748815166e-05,
+      "loss": 0.1922,
+      "step": 1900
+    },
+    {
+      "epoch": 1.2795905310300704,
+      "grad_norm": 3.0759739875793457,
+      "learning_rate": 1.2758293838862561e-05,
+      "loss": 0.1757,
+      "step": 2000
+    },
+    {
+      "epoch": 1.2795905310300704,
+      "eval_accuracy": 0.90656,
+      "eval_f1": 0.9086071987480439,
+      "eval_loss": 0.2567562162876129,
+      "eval_precision": 0.8891271056661562,
+      "eval_recall": 0.92896,
+      "eval_runtime": 58.5167,
+      "eval_samples_per_second": 427.228,
+      "eval_steps_per_second": 26.71,
+      "step": 2000
+    },
+    {
+      "epoch": 1.3435700575815739,
+      "grad_norm": 4.443939208984375,
+      "learning_rate": 1.228436018957346e-05,
+      "loss": 0.1916,
+      "step": 2100
+    },
+    {
+      "epoch": 1.4075495841330774,
+      "grad_norm": 11.637112617492676,
+      "learning_rate": 1.181042654028436e-05,
+      "loss": 0.1829,
+      "step": 2200
+    },
+    {
+      "epoch": 1.471529110684581,
+      "grad_norm": 5.834052562713623,
+      "learning_rate": 1.133649289099526e-05,
+      "loss": 0.1833,
+      "step": 2300
+    },
+    {
+      "epoch": 1.5355086372360844,
+      "grad_norm": 5.50422477722168,
+      "learning_rate": 1.086255924170616e-05,
+      "loss": 0.1702,
+      "step": 2400
+    },
+    {
+      "epoch": 1.599488163787588,
+      "grad_norm": 14.709617614746094,
+      "learning_rate": 1.0388625592417063e-05,
+      "loss": 0.189,
+      "step": 2500
+    },
+    {
+      "epoch": 1.599488163787588,
+      "eval_accuracy": 0.91096,
+      "eval_f1": 0.9126647834274952,
+      "eval_loss": 0.2622799873352051,
+      "eval_precision": 0.8955189405605174,
+      "eval_recall": 0.93048,
+      "eval_runtime": 57.0885,
+      "eval_samples_per_second": 437.917,
+      "eval_steps_per_second": 27.379,
+      "step": 2500
+    },
+    {
+      "epoch": 1.6634676903390915,
+      "grad_norm": 1.3613829612731934,
+      "learning_rate": 9.914691943127963e-06,
+      "loss": 0.2136,
+      "step": 2600
+    },
+    {
+      "epoch": 1.727447216890595,
+      "grad_norm": 5.129843235015869,
+      "learning_rate": 9.445497630331755e-06,
+      "loss": 0.1955,
+      "step": 2700
+    },
+    {
+      "epoch": 1.7914267434420985,
+      "grad_norm": 11.221867561340332,
+      "learning_rate": 8.971563981042654e-06,
+      "loss": 0.1888,
+      "step": 2800
+    },
+    {
+      "epoch": 1.855406269993602,
+      "grad_norm": 16.80147361755371,
+      "learning_rate": 8.497630331753554e-06,
+      "loss": 0.1715,
+      "step": 2900
+    },
+    {
+      "epoch": 1.9193857965451055,
+      "grad_norm": 1.4080605506896973,
+      "learning_rate": 8.023696682464456e-06,
+      "loss": 0.159,
+      "step": 3000
+    },
+    {
+      "epoch": 1.9193857965451055,
+      "eval_accuracy": 0.91048,
+      "eval_f1": 0.9090982940698619,
+      "eval_loss": 0.2924627661705017,
+      "eval_precision": 0.9233498349834983,
+      "eval_recall": 0.89528,
+      "eval_runtime": 57.9115,
+      "eval_samples_per_second": 431.693,
+      "eval_steps_per_second": 26.989,
+      "step": 3000
+    },
+    {
+      "epoch": 1.983365323096609,
+      "grad_norm": 10.077709197998047,
+      "learning_rate": 7.554502369668247e-06,
+      "loss": 0.1986,
+      "step": 3100
+    },
+    {
+      "epoch": 2.0473448496481126,
+      "grad_norm": 0.11581742018461227,
+      "learning_rate": 7.080568720379148e-06,
+      "loss": 0.1298,
+      "step": 3200
+    },
+    {
+      "epoch": 2.111324376199616,
+      "grad_norm": 0.21151360869407654,
+      "learning_rate": 6.606635071090048e-06,
+      "loss": 0.08,
+      "step": 3300
+    },
+    {
+      "epoch": 2.1753039027511196,
+      "grad_norm": 0.4802148938179016,
+      "learning_rate": 6.132701421800948e-06,
+      "loss": 0.1072,
+      "step": 3400
+    },
+    {
+      "epoch": 2.239283429302623,
+      "grad_norm": 21.213685989379883,
+      "learning_rate": 5.658767772511849e-06,
+      "loss": 0.1465,
+      "step": 3500
+    },
+    {
+      "epoch": 2.239283429302623,
+      "eval_accuracy": 0.91056,
+      "eval_f1": 0.9118226989510214,
+      "eval_loss": 0.3255835473537445,
+      "eval_precision": 0.8991289469590916,
+      "eval_recall": 0.92488,
+      "eval_runtime": 58.5259,
+      "eval_samples_per_second": 427.161,
+      "eval_steps_per_second": 26.706,
+      "step": 3500
+    },
+    {
+      "epoch": 2.3032629558541267,
+      "grad_norm": 2.2766849994659424,
+      "learning_rate": 5.1848341232227494e-06,
+      "loss": 0.1111,
+      "step": 3600
+    },
+    {
+      "epoch": 2.36724248240563,
+      "grad_norm": 2.196903944015503,
+      "learning_rate": 4.710900473933649e-06,
+      "loss": 0.0955,
+      "step": 3700
+    },
+    {
+      "epoch": 2.4312220089571337,
+      "grad_norm": 24.438621520996094,
+      "learning_rate": 4.23696682464455e-06,
+      "loss": 0.1145,
+      "step": 3800
+    },
+    {
+      "epoch": 2.495201535508637,
+      "grad_norm": 0.4384997487068176,
+      "learning_rate": 3.7630331753554506e-06,
+      "loss": 0.1342,
+      "step": 3900
+    },
+    {
+      "epoch": 2.5591810620601407,
+      "grad_norm": 7.266367435455322,
+      "learning_rate": 3.2890995260663512e-06,
+      "loss": 0.1028,
+      "step": 4000
+    },
+    {
+      "epoch": 2.5591810620601407,
+      "eval_accuracy": 0.91268,
+      "eval_f1": 0.9119225337905992,
+      "eval_loss": 0.31132665276527405,
+      "eval_precision": 0.9199023199023199,
+      "eval_recall": 0.90408,
+      "eval_runtime": 57.7956,
+      "eval_samples_per_second": 432.559,
+      "eval_steps_per_second": 27.044,
+      "step": 4000
+    },
+    {
+      "epoch": 2.6231605886116443,
+      "grad_norm": 0.180605947971344,
+      "learning_rate": 2.8151658767772515e-06,
+      "loss": 0.1003,
+      "step": 4100
+    },
+    {
+      "epoch": 2.6871401151631478,
+      "grad_norm": 7.690706729888916,
+      "learning_rate": 2.3412322274881517e-06,
+      "loss": 0.1095,
+      "step": 4200
+    },
+    {
+      "epoch": 2.7511196417146513,
+      "grad_norm": 5.688648700714111,
+      "learning_rate": 1.8672985781990523e-06,
+      "loss": 0.0973,
+      "step": 4300
+    },
+    {
+      "epoch": 2.815099168266155,
+      "grad_norm": 0.07725273072719574,
+      "learning_rate": 1.3933649289099526e-06,
+      "loss": 0.0937,
+      "step": 4400
+    },
+    {
+      "epoch": 2.8790786948176583,
+      "grad_norm": 0.1056542843580246,
+      "learning_rate": 9.194312796208532e-07,
+      "loss": 0.1014,
+      "step": 4500
+    },
+    {
+      "epoch": 2.8790786948176583,
+      "eval_accuracy": 0.91452,
+      "eval_f1": 0.9144344344344344,
+      "eval_loss": 0.3255852460861206,
+      "eval_precision": 0.9153507014028056,
+      "eval_recall": 0.91352,
+      "eval_runtime": 58.1033,
+      "eval_samples_per_second": 430.268,
+      "eval_steps_per_second": 26.9,
+      "step": 4500
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 4689,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 4767766612426752.0,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoints/checkpoint-4500/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c927d2cb16dc987623e74b58eaecf59b19812c28268af85b7198d40b318a1776
+size 5432

checkpoints/checkpoint-4500/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoints/checkpoint-4689/config.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "activation": "gelu",
+  "architectures": [
+    "DistilBertForSequenceClassification"
+  ],
+  "attention_dropout": 0.1,
+  "dim": 768,
+  "dropout": 0.1,
+  "dtype": "float32",
+  "hidden_dim": 3072,
+  "initializer_range": 0.02,
+  "max_position_embeddings": 512,
+  "model_type": "distilbert",
+  "n_heads": 12,
+  "n_layers": 6,
+  "pad_token_id": 0,
+  "problem_type": "single_label_classification",
+  "qa_dropout": 0.1,
+  "seq_classif_dropout": 0.2,
+  "sinusoidal_pos_embds": false,
+  "tie_weights_": true,
+  "transformers_version": "4.57.1",
+  "vocab_size": 30522
+}

checkpoints/checkpoint-4689/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8037024490e99573351988c7e3190c515258900b4a6139f06fbb3e56efd0d0bd
+size 267832560

checkpoints/checkpoint-4689/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f7e77c8d70bae546733649471f8421d53b57e7d16fb152e4abda9b38994d49c6
+size 535727290

checkpoints/checkpoint-4689/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:557a4b4db0462bf7b7170907d83ef303dc09f0beb194b0b0f593f2532b7aba0b
+size 14244

checkpoints/checkpoint-4689/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f64d996bc4957a751abff75b472ce689bdfc2567051044a4c608cb33d0f884ef
+size 988

checkpoints/checkpoint-4689/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:10465a3fbe5f978b6bf61ae32e12643c645ff7251d4206cc44da4a0cbe1826b3
+size 1064

checkpoints/checkpoint-4689/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

checkpoints/checkpoint-4689/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoints/checkpoint-4689/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,56 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": true,
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "DistilBertTokenizer",
+  "unk_token": "[UNK]"
+}

checkpoints/checkpoint-4689/trainer_state.json ADDED Viewed

	@@ -0,0 +1,464 @@

+{
+  "best_global_step": 4500,
+  "best_metric": 0.9144344344344344,
+  "best_model_checkpoint": "./sentiment_model_transformer/checkpoints\\checkpoint-4500",
+  "epoch": 3.0,
+  "eval_steps": 500,
+  "global_step": 4689,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.06397952655150352,
+      "grad_norm": 1.2034984827041626,
+      "learning_rate": 4.221748400852878e-06,
+      "loss": 0.693,
+      "step": 100
+    },
+    {
+      "epoch": 0.12795905310300704,
+      "grad_norm": 6.451626777648926,
+      "learning_rate": 8.443496801705757e-06,
+      "loss": 0.582,
+      "step": 200
+    },
+    {
+      "epoch": 0.19193857965451055,
+      "grad_norm": 6.7827935218811035,
+      "learning_rate": 1.2665245202558636e-05,
+      "loss": 0.3471,
+      "step": 300
+    },
+    {
+      "epoch": 0.2559181062060141,
+      "grad_norm": 8.43331527709961,
+      "learning_rate": 1.6929637526652455e-05,
+      "loss": 0.3145,
+      "step": 400
+    },
+    {
+      "epoch": 0.3198976327575176,
+      "grad_norm": 3.5554704666137695,
+      "learning_rate": 1.9867298578199055e-05,
+      "loss": 0.3029,
+      "step": 500
+    },
+    {
+      "epoch": 0.3198976327575176,
+      "eval_accuracy": 0.88444,
+      "eval_f1": 0.8864966801555809,
+      "eval_loss": 0.2814505994319916,
+      "eval_precision": 0.8709951362618699,
+      "eval_recall": 0.90256,
+      "eval_runtime": 50.1894,
+      "eval_samples_per_second": 498.113,
+      "eval_steps_per_second": 31.142,
+      "step": 500
+    },
+    {
+      "epoch": 0.3838771593090211,
+      "grad_norm": 9.981550216674805,
+      "learning_rate": 1.9393364928909955e-05,
+      "loss": 0.3061,
+      "step": 600
+    },
+    {
+      "epoch": 0.44785668586052463,
+      "grad_norm": 12.963433265686035,
+      "learning_rate": 1.8919431279620855e-05,
+      "loss": 0.299,
+      "step": 700
+    },
+    {
+      "epoch": 0.5118362124120281,
+      "grad_norm": 15.598821640014648,
+      "learning_rate": 1.8445497630331755e-05,
+      "loss": 0.3067,
+      "step": 800
+    },
+    {
+      "epoch": 0.5758157389635317,
+      "grad_norm": 13.730338096618652,
+      "learning_rate": 1.7971563981042655e-05,
+      "loss": 0.2656,
+      "step": 900
+    },
+    {
+      "epoch": 0.6397952655150352,
+      "grad_norm": 6.761341094970703,
+      "learning_rate": 1.7497630331753558e-05,
+      "loss": 0.2907,
+      "step": 1000
+    },
+    {
+      "epoch": 0.6397952655150352,
+      "eval_accuracy": 0.89796,
+      "eval_f1": 0.90142586653271,
+      "eval_loss": 0.24962513148784637,
+      "eval_precision": 0.8718140369235369,
+      "eval_recall": 0.93312,
+      "eval_runtime": 59.8142,
+      "eval_samples_per_second": 417.961,
+      "eval_steps_per_second": 26.131,
+      "step": 1000
+    },
+    {
+      "epoch": 0.7037747920665387,
+      "grad_norm": 3.8816897869110107,
+      "learning_rate": 1.7023696682464458e-05,
+      "loss": 0.276,
+      "step": 1100
+    },
+    {
+      "epoch": 0.7677543186180422,
+      "grad_norm": 8.760039329528809,
+      "learning_rate": 1.6549763033175357e-05,
+      "loss": 0.2589,
+      "step": 1200
+    },
+    {
+      "epoch": 0.8317338451695457,
+      "grad_norm": 1.0741268396377563,
+      "learning_rate": 1.6075829383886257e-05,
+      "loss": 0.2585,
+      "step": 1300
+    },
+    {
+      "epoch": 0.8957133717210493,
+      "grad_norm": 5.111315727233887,
+      "learning_rate": 1.5601895734597157e-05,
+      "loss": 0.2564,
+      "step": 1400
+    },
+    {
+      "epoch": 0.9596928982725528,
+      "grad_norm": 12.378557205200195,
+      "learning_rate": 1.5127962085308059e-05,
+      "loss": 0.304,
+      "step": 1500
+    },
+    {
+      "epoch": 0.9596928982725528,
+      "eval_accuracy": 0.90884,
+      "eval_f1": 0.9085950346929772,
+      "eval_loss": 0.22750799357891083,
+      "eval_precision": 0.9110431915064747,
+      "eval_recall": 0.90616,
+      "eval_runtime": 47.4099,
+      "eval_samples_per_second": 527.317,
+      "eval_steps_per_second": 32.968,
+      "step": 1500
+    },
+    {
+      "epoch": 1.0236724248240563,
+      "grad_norm": 13.478399276733398,
+      "learning_rate": 1.4654028436018958e-05,
+      "loss": 0.19,
+      "step": 1600
+    },
+    {
+      "epoch": 1.0876519513755598,
+      "grad_norm": 5.589203357696533,
+      "learning_rate": 1.4180094786729858e-05,
+      "loss": 0.1837,
+      "step": 1700
+    },
+    {
+      "epoch": 1.1516314779270633,
+      "grad_norm": 5.220266819000244,
+      "learning_rate": 1.370616113744076e-05,
+      "loss": 0.2202,
+      "step": 1800
+    },
+    {
+      "epoch": 1.2156110044785668,
+      "grad_norm": 15.924393653869629,
+      "learning_rate": 1.323222748815166e-05,
+      "loss": 0.1922,
+      "step": 1900
+    },
+    {
+      "epoch": 1.2795905310300704,
+      "grad_norm": 3.0759739875793457,
+      "learning_rate": 1.2758293838862561e-05,
+      "loss": 0.1757,
+      "step": 2000
+    },
+    {
+      "epoch": 1.2795905310300704,
+      "eval_accuracy": 0.90656,
+      "eval_f1": 0.9086071987480439,
+      "eval_loss": 0.2567562162876129,
+      "eval_precision": 0.8891271056661562,
+      "eval_recall": 0.92896,
+      "eval_runtime": 58.5167,
+      "eval_samples_per_second": 427.228,
+      "eval_steps_per_second": 26.71,
+      "step": 2000
+    },
+    {
+      "epoch": 1.3435700575815739,
+      "grad_norm": 4.443939208984375,
+      "learning_rate": 1.228436018957346e-05,
+      "loss": 0.1916,
+      "step": 2100
+    },
+    {
+      "epoch": 1.4075495841330774,
+      "grad_norm": 11.637112617492676,
+      "learning_rate": 1.181042654028436e-05,
+      "loss": 0.1829,
+      "step": 2200
+    },
+    {
+      "epoch": 1.471529110684581,
+      "grad_norm": 5.834052562713623,
+      "learning_rate": 1.133649289099526e-05,
+      "loss": 0.1833,
+      "step": 2300
+    },
+    {
+      "epoch": 1.5355086372360844,
+      "grad_norm": 5.50422477722168,
+      "learning_rate": 1.086255924170616e-05,
+      "loss": 0.1702,
+      "step": 2400
+    },
+    {
+      "epoch": 1.599488163787588,
+      "grad_norm": 14.709617614746094,
+      "learning_rate": 1.0388625592417063e-05,
+      "loss": 0.189,
+      "step": 2500
+    },
+    {
+      "epoch": 1.599488163787588,
+      "eval_accuracy": 0.91096,
+      "eval_f1": 0.9126647834274952,
+      "eval_loss": 0.2622799873352051,
+      "eval_precision": 0.8955189405605174,
+      "eval_recall": 0.93048,
+      "eval_runtime": 57.0885,
+      "eval_samples_per_second": 437.917,
+      "eval_steps_per_second": 27.379,
+      "step": 2500
+    },
+    {
+      "epoch": 1.6634676903390915,
+      "grad_norm": 1.3613829612731934,
+      "learning_rate": 9.914691943127963e-06,
+      "loss": 0.2136,
+      "step": 2600
+    },
+    {
+      "epoch": 1.727447216890595,
+      "grad_norm": 5.129843235015869,
+      "learning_rate": 9.445497630331755e-06,
+      "loss": 0.1955,
+      "step": 2700
+    },
+    {
+      "epoch": 1.7914267434420985,
+      "grad_norm": 11.221867561340332,
+      "learning_rate": 8.971563981042654e-06,
+      "loss": 0.1888,
+      "step": 2800
+    },
+    {
+      "epoch": 1.855406269993602,
+      "grad_norm": 16.80147361755371,
+      "learning_rate": 8.497630331753554e-06,
+      "loss": 0.1715,
+      "step": 2900
+    },
+    {
+      "epoch": 1.9193857965451055,
+      "grad_norm": 1.4080605506896973,
+      "learning_rate": 8.023696682464456e-06,
+      "loss": 0.159,
+      "step": 3000
+    },
+    {
+      "epoch": 1.9193857965451055,
+      "eval_accuracy": 0.91048,
+      "eval_f1": 0.9090982940698619,
+      "eval_loss": 0.2924627661705017,
+      "eval_precision": 0.9233498349834983,
+      "eval_recall": 0.89528,
+      "eval_runtime": 57.9115,
+      "eval_samples_per_second": 431.693,
+      "eval_steps_per_second": 26.989,
+      "step": 3000
+    },
+    {
+      "epoch": 1.983365323096609,
+      "grad_norm": 10.077709197998047,
+      "learning_rate": 7.554502369668247e-06,
+      "loss": 0.1986,
+      "step": 3100
+    },
+    {
+      "epoch": 2.0473448496481126,
+      "grad_norm": 0.11581742018461227,
+      "learning_rate": 7.080568720379148e-06,
+      "loss": 0.1298,
+      "step": 3200
+    },
+    {
+      "epoch": 2.111324376199616,
+      "grad_norm": 0.21151360869407654,
+      "learning_rate": 6.606635071090048e-06,
+      "loss": 0.08,
+      "step": 3300
+    },
+    {
+      "epoch": 2.1753039027511196,
+      "grad_norm": 0.4802148938179016,
+      "learning_rate": 6.132701421800948e-06,
+      "loss": 0.1072,
+      "step": 3400
+    },
+    {
+      "epoch": 2.239283429302623,
+      "grad_norm": 21.213685989379883,
+      "learning_rate": 5.658767772511849e-06,
+      "loss": 0.1465,
+      "step": 3500
+    },
+    {
+      "epoch": 2.239283429302623,
+      "eval_accuracy": 0.91056,
+      "eval_f1": 0.9118226989510214,
+      "eval_loss": 0.3255835473537445,
+      "eval_precision": 0.8991289469590916,
+      "eval_recall": 0.92488,
+      "eval_runtime": 58.5259,
+      "eval_samples_per_second": 427.161,
+      "eval_steps_per_second": 26.706,
+      "step": 3500
+    },
+    {
+      "epoch": 2.3032629558541267,
+      "grad_norm": 2.2766849994659424,
+      "learning_rate": 5.1848341232227494e-06,
+      "loss": 0.1111,
+      "step": 3600
+    },
+    {
+      "epoch": 2.36724248240563,
+      "grad_norm": 2.196903944015503,
+      "learning_rate": 4.710900473933649e-06,
+      "loss": 0.0955,
+      "step": 3700
+    },
+    {
+      "epoch": 2.4312220089571337,
+      "grad_norm": 24.438621520996094,
+      "learning_rate": 4.23696682464455e-06,
+      "loss": 0.1145,
+      "step": 3800
+    },
+    {
+      "epoch": 2.495201535508637,
+      "grad_norm": 0.4384997487068176,
+      "learning_rate": 3.7630331753554506e-06,
+      "loss": 0.1342,
+      "step": 3900
+    },
+    {
+      "epoch": 2.5591810620601407,
+      "grad_norm": 7.266367435455322,
+      "learning_rate": 3.2890995260663512e-06,
+      "loss": 0.1028,
+      "step": 4000
+    },
+    {
+      "epoch": 2.5591810620601407,
+      "eval_accuracy": 0.91268,
+      "eval_f1": 0.9119225337905992,
+      "eval_loss": 0.31132665276527405,
+      "eval_precision": 0.9199023199023199,
+      "eval_recall": 0.90408,
+      "eval_runtime": 57.7956,
+      "eval_samples_per_second": 432.559,
+      "eval_steps_per_second": 27.044,
+      "step": 4000
+    },
+    {
+      "epoch": 2.6231605886116443,
+      "grad_norm": 0.180605947971344,
+      "learning_rate": 2.8151658767772515e-06,
+      "loss": 0.1003,
+      "step": 4100
+    },
+    {
+      "epoch": 2.6871401151631478,
+      "grad_norm": 7.690706729888916,
+      "learning_rate": 2.3412322274881517e-06,
+      "loss": 0.1095,
+      "step": 4200
+    },
+    {
+      "epoch": 2.7511196417146513,
+      "grad_norm": 5.688648700714111,
+      "learning_rate": 1.8672985781990523e-06,
+      "loss": 0.0973,
+      "step": 4300
+    },
+    {
+      "epoch": 2.815099168266155,
+      "grad_norm": 0.07725273072719574,
+      "learning_rate": 1.3933649289099526e-06,
+      "loss": 0.0937,
+      "step": 4400
+    },
+    {
+      "epoch": 2.8790786948176583,
+      "grad_norm": 0.1056542843580246,
+      "learning_rate": 9.194312796208532e-07,
+      "loss": 0.1014,
+      "step": 4500
+    },
+    {
+      "epoch": 2.8790786948176583,
+      "eval_accuracy": 0.91452,
+      "eval_f1": 0.9144344344344344,
+      "eval_loss": 0.3255852460861206,
+      "eval_precision": 0.9153507014028056,
+      "eval_recall": 0.91352,
+      "eval_runtime": 58.1033,
+      "eval_samples_per_second": 430.268,
+      "eval_steps_per_second": 26.9,
+      "step": 4500
+    },
+    {
+      "epoch": 2.943058221369162,
+      "grad_norm": 1.3683459758758545,
+      "learning_rate": 4.4549763033175363e-07,
+      "loss": 0.1032,
+      "step": 4600
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 4689,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 4967527449600000.0,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoints/checkpoint-4689/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c927d2cb16dc987623e74b58eaecf59b19812c28268af85b7198d40b318a1776
+size 5432

checkpoints/checkpoint-4689/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

config.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "activation": "gelu",
+  "architectures": [
+    "DistilBertForSequenceClassification"
+  ],
+  "attention_dropout": 0.1,
+  "dim": 768,
+  "dropout": 0.1,
+  "dtype": "float32",
+  "hidden_dim": 3072,
+  "initializer_range": 0.02,
+  "max_position_embeddings": 512,
+  "model_type": "distilbert",
+  "n_heads": 12,
+  "n_layers": 6,
+  "pad_token_id": 0,
+  "problem_type": "single_label_classification",
+  "qa_dropout": 0.1,
+  "seq_classif_dropout": 0.2,
+  "sinusoidal_pos_embds": false,
+  "tie_weights_": true,
+  "transformers_version": "4.57.1",
+  "vocab_size": 30522
+}

logs/events.out.tfevents.1763396606.Pierruno.82048.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:39e87e4f41d7162016580efc7f422161e365100da1aabbf4ac0076e8f02bdc57
+size 14610

logs/events.out.tfevents.1763397273.Pierruno.82048.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cba1329b2d62b1a8b42ae1b04f012e99377a488266851e62ae59d2d4350bf8ff
+size 560

logs/events.out.tfevents.1763397463.Pierruno.78916.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:371f32d43819eb8a8f78fe673491637b4fc325bc8bc65ea3a367a72ef0acc83d
+size 19191

logs/events.out.tfevents.1763398281.Pierruno.78916.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:620907bfea8efd0bb7b38bc214bacc83443342d2e3a201cbab628a23520f1a56
+size 560

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4b04b3e3b130814f7e7803af2368c5f5fbe982ce36c08b473f16acc665256bfa
+size 267832560

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

test_results.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+  "eval_loss": 0.3255852460861206,
+  "eval_accuracy": 0.91452,
+  "eval_f1": 0.9144344344344344,
+  "eval_precision": 0.9153507014028056,
+  "eval_recall": 0.91352,
+  "eval_runtime": 56.7332,
+  "eval_samples_per_second": 440.659,
+  "eval_steps_per_second": 27.55,
+  "epoch": 3.0
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,56 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": true,
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "DistilBertTokenizer",
+  "unk_token": "[UNK]"
+}

training_args.json ADDED Viewed

	@@ -0,0 +1,21 @@

+{
+  "model_name": "distilbert-base-uncased",
+  "max_length": 256,
+  "batch_size": 16,
+  "epochs": 3,
+  "learning_rate": 2e-05,
+  "warmup_ratio": 0.1,
+  "weight_decay": 0.01,
+  "gradient_accumulation_steps": 1,
+  "max_train_samples": 25000,
+  "max_eval_samples": null,
+  "output_dir": "./sentiment_model_transformer",
+  "seed": 42,
+  "save_steps": 500,
+  "eval_steps": 500,
+  "logging_steps": 100,
+  "hf_username": "PierrunoYT",
+  "repo_name": "sentiment-imdb-distilbert",
+  "no_cuda": false,
+  "fp16": false
+}

vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff