SentenceTransformer based on BAAI/bge-m3

This is a sentence-transformers model finetuned from BAAI/bge-m3. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Type: Sentence Transformer
Base model: BAAI/bge-m3
Maximum Sequence Length: 1024 tokens
Output Dimensionality: 1024 tokens
Similarity Function: Cosine Similarity

Model Sources

Documentation: Sentence Transformers Documentation
Repository: Sentence Transformers on GitHub
Hugging Face: Sentence Transformers on Hugging Face

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 1024, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("seongil-dn/bge-m3-kor-retrieval-451949-bs64-admin-50")
# Run inference
sentences = [
    '어떤 안건으로 제2차 그린철강위원회 관련 자동차협의회가 개최되었을까?',
    "제2차 그린철강위원회(6.18) 개최<br> 탄소중립 협의회 2차 회의 개최 경과 및 향후 일정 <br> <table><tbody><tr><td>시리즈</td><td>일정</td><td>협의회</td><td>주요 내용</td><td>구분</td></tr><tr><td> </td><td>6.2</td><td>정유</td><td>정유업계 탄소중립 기술개발 로드맵 추진방향 모색</td><td rowspan='2'>旣개최 </td></tr><tr><td> </td><td>6.15</td><td>석유화학</td><td> 석유화학 분야 2050 탄소중립을 위한 예타 R&D 기획·추진 현황</td></tr><tr><td> </td><td>6.18</td><td>철강</td><td>철강 분야 2050 감축시나리오 수립 동향, 탄소중립 R&D 로드맵 등</td><td>개최</td></tr><tr><td> </td><td>6.23</td><td>표준화</td><td>탄소중립 표준화 전략 추진현황 점검</td><td rowspan='11'>개최 예정 </td></tr><tr><td> </td><td>6월말</td><td>반도체 디스플레이 </td><td>반도체·디스플레이 탄소중립 R&D 로드맵 동향 및 탄소중립 방향성 논의</td></tr><tr><td> </td><td>6월말</td><td>섬유‧제지</td><td>섬유ㆍ제지산업 탄소중립 R&D전략 논의</td></tr><tr><td> </td><td>6월말</td><td>기계</td><td>기계산업 탄소중립 추진전략 논의(잠정)</td></tr><tr><td> </td><td>7월초</td><td>기술혁신</td><td>‘2050 탄소중립 R&D 전략’ 추진현황 논의</td></tr><tr><td> </td><td>7월초</td><td>자동차</td><td>자동차 2050 감축시나리오 수립 동향 및 탄소중립 로드맵 추진 현황</td></tr><tr><td> </td><td>7.1</td><td>조선</td><td>조선업 탄소중립 실현방안(잠정)</td></tr><tr><td> </td><td>7.2</td><td>바이오</td><td>협의체 운영방안 관련 주요 업계 간담회</td></tr><tr><td> </td><td>7.2</td><td>전기전자</td><td>전기전자 탄소중립 R&D 전략 논의 등 </td></tr><tr><td> </td><td>7.9</td><td>비철금속</td><td>비철금속업계 단기 온실가스 감축방안 논의 및 혁신사례 공유</td></tr><tr><td> </td><td>7.15</td><td>시멘트</td><td>시멘트산업 탄소중립 R&D 로드맵 및 탄소중립을 위한 제도개선 과제 마련</td></tr></tbody></table>",
    '제1차 녹색성장 이행점검회의 개최\n□ 김황식 국무총리는 9.7(수) 15:00 정부중앙청사에서 \uf000제1차 녹색성장 이행점검회의\uf000를 개최하여,\nㅇ ‘공공건축 에너지효율 향상’과 ‘그린카 산업발전 전략’ 등 두 건에 대한 이행점검결과를 보고받고 보완대책을 논의하였음 * 그린카는 에너지 소비 효율이 우수하고 무공해․저공해 자동차로서 ① 전력을 기반으로 하는 전기차, 연료전지차, ② 엔진을 기반으로 하는 하이브리드차, 클린디젤차 등을 의미\n□ 김총리는 이 자리에서 앞으로 매달 총리가 주재하는 관계장관회의를 통해 녹색성장 정책에 대한 이행실적을 점검하고,\nㅇ 그간 각 부처가 발표했던 주요 녹색성장정책들이 제대로 추진되고 있는지, 문제점이 있다면 그 이유가 무엇이며, 어떻게 해결해야 하는지 현실성 있는 해결방안을 마련해 나갈 계획임을 밝혔음 □ 김총리는 그동안 녹색성장 정책이 주로 계획수립 및 제도개선 과제에 집중하다보니, 상대적으로 집행단계에서 다소 미흡한 점이 있었다고 평가하며\nㅇ 녹색성장이 올바로 뿌리내릴 수 있도록 향후 중점 추진해야 할 핵심과제를 발굴하여 정책역량을 집중하고,\nㅇ 이를 통해 “국민에게 보고 드린 정책들은 반드시 제대로 추진해서 신뢰받는 정부가 되도록 해 달라”고 당부하였음 □ 녹색성장 정책 이행점검을 위해 녹색위는 그동안 관계부처, 민간전문가, 업계와 공동으로 점검을 실시하였으며, 점검결과는 다음과 같음 < ‘공공건축 에너지 효율’ 이행상황 점검 결과 >\n□ ‘08.8월 이후 국토부, 지경부, 환경부 등 7개 부처가 추진중인 3개분야 11개 정책을 점검한 결과\nㅇ 점검결과 신축청사의 에너지효율 기준 강화 등 제도개선과제는 정상추진\nㅇ 그린스쿨, 저탄소 녹색마을 등 실제 집행단계에 있는 과제는 보완이 필요',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Training Details

Training Hyperparameters

Non-Default Hyperparameters

per_device_train_batch_size: 64
learning_rate: 3e-05
num_train_epochs: 1
max_steps: 50
warmup_ratio: 0.05
fp16: True
batch_sampler: no_duplicates

All Hyperparameters

Click to expand

overwrite_output_dir: False
do_predict: False
eval_strategy: no
prediction_loss_only: True
per_device_train_batch_size: 64
per_device_eval_batch_size: 8
per_gpu_train_batch_size: None
per_gpu_eval_batch_size: None
gradient_accumulation_steps: 1
eval_accumulation_steps: None
torch_empty_cache_steps: None
learning_rate: 3e-05
weight_decay: 0.0
adam_beta1: 0.9
adam_beta2: 0.999
adam_epsilon: 1e-08
max_grad_norm: 1.0
num_train_epochs: 1
max_steps: 50
lr_scheduler_type: linear
lr_scheduler_kwargs: {}
warmup_ratio: 0.05
warmup_steps: 0
log_level: passive
log_level_replica: warning
log_on_each_node: True
logging_nan_inf_filter: True
save_safetensors: True
save_on_each_node: False
save_only_model: False
restore_callback_states_from_checkpoint: False
no_cuda: False
use_cpu: False
use_mps_device: False
seed: 42
data_seed: None
jit_mode_eval: False
use_ipex: False
bf16: False
fp16: True
fp16_opt_level: O1
half_precision_backend: auto
bf16_full_eval: False
fp16_full_eval: False
tf32: None
local_rank: 0
ddp_backend: None
tpu_num_cores: None
tpu_metrics_debug: False
debug: []
dataloader_drop_last: True
dataloader_num_workers: 0
dataloader_prefetch_factor: None
past_index: -1
disable_tqdm: False
remove_unused_columns: True
label_names: None
load_best_model_at_end: False
ignore_data_skip: False
fsdp: []
fsdp_min_num_params: 0
fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
fsdp_transformer_layer_cls_to_wrap: None
accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
deepspeed: None
label_smoothing_factor: 0.0
optim: adamw_torch
optim_args: None
adafactor: False
group_by_length: False
length_column_name: length
ddp_find_unused_parameters: None
ddp_bucket_cap_mb: None
ddp_broadcast_buffers: False
dataloader_pin_memory: True
dataloader_persistent_workers: False
skip_memory_metrics: True
use_legacy_prediction_loop: False
push_to_hub: False
resume_from_checkpoint: None
hub_model_id: None
hub_strategy: every_save
hub_private_repo: False
hub_always_push: False
gradient_checkpointing: False
gradient_checkpointing_kwargs: None
include_inputs_for_metrics: False
eval_do_concat_batches: True
fp16_backend: auto
push_to_hub_model_id: None
push_to_hub_organization: None
mp_parameters:
auto_find_batch_size: False
full_determinism: False
torchdynamo: None
ray_scope: last
ddp_timeout: 1800
torch_compile: False
torch_compile_backend: None
torch_compile_mode: None
dispatch_batches: None
split_batches: None
include_tokens_per_second: False
include_num_input_tokens_seen: False
neftune_noise_alpha: None
optim_target_modules: None
batch_eval_metrics: False
eval_on_start: False
eval_use_gather_object: False
batch_sampler: no_duplicates
multi_dataset_batch_sampler: proportional

Training Logs

Epoch	Step	Training Loss
0.0029	1	0.8675
0.0057	2	0.818
0.0086	3	0.796
0.0114	4	0.8434
0.0143	5	0.6103
0.0171	6	0.4978
0.02	7	0.5035
0.0229	8	0.3911
0.0257	9	0.4098
0.0286	10	0.4342
0.0314	11	0.4466
0.0343	12	0.3767
0.0371	13	0.409
0.04	14	0.3986
0.0429	15	0.3631
0.0457	16	0.4237
0.0486	17	0.3902
0.0514	18	0.3602
0.0543	19	0.3855
0.0571	20	0.3344
0.06	21	0.2704
0.0629	22	0.2904
0.0657	23	0.2804
0.0686	24	0.3425
0.0714	25	0.319
0.0743	26	0.279
0.0771	27	0.3664
0.08	28	0.2645
0.0829	29	0.2842
0.0857	30	0.3228
0.0886	31	0.2649
0.0914	32	0.2739
0.0943	33	0.2887
0.0971	34	0.2502
0.1	35	0.2585
0.1029	36	0.3137
0.1057	37	0.2745
0.1086	38	0.2831
0.1114	39	0.2643
0.1143	40	0.2659
0.1171	41	0.2668
0.12	42	0.2635
0.1229	43	0.3134
0.1257	44	0.2747
0.1286	45	0.2791
0.1314	46	0.2394
0.1343	47	0.3008
0.1371	48	0.2529
0.14	49	0.2582
0.1429	50	0.2536

Framework Versions

Python: 3.10.12
Sentence Transformers: 3.2.1
Transformers: 4.44.2
PyTorch: 2.3.1+cu121
Accelerate: 1.1.1
Datasets: 2.21.0
Tokenizers: 0.19.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

CachedMultipleNegativesRankingLoss

@misc{gao2021scaling,
    title={Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup},
    author={Luyu Gao and Yunyi Zhang and Jiawei Han and Jamie Callan},
    year={2021},
    eprint={2101.06983},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

Downloads last month: 5

Safetensors

Model size

0.6B params

Tensor type

F32

Model tree for seongil-dn/bge-m3-kor-retrieval-451949-bs64-admin-50

Base model

BAAI/bge-m3

Finetuned

(349)

this model