Matryoshka Representation Learning
Paper
• 2205.13147 • Published
• 25
This is a sentence-transformers model finetuned from bkai-foundation-models/vietnamese-bi-encoder on the json dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
SentenceTransformer(
(0): Transformer({'max_seq_length': 256, 'do_lower_case': False}) with Transformer model: RobertaModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("pvquaan/vietquan_legal_embedding_v3")
# Run inference
sentences = [
'Giả sử một Kế hoạch phòng ngừa, ứng phó sự cố hóa chất của một ngành sản xuất hóa chất cụ thể cần được phê duyệt, dựa vào Điều 41 Luật Hóa chất, những cơ quan nào chắc chắn sẽ tham gia vào quá trình này và lý do cho sự tham gia của họ là gì? Điều 41. Thẩm quyền phê duyệt Kế hoạch phòng ngừa, ứng phó sự cố hóa chất\n\nBộ quản lý ngành, lĩnh vực chủ trì, phối hợp với cơ quan quản lý nhà nước về phòng cháy, chữa cháy, Bộ Công thương và cơ quan quản lý nhà nước có liên quan tổ chức thẩm định, phê duyệt Kế hoạch phòng ngừa, ứng phó sự cố hóa chất.',
'Dựa trên Điều 41 Luật Hóa chất, khi một Kế hoạch phòng ngừa, ứng phó sự cố hóa chất của một ngành sản xuất hóa chất cụ thể cần được phê duyệt, các cơ quan sau đây chắc chắn sẽ tham gia:\n1. **Bộ quản lý ngành, lĩnh vực**: Đây sẽ là Bộ chủ trì, ví dụ như Bộ Công Thương (nếu ngành sản xuất hóa chất thuộc phạm vi quản lý của Bộ này) hoặc một Bộ chuyên ngành khác nếu có. Lý do là Điều 41 quy định rõ "Bộ quản lý ngành, lĩnh vực chủ trì" việc tổ chức thẩm định, phê duyệt.\n2. **Cơ quan quản lý nhà nước về phòng cháy, chữa cháy**: Cơ quan này sẽ phối hợp vì sự cố hóa chất thường tiềm ẩn nguy cơ cháy nổ cao, đòi hỏi chuyên môn về phòng cháy, chữa cháy để đảm bảo kế hoạch có các biện pháp ứng phó hiệu quả và an toàn.\n3. **Bộ Công thương**: Bộ này được nêu tên cụ thể trong điều luật là một trong các cơ quan phối hợp. Điều này phản ánh vai trò quản lý nhà nước của Bộ đối với lĩnh vực công nghiệp và thương mại hóa chất, bao gồm cả các hoạt động sản xuất.\n4. **Cơ quan quản lý nhà nước có liên quan**: Tùy thuộc vào tính chất cụ thể của ngành sản xuất hóa chất và các yếu tố liên quan (ví dụ: tác động môi trường, sức khỏe cộng đồng), các cơ quan khác như Bộ Tài nguyên và Môi trường, Bộ Y tế có thể được xem là "cơ quan quản lý nhà nước có liên quan" và sẽ phối hợp. Sự tham gia của các cơ quan này nhằm đảm bảo Kế hoạch được thẩm định và phê duyệt một cách toàn diện, bao quát mọi khía cạnh từ quản lý ngành, an toàn cháy nổ, đến các tác động tiềm ẩn khác, phù hợp với quy định tại Điều 41.',
'Dựa trên Điều 16 Luật Điện lực, đặc biệt là Khoản 1, một doanh nghiệp sản xuất linh kiện điện tử khi đầu tư dây chuyền sản xuất mới cần lưu ý và thực hiện các biện pháp sau để đảm bảo tuân thủ quy định về tiết kiệm điện:1. Áp dụng công nghệ và trang thiết bị hiệu suất cao: Doanh nghiệp phải ưu tiên lựa chọn và áp dụng công nghệ, trang thiết bị sử dụng điện có suất tiêu hao điện năng thấp (Khoản 1.b).2. Quản lý nhu cầu và hạn chế sử dụng giờ cao điểm: Doanh nghiệp cần xây dựng chương trình quản lý nhu cầu điện để giảm chênh lệch công suất giữa giờ cao điểm và giờ thấp điểm. Đồng thời, phải hạn chế tối đa việc sử dụng các thiết bị điện công suất lớn vào giờ cao điểm của biểu đồ phụ tải hệ thống điện (Khoản 1.a và 1.c).3. Đảm bảo hệ số công suất và tránh non tải: Doanh nghiệp phải đảm bảo hệ số công suất của các thiết bị điện theo tiêu chuẩn kỹ thuật và hạn chế tối đa việc sử dụng thiết bị điện non tải, gây lãng phí điện năng (Khoản 1.d).4. Thực hiện kiểm toán năng lượng: Doanh nghiệp có trách nhiệm tổ chức kiểm toán năng lượng theo định kỳ và thực hiện các giải pháp điều chỉnh sau khi có kết luận kiểm toán theo quy định của Bộ Công nghiệp (Khoản 1.đ).Mục đích rộng hơn của các yêu cầu này là không chỉ giảm chi phí cho doanh nghiệp mà còn góp phần vào việc sử dụng điện hiệu quả trên toàn hệ thống, giảm áp lực lên lưới điện quốc gia, đặc biệt trong các giờ cao điểm, và thúc đẩy phát triển bền vững.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
vlegal-benchInformationRetrievalEvaluator| Metric | Value |
|---|---|
| cosine_accuracy@1 | 0.0938 |
| cosine_accuracy@3 | 0.0984 |
| cosine_accuracy@5 | 0.0992 |
| cosine_accuracy@10 | 0.0995 |
| cosine_precision@1 | 0.0938 |
| cosine_precision@3 | 0.0328 |
| cosine_precision@5 | 0.0198 |
| cosine_precision@10 | 0.0099 |
| cosine_recall@1 | 0.0938 |
| cosine_recall@3 | 0.0984 |
| cosine_recall@5 | 0.0992 |
| cosine_recall@10 | 0.0995 |
| cosine_ndcg@10 | 0.0971 |
| cosine_mrr@10 | 0.0962 |
| cosine_map@100 | 0.0964 |
anchor and positive| anchor | positive | |
|---|---|---|
| type | string | string |
| details |
|
|
| anchor | positive |
|---|---|
Theo Điều 5 Luật Địa chất và Khoáng sản, hội nhập và hợp tác quốc tế về địa chất, khoáng sản được thực hiện trong những hoạt động cụ thể nào? Điều 5. Nguyên tắc hội nhập và hợp tác quốc tế về địa chất, khoáng sản |
Theo Khoản 1 Điều 5 Luật Địa chất và Khoáng sản, hội nhập và hợp tác quốc tế về địa chất, khoáng sản được thực hiện trong các hoạt động sau: nghiên cứu, điều tra cơ bản địa chất; điều tra địa chất về khoáng sản; hoạt động khoáng sản; và quản lý hoạt động khoáng sản. |
Theo Điều 5 của Luật, khi thực hiện hội nhập và hợp tác quốc tế về địa chất, khoáng sản, Việt Nam cần tuân thủ những nguyên tắc và khuôn khổ pháp lý nào? Điều 5. Nguyên tắc hội nhập và hợp tác quốc tế về địa chất, khoáng sản |
Khi thực hiện hội nhập và hợp tác quốc tế về địa chất, khoáng sản, Việt Nam cần tuân thủ một số nguyên tắc và khuôn khổ pháp lý quan trọng. Cụ thể, Khoản 1 Điều 5 quy định việc này phải đặt trong tổng thể chiến lược phát triển kinh tế - xã hội của đất nước, chiến lược địa chất, khoáng sản và công nghiệp khai khoáng. Về khuôn khổ pháp lý, Việt Nam phải tuân thủ Hiến pháp, pháp luật Việt Nam, Hiến chương Liên hợp quốc, và các điều ước quốc tế mà Cộng hòa xã hội chủ nghĩa Việt Nam là thành viên. Đồng thời, việc hợp tác phải bảo đảm phù hợp với đường lối và chính sách đối ngoại của Việt Nam, và tuân thủ nguyên tắc hợp tác bình đẳng, cùng có lợi trên cơ sở tôn trọng độc lập, chủ quyền và toàn vẹn lãnh thổ, không can thiệp vào công việc nội bộ của nhau. |
Giả sử có một tranh chấp quốc tế phát sinh liên quan đến địa chất, khoáng sản mà Việt Nam là một bên, việc giải quyết tranh chấp này sẽ được thực hiện theo nguyên tắc và cơ sở pháp lý nào theo Luật Địa chất và Khoáng sản? Hãy phân tích ý nghĩa của quy định này. Điều 5. Nguyên tắc hội nhập và hợp tác quốc tế về địa chất, khoáng sản |
Theo Khoản 2 Điều 5 Luật Địa chất và Khoáng sản, nếu có một tranh chấp quốc tế phát sinh liên quan đến địa chất, khoáng sản, việc giải quyết tranh chấp này sẽ được thực hiện thông qua các biện pháp hòa bình. Cơ sở pháp lý để giải quyết bao gồm thông lệ quốc tế, pháp luật quốc tế và pháp luật của các bên liên quan.Ý nghĩa của quy định này rất quan trọng. Thứ nhất, nó khẳng định cam kết của Việt Nam trong việc tuân thủ luật pháp quốc tế và các nguyên tắc giải quyết tranh chấp một cách hòa bình, tránh sử dụng vũ lực hoặc các biện pháp cưỡng ép. Thứ hai, việc tham chiếu đến “thông lệ quốc tế, pháp luật quốc tế và pháp luật của các bên liên quan” cho thấy sự linh hoạt và toàn diện trong việc áp dụng các quy tắc pháp lý, đảm bảo rằng việc giải quyết tranh chấp được thực hiện công bằng, minh bạch và có tính đến các yếu tố đặc thù của từng trường hợp. Cuối cùng, điều này cũng phù hợp với nguyên tắc hợp tác bình đẳng, cùng có lợi, tôn trọng độc lập, chủ quyền và không can thiệp vào công việc nộ... |
MatryoshkaLoss with these parameters:{
"loss": "MultipleNegativesRankingLoss",
"matryoshka_dims": [
768,
512,
256,
128,
64
],
"matryoshka_weights": [
1,
1,
1,
1,
1
],
"n_dims_per_step": -1
}
eval_strategy: stepsper_device_train_batch_size: 16gradient_accumulation_steps: 2num_train_epochs: 1warmup_ratio: 0.05fp16: Trueload_best_model_at_end: Trueoverwrite_output_dir: Falsedo_predict: Falseeval_strategy: stepsprediction_loss_only: Trueper_device_train_batch_size: 16per_device_eval_batch_size: 8per_gpu_train_batch_size: Noneper_gpu_eval_batch_size: Nonegradient_accumulation_steps: 2eval_accumulation_steps: Nonetorch_empty_cache_steps: Nonelearning_rate: 5e-05weight_decay: 0.0adam_beta1: 0.9adam_beta2: 0.999adam_epsilon: 1e-08max_grad_norm: 1.0num_train_epochs: 1max_steps: -1lr_scheduler_type: linearlr_scheduler_kwargs: {}warmup_ratio: 0.05warmup_steps: 0log_level: passivelog_level_replica: warninglog_on_each_node: Truelogging_nan_inf_filter: Truesave_safetensors: Truesave_on_each_node: Falsesave_only_model: Falserestore_callback_states_from_checkpoint: Falseno_cuda: Falseuse_cpu: Falseuse_mps_device: Falseseed: 42data_seed: Nonejit_mode_eval: Falseuse_ipex: Falsebf16: Falsefp16: Truefp16_opt_level: O1half_precision_backend: autobf16_full_eval: Falsefp16_full_eval: Falsetf32: Nonelocal_rank: 0ddp_backend: Nonetpu_num_cores: Nonetpu_metrics_debug: Falsedebug: []dataloader_drop_last: Falsedataloader_num_workers: 0dataloader_prefetch_factor: Nonepast_index: -1disable_tqdm: Falseremove_unused_columns: Truelabel_names: Noneload_best_model_at_end: Trueignore_data_skip: Falsefsdp: []fsdp_min_num_params: 0fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap: Noneaccelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed: Nonelabel_smoothing_factor: 0.0optim: adamw_torchoptim_args: Noneadafactor: Falsegroup_by_length: Falselength_column_name: lengthddp_find_unused_parameters: Noneddp_bucket_cap_mb: Noneddp_broadcast_buffers: Falsedataloader_pin_memory: Truedataloader_persistent_workers: Falseskip_memory_metrics: Trueuse_legacy_prediction_loop: Falsepush_to_hub: Falseresume_from_checkpoint: Nonehub_model_id: Nonehub_strategy: every_savehub_private_repo: Nonehub_always_push: Falsegradient_checkpointing: Falsegradient_checkpointing_kwargs: Noneinclude_inputs_for_metrics: Falseinclude_for_metrics: []eval_do_concat_batches: Truefp16_backend: autopush_to_hub_model_id: Nonepush_to_hub_organization: Nonemp_parameters: auto_find_batch_size: Falsefull_determinism: Falsetorchdynamo: Noneray_scope: lastddp_timeout: 1800torch_compile: Falsetorch_compile_backend: Nonetorch_compile_mode: Nonedispatch_batches: Nonesplit_batches: Noneinclude_tokens_per_second: Falseinclude_num_input_tokens_seen: Falseneftune_noise_alpha: Noneoptim_target_modules: Nonebatch_eval_metrics: Falseeval_on_start: Falseuse_liger_kernel: Falseeval_use_gather_object: Falseaverage_tokens_across_devices: Falseprompts: Nonebatch_sampler: batch_samplermulti_dataset_batch_sampler: proportional| Epoch | Step | Training Loss | vlegal-bench_cosine_ndcg@10 |
|---|---|---|---|
| 0.0334 | 100 | 0.325 | - |
| 0.0668 | 200 | 0.2055 | - |
| 0.1003 | 300 | 0.1912 | - |
| 0.1337 | 400 | 0.1665 | - |
| 0.1671 | 500 | 0.126 | - |
| 0.2005 | 600 | 0.1377 | - |
| 0.2339 | 700 | 0.136 | - |
| 0.2673 | 800 | 0.1197 | - |
| 0.3008 | 900 | 0.1157 | - |
| 0.3342 | 1000 | 0.1201 | 0.0972 |
| 0.3676 | 1100 | 0.0939 | - |
| 0.4010 | 1200 | 0.0972 | - |
| 0.4344 | 1300 | 0.0581 | - |
| 0.4678 | 1400 | 0.0885 | - |
| 0.5013 | 1500 | 0.0655 | - |
| 0.5347 | 1600 | 0.0681 | - |
| 0.5681 | 1700 | 0.0557 | - |
| 0.6015 | 1800 | 0.0791 | - |
| 0.6349 | 1900 | 0.0632 | - |
| 0.6683 | 2000 | 0.0683 | 0.0971 |
| 0.7018 | 2100 | 0.0611 | - |
| 0.7352 | 2200 | 0.0587 | - |
| 0.7686 | 2300 | 0.054 | - |
| 0.8020 | 2400 | 0.0393 | - |
| 0.8354 | 2500 | 0.0495 | - |
| 0.8688 | 2600 | 0.0349 | - |
| 0.9023 | 2700 | 0.041 | - |
| 0.9357 | 2800 | 0.0581 | - |
| 0.9691 | 2900 | 0.0486 | - |
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
@misc{kusupati2024matryoshka,
title={Matryoshka Representation Learning},
author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
year={2024},
eprint={2205.13147},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
Base model
bkai-foundation-models/vietnamese-bi-encoder