phuocsang commited on
Commit
7ccac51
·
verified ·
1 Parent(s): 6c3ae7d

Finished contrastive learning stage 1

Browse files
.gitattributes CHANGED
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
 
 
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
36
+ tokenizer.json filter=lfs diff=lfs merge=lfs -text
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 1024,
3
+ "pooling_mode_cls_token": false,
4
+ "pooling_mode_mean_tokens": true,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,618 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ tags:
3
+ - sentence-transformers
4
+ - sentence-similarity
5
+ - feature-extraction
6
+ - dense
7
+ - generated_from_trainer
8
+ - dataset_size:5600
9
+ - loss:BatchHardTripletLoss
10
+ base_model: FacebookAI/xlm-roberta-large
11
+ widget:
12
+ - source_sentence: 'Công ty truyền tải điện quốc gia Bồ Đào Nha là Redes Energéticas
13
+ Nacionais (REN), sử dụng mô hình phức tạp để dự báo thời tiết, đặc biệt là kiểu
14
+ gió, và các chương trình máy tính để tính toán năng lượng từ các nhà máy năng
15
+ lượng tái tạo khác nhau. Trước khi phát triển năng lượng mặt trời và gió, Bồ Đào
16
+ Nha sản xuất điện từ các nhà máy thuỷ điện trên các sông trong nhiều thập niên.
17
+ Các chương trình mới kết hợp năng lượng gió và nước: Các tua bin gió bơm nước
18
+ lên phía trên vào ban đêm, tức thời gian có gió mạnh nhất; sau đó nước chảy xuống
19
+ vào ban ngày, tạo ra điện năng khi có nhu cầu sử dụng cao hơn. Hệ thống phân phối
20
+ của Bồ Đào Nha nay là một đường hai chiều, thay vì chỉ phân phối điện năng, nó
21
+ còn thu điện năng từ các máy phát nhỏ như các tấm pin năng lượng mặt trời trên
22
+ mái nhà. Chính phủ khuyến khích phân phối như vậy bằng cách áp mức giá cao cho
23
+ những người bán điện năng từ quang năng sản xuất trên mái nhà.[SEP]Chính phủ Bồ
24
+ Đào Nha không sử dụng hệ thống phân phối điện một chiều chỉ để thu điện từ các
25
+ tấm pin mặt trời. Thực tế, Bồ Đào Nha đã phát triển một chương trình tích hợp
26
+ năng lượng gió và nước, sử dụng các tua bin gió để bơm nước lên cao, tối ưu hóa
27
+ việc'
28
+ sentences:
29
+ - 'Sự tồn tại của con người ở những vùng vốn có điều kiện khắc nghiệt đối với cuộc
30
+ sống như Nam Cực hay ngoài không gian rất hạn chế về mặt thời gian và chỉ tồn
31
+ tại ở những lĩnh vực thám hiểm, nghiên cứu khoa học, quân sự và công nghiệp. Nhất
32
+ là sự sống trên không gian vũ trụ, trong quá khứ và hiện tại, chưa có quá 13 người
33
+ từng sống trên không gian cùng lúc. Giữa năm 1969 và 1972, chỉ có hai người bước
34
+ đi cùng lúc trên Mặt Trăng. Đến năm 2006, chưa có một thiên thể tự nhiên nào khác
35
+ có bước chân của con người ngoại trừ Mặt Trăng mặc dù luôn có con người hiện diện
36
+ trên trạm không gian quốc tế từ ngày 31 tháng 10 năm 2000. Từ năm 1800 đến 2000,
37
+ dân số con người đã tăng lên 6 lần: từ 1 tỉ lên 5 tỉ. Vào năm 2004, khoảng 2,5
38
+ tỉ trên 6,3 tỉ người (39.7%) sống trong những vùng nông thôn, và con số này sẽ
39
+ tăng mạnh trong thế kỉ 21. Vấn đề mà những người trong những đô thị lớn đang gặp
40
+ phải là ô nhiễm, tội ác và nghèo đói, nhất là ở trung tâm và những khu vực vùng
41
+ ven.[SEP]Không, thiên thể duy nhất có dấu chân của con người tính đến năm 2006
42
+ là Mặt Trăng, không phải sao Hỏa.'
43
+ - Roma đã bắt đầu sáp nhập các tỉnh mới của nó từ thế kỷ thứ 3 trước Công nguyên,
44
+ và quá trình này kéo dài suốt bốn thế kỷ trước khi lãnh thổ của nó đạt đến mức
45
+ cực đỉnh, và theo chiều hướng là một "đế chế" trong khi vẫn cai trị như là một
46
+ nhà nước cộng hòa. Các tỉnh Cộng hòa thì được cai quản bởi các viên cựu chấp chính
47
+ quan và cựu pháp quan, vốn được bầu hàng năm và nắm giữ quyền lực tuyệt đối .
48
+ Với việc tập trung quá nhiều của cải cũng như sức mạnh quân đội trong tay của
49
+ một vài người thông qua quyền cai trị các tỉnh, nó đã trở thành nhân tố chính
50
+ trong quá trình chuyển từ nhà nnước cộng hòa sang chế độ quân chủ chuyên chế.[SEP]việc
51
+ tập trung quyền lực trong tay một vài người thông qua quyền cai trị các tỉnh đã
52
+ củng cố thêm thể chế cộng hòa của La Mã, giúp duy trì sự ổn định và ngăn chặn
53
+ chuyển đổi sang chế độ quân chủ.
54
+ - Đa số dân chúng sử dụng một trong những ngôn ngữ Iran, gồm ngôn ngữ chính thức,
55
+ tiếng Ba Tư. Trong khi về số lượng, tỷ lệ và cách định nghĩa các dân tộc khác
56
+ nhau ở Iran hiện vẫn còn đang gây tranh cãi, các nhóm sắc tộc chính và thiểu số
57
+ gồm người Ba Tư (51%), Azeris (24%), Gilaki và Mazandarani (8%), Kurds (7%), Ả
58
+ rập (3%), Baluchi (2%), Lurs (2%), Turkmens (2%), Qashqai, Armenia, Ba Tư Do Thái,
59
+ Gruzia, người Assyri, Circassia, Tats,Pashtuns và các nhóm khác (1%). Số lượng
60
+ người sử dụng tiếng Ba Tư là tiếng mẹ đẻ tại Iran được ước tính khoảng 40 triệu.
61
+ Phương tiện truyền thông đại chúng, hệ thống giáo dục và việc di cư tới các thành
62
+ phố lớn khiến đa số dân Iran nói và hiểu được tiếng Ba Tư. Iran có tỷ lệ biết
63
+ đọc viết là 79.4%. Đa số dân Iran là người Hồi giáo; 90% thuộc nhánh Shi'a của
64
+ Đạo Hồi, tôn giáo chính thức của quốc gia và khoảng 9% thuộc nhánh Sunni (đa số
65
+ họ là người Kurds). Số còn lại là thiểu số theo các tôn giáo phi Hồi giáo, chủ
66
+ yếu là Bahá'ís, Mandeans, Hỏa giáo, Do Thái giáo và Thiên chúa giáo. Ba nhóm thiểu
67
+ số tôn giáo cuối cùng ở trên được công nhận và bảo vệ, và được dành riêng ghế
68
+ bên trong Majles (Nghị viện). Trái lại, Đức tin Bahá'í, thiểu số tôn giáo lớn
69
+ nhất ở Iran, không được chính thức công nhân, và từng bị đàn áp trong thời gian
70
+ tồn tại ở Iran. Từ cuộc cách mạng năm 1979 những vụ đàn áp và hành quyết ngày
71
+ càng tăng. Những vụ đàn áp Bahá'ís gần đây khiến Cao uỷ nhân quyền Liên hiệp quốc
72
+ phải đề cập trong bản báo cáo ngày 20 tháng 3 năm 2006 rằng "những hành động đàn
73
+ áp tôn giáo ngày càng tăng gần đây cho thấy tình hình đối xử với các thiểu số
74
+ tôn giáo ở Iran, trên thực tế, đang xấu đi."[SEP]Người dân Iran chủ yếu giao tiếp
75
+ bằng tiếng Ba Tư, ngôn ngữ chính thức của quốc gia.
76
+ - source_sentence: 'Sau khi chiếm hết được ba tỉnh miền Đông Nam Kỳ vào năm 1862,
77
+ thực dân Pháp dần xóa bỏ tên gọi tỉnh Định Tường cùng hệ thống hành chính phủ
78
+ huyện cũ thời nhà Nguyễn, đồng thời đặt ra các hạt Thanh tra. Lúc bấy giờ, hạt
79
+ Thanh tra Kiến Tường được thành lập trên địa bàn huyện Kiến Phong thuộc phủ Kiến
80
+ Tường, tỉnh Định Tường cũ. Trụ sở hạt Thanh tra Kiến Tường đặt tại Cao Lãnh. Lúc
81
+ đầu, hạt Thanh tra tạm gọi tên theo tên các phủ huyện cũ, sau mới đổi tên gọi
82
+ theo địa điểm đóng trụ sở. Về sau, trụ sở được dời từ Cao Lãnh (thuộc thôn Mỹ
83
+ Trà) đến Cần Lố (thuộc thôn Mỹ Thọ). Chính vì vậy, hạt Thanh tra Kiến Tường cũng
84
+ được đổi tên thành hạt Thanh tra Cần Lố; bao gồm 3 tổng: Phong Hòa, Phong Phú
85
+ và Phong Thạnh.[SEP]Pháp đã chiếm hết các tỉnh miền Đông Nam Kỳ vào năm 1862,
86
+ trong bối cảnh toàn cầu hóa dần lan rộng, khi nhiều nước châu Âu tìm cách mở rộng
87
+ thuộc địa để khai thác tài nguyên và mở rộng thị trường cho sản phẩm công nghiệp
88
+ của họ.'
89
+ sentences:
90
+ - Ở Thụy Sĩ, đa số đơn (single majorities) có thẩm quyền ở cấp thành thành thị và
91
+ tiểu bang (canton và bán canton), nhưng ở cấp trung ương, đa số kép (double majorities)
92
+ phải có trong những vấn đề có liên quan tới hiến pháp. Mục đích của đa số kép
93
+ chỉ để bảo đảm cho tính hợp pháp của các luật do nhân dân lập ra. Trước hết, đa
94
+ số kép là sự tán thành bởi đa số phiếu và tiếp theo là đa số ở cấp tiểu bang nơi
95
+ đa số phiếu đó đồng ý với cách thức bỏ phiếu. Một luật do công dân đề xướng không
96
+ thể nào được thông qua ở Thụy Sĩ ở cấp trung ương nều một nhóm đa số người dân
97
+ tán thành nhưng đa số của các tiểu bang không tán thành (Kobach, 1993). Để trưng
98
+ cầu dân ý hay đề xướng trong những điều khoản chung thì đa số phiếu bầu là đã
99
+ đủ (Hiến pháp Thụy Sĩ, 2005).[SEP]Đa số kép được lập ra để giảm thiểu tính hợp
100
+ pháp của các luật do nhân dân lập ra, đảm bảo rằng chỉ những luật ít được ủng
101
+ hộ mới có thể được thông qua.
102
+ - Lý do tại sao triều đình Arsaces đã chọn năm 247 trước Công nguyên là năm đầu
103
+ tiên của thời đại Arsaces là không chắc chắn. A.D.H. Bivar kết luận rằng đây là
104
+ năm vương quốc Seleukos đánh mất quyền kiểm soát Parthia của về tay Andragoras,
105
+ vị phó vương được bổ nhiệm đã nổi dậy chống lại họ. Do đó, Arsaces I đã "tính
106
+ thời gian thuộc triều đại của mình" từ thời điểm này khi sự kiểm soát của Seleukos
107
+ với Parthia đã chấm dứt. Tuy nhiên, Vesta Sarkhosh Curtis khẳng định rằng điều
108
+ này chỉ đơn giản là năm Arsaces được tôn lên làm t��c trưởng của bộ tộc Parni.
109
+ Homa Katouzian và Gene Ralph Garthwaite lại cho rằng đó là năm Arsaces chinh phục
110
+ Parthia và đánh đuổi các quan lại của nhà Seleukos, nhưng Curtis, và Maria Brosius
111
+ lại cho rằng Andragoras đã không bị lật đổ bởi triều đại Arsaces cho đến năm 238
112
+ trước Công nguyên.[SEP]Theo Homa Katouzian và Gene Ralph Garthwaite, năm 247 TCN
113
+ đánh dấu sự kiện Arsaces ký hiệp ước hòa bình với vương quốc Seleukos, mặc dù
114
+ Vesta Sarkhosh Curtis cho rằng không có sự kiện quan trọng nào xảy ra năm đó.
115
+ - 'Đồng Tháp là tỉnh rất nghèo về tài nguyên khoáng sản, chủ yếu có: Cát xây dựng
116
+ các loại, phân bố ở ven sông, cồn hoặc các cù lao, là mặt hàng chiến lược của
117
+ tỉnh trong xây dựng. Sét gạch ngói có trong phù sa cổ, trầm tích biển, trầm tích
118
+ sông, trầm tích đầm lầy, phân bố rộng khắp trên địa bàn tỉnh với trữ lượng lớn.
119
+ Sét cao lanh có nguồn trầm tích sông, phân bố ở các huyện phía bắc tỉnh. Than
120
+ bùn có nguồn gốc trầm tích từ thế kỷ thứ IV, phân bố ở huyện Tam Nông, Tháp Mười
121
+ với trữ lượng khoảng 2 triệu m3.[SEP]Trong trầm tích sông ở Đồng Tháp, ngoài sét
122
+ gạch ngói và sét cao lanh, không có mỏ kim cương. Tuy nhiên, khu vực này từng
123
+ được khảo sát cho mục đích khai thác vàng, mặc dù không có kết quả đáng kể.'
124
+ - source_sentence: 'Tuy Washington chưa bao giờ được vào biên chế lục quân Anh mà
125
+ ông mong ước nhưng trong những năm tháng chiến tranh đó, người thanh niên này
126
+ đã tích lũy những kỹ năng về lãnh đạo, chính trị và quân sự quý giá. Ông luôn
127
+ tiếp cận quan sát các chiến thuật quân sự của người Anh, nắm bắt và hiểu rõ các
128
+ điểm yếu và điểm mạnh của người Anh. Điều này đã được chứng minh là vô giá trong
129
+ suốt cuộc Cách mạng Mỹ sau này. Ông chứng tỏ là một người can đảm và kiên cường
130
+ trong những tình huống cực kỳ khó khăn nhất trong đó có các vụ tai biến và tháo
131
+ lui. Ông đã phát triển ra một phong cách chỉ huy: đem hết sức lực, khả năng chịu
132
+ đựng và sự dũng cảm của mình vào trận chiến. Đối với các chiến sĩ của mình, ông
133
+ xuất hiện như một vị chỉ huy tự nhiên và họ tuyệt đối tuân lệnh ông mà không thắc
134
+ mắc điều gì. Washington học cách tổ chức, huấn luyện và kỷ luật các đơn vị trung
135
+ đoàn và đại đội của mình. Qua đọc sách, quan sát và các cuộc trò chuyện với những
136
+ sĩ quan nghiệp vụ, ông học được những căn bản về chiến thuật chiến trường cũng
137
+ như hiểu rõ các vấn đề tổ chức và tiếp vận. Ông hiểu biết tổng thể về chiến lược,
138
+ đặc biệt là việc tìm ra những địa điểm địa lý chiến lược. Sử gia Ron Chernow có
139
+ ý kiến rằng vì Washington chán nản khi thương nghị với các viên chức chính phủ
140
+ trong suốt cuộc xung đột nên ông đã tán thành những lợi ích của một chính phủ
141
+ quốc gia mạnh mẽ với một cơ quan hành chính mạnh mẽ để có thể đạt được kết quả;
142
+ các sử gia khác có chiều hướng gán ghép ông có thái độ này đối với chính phủ khi
143
+ ông phục vụ Chiến tranh Cách mạng Mỹ sau này.[Ghi chú 1] Ông nảy sinh một ý tưởng
144
+ rất tiêu cực về giá trị của địa phương quân. Coi họ có vẻ không đáng tin cậy,
145
+ rất bất kỉ luật, và chỉ phục vụ rất ngắn hạn khi so sánh với quân chính quy. Mặt
146
+ khác, kinh nghiệm chỉ huy của ông có giới hạn nhiều nhất là 1 ngàn binh sĩ và
147
+ chỉ ở những địa hình biên cương xa xôi khắc hẳn với những tình thế đô thị mà ông
148
+ đối diện trong suốt cuộc cách mạng ở các thành phố Boston, New York, Trenton và
149
+ Philadelphia.[SEP]Phong cách chỉ huy của Washington chủ yếu được định hình bởi
150
+ kinh nghiệm lâu dài của ông trong biên chế lục quân Anh, nơi ông học được cách
151
+ tổ chức và kỷ luật quân đội một cách chặt chẽ, điều mà ông áp dụng triệt để.'
152
+ sentences:
153
+ - 'Với tổng diện tích 2.096 km² và hơn 8 triệu dân (số liệu 2014), Thành phố Hồ
154
+ Chí Minh là đô thị lớn thứ 2 Việt Nam về diện tích (sau Hà Nội) và lớn nhất về
155
+ dân số. 11 quận nội thành của Sài Gòn trước đây được chia lại thành 8 quận. Bốn
156
+ quận Gò Vấp, Phú Nhuận, Bình Thạnh, Tân Bình được thành lập. Khu vực ngoại thành
157
+ gồm 5 huyện: Thủ Đức, Hóc Môn, Củ Chi, Bình Chánh, Nhà Bè. Năm 1978, thành phố
158
+ nhận thêm huyện Duyên Hải của tỉnh Đồng Nai. Năm 1979, các đơn vị hành chính cơ
159
+ sở được phân chia lại, toàn thành phố có 261 phường, 86 xã. Sau đợt điều chỉnh
160
+ tiếp theo vào năm 1989, thành phố còn 182 phường và 100 xã, thị trấn. Đến năm
161
+ 1997, phân chia hành chính của thành phố lại thay đổi, gồm 17 quận, 5 huyện với
162
+ 303 phường xã, thị trấn. Hiện nay, Thành phố Hồ Chí Minh gồm 19 quận nội thành
163
+ và 5 huyện ngoại thành với 322 phường, xã và thị trấn.[SEP]Tổng diện tích của
164
+ Thành phố Hồ Chí Minh là 2.096 km² và dân số hơn 8 triệu người theo số liệu năm
165
+ 2014.'
166
+ - Jackson đến tập dượt tại Staples Center vào khoảng 6:30 chiều thứ 4, ngày 24 tháng
167
+ 6 năm 2009. Ông than phiền một cách bông đùa về căn bệnh viêm thanh quản và diễn
168
+ tập lúc 9 giờ tối, khi "trông vẫn rất tuyệt và đầy năng lượng." Buổi tập diễn
169
+ ra quá nửa đêm. Sáng hôm sau, Jackson không ra khỏi phòng. Bác sĩ riêng của Jackson,
170
+ Conrad Murray phát biểu ông nhìn thấy Jackson trên giường trong tình trạng không
171
+ thở nhưng mạch vẫn còn đập yếu và tiến hành hồi sức tim nhưng không có hiệu quả.
172
+ Sở cứu hỏa Los Angeles nhận được một cuộc gọi 9-1-1 lúc 12:22 chiều (theo giờ
173
+ PDT, 19:22 UTC). Xe cứu thương tới nơi muộn mất 3 phút 22 giây và đưa Jackson
174
+ đi cấp cứu tại trung tâm y tế Ronald Reagan UCLA. Ông được báo cáo ngừng thở và
175
+ việc hô hấp nhân tạo vẫn tiếp tục diễn ra sau hơn 1 tiếng đến UCLA vào lúc 1:13
176
+ chiều (20:13 UTC). Ông chính thức qua đời vào lúc 2:26 chiều giờ địa phương (21:25
177
+ UTC), chưa đầy 3 tuần trước khi đêm diễn This Is It đầu tiên bắt đầu tại Luân
178
+ Đôn, với toàn bộ buổi hòa nhạc đều cháy vé.[SEP]Conrad Murray, người từng là bác
179
+ sĩ riêng của Jackson, đã không tham gia vào việc chăm sóc sức khỏe của ông vào
180
+ ngày ông qua đời do tai nạn xe hơi, điều đó hoàn toàn do một nhóm bác sĩ khác
181
+ phụ trách.
182
+ - Harvard được thành lập vào năm 1636 theo sau cuộc bỏ phiếu của Cơ quan Lập pháp
183
+ vùng Thuộc địa Vịnh Massachusetts. Ban đầu được gọi là New College hay "trường
184
+ đại học ở New Towne". Năm 1638, trường đại học này trở thành nơi có chiếc máy
185
+ in đầu tiên được biết là có mặt ở Bắc Mỹ, do con tàu John of London chở từ Anh
186
+ sang. Năm 1639, trường được đổi tên thành Harvard College, theo tên mục sư John
187
+ Harvard (1607-1638), một cựu sinh viên của Viện Đại học Cambridge ở Anh, người
188
+ đã hiến tặng tài sản cho trường. John Harvard khi mất đã để lại cho trường 779
189
+ bảng Anh (một nửa gia sản của ông) và chừng 400 cuốn sách.[SEP]John Harvard đã
190
+ cống hiến cho Harvard College 779 bảng Anh và khoảng 400 cuốn sách. Chiếc máy
191
+ in đầu tiên ở Bắc Mỹ không phải do ông mang từ Anh sang.
192
+ - source_sentence: Vườn quốc gia này là một bộ phận của vùng sinh thái Trường Sơn.
193
+ Cho đến nay, chủng loại thực vật lớn nhất ở đây là rừng thường xanh ẩm, rậm nhiệt
194
+ đới trên đá vôi cao 800 m so với mực nước biển. 96,2% diện tích khu vườn quốc
195
+ gia này được rừng bao phủ; 92,2% là rừng nguyên sinh; 74,7% (110.476 ha) khu vườn
196
+ quốc gia này là rừng ẩm nhiệt đới thường xanh trên đá vôi có độ cao dưới 800 m;
197
+ 8,5% (12.600 ha) là rừng ẩm nhiệt đới thường xanh trên đá vôi có độ cao trên 800
198
+ m; 8,3% (12.220 ha) là rừng ẩm nhiệt đới trên đất núi đất có cao độ dưới 800 m,
199
+ 1,3% (1.925 ha) là bụi cây và cỏ và cây rải rác trên đá vôi; 2% (2.950 ha) là
200
+ cỏ, bụi cây và cây rải rác trên núi đất; 180 ha là rừng tre nứa và mây song; thảm
201
+ cây nông nghiệp 521 ha.[SEP]Vườn quốc gia Phong Nha - Kẻ Bàng là một phần của
202
+ vùng sinh thái Đông Nam Á, nổi bật với rừng rậm khô nhiệt đới trên đá vôi cao
203
+ 1000 m so với mực nước biển.
204
+ sentences:
205
+ - Tại Hội nghị Yalta vào tháng 2 năm 1945, lãnh đạo Liên Xô Joseph Stalin kêu gọi
206
+ lập "các vùng đệm" tại châu Á và châu Âu. Stalin tin rằng Liên Xô phải có tiếng
207
+ nói quyết định tại Trung Quốc và để đổi lại Liên Xô sẽ tham chiến chống Nhật Bản
208
+ "hai hoặc ba tuần sau khi Đức đầu hàng." Ngày 6 tháng 8 năm 1945, Liên Xô tuyên
209
+ chiến với Đế quốc Nhật Bản và vào ngày 8 tháng 8 bắt đầu tấn công phía bắc Bán
210
+ đảo Triều Tiên. Như đã thỏa thuận với Mỹ, Liên Xô dừng quân lại ở vĩ tuyến 38
211
+ độ bắc. Quân đội Hoa Kỳ ở phần phía nam của bán đảo đầu tháng 9 năm 1945. Nhiều
212
+ người Triều Tiên đã tổ chức chính trị trước khi quân đội Hoa Kỳ đến.[SEP]Sai.
213
+ Trước khi quân đội Hoa Kỳ đến, khu vực phía nam vĩ tuyến 38 độ bắc đã được Liên
214
+ Xô chiếm đóng và họ đã thiết lập một chính quyền quân quản để chuẩn bị cho sự
215
+ chuyển giao quyền lực.
216
+ - Roma phát triển rất nhanh sau chiến tranh, là một trong các động lực chính đằng
217
+ sau "kỳ tích kinh tế Ý" về tái thiết và hiện đại hoá hậu chiến trong thập niên
218
+ 1950 và đầu thập niên 1960. Trong giai đoạn này, những năm la dolce vita ("cuộc
219
+ sống ngọt ngào"), Roma trở thành một thành phố thời thượng, với các phim cổ điển
220
+ đại chúng như Ben Hur, Quo Vadis, Roman Holiday và La Dolce Vita được quay tại
221
+ xưởng phim Cinecittà có tính biểu tượng của thành phố. Xu hướng tăng trưởng dân
222
+ số tiếp tục cho đến giữa thập niên 1980, khi comune đạt trên 2,8 triệu cư dân.
223
+ Sau đó, dân số bắt đầu giảm chậm do cư dân bắt đầu chuyển đến các vùng ngoại ô
224
+ lân cận Roma.[SEP]Roma phát triển rất nhanh sau chiến tranh, đóng góp vào "kỳ
225
+ tích kinh tế Ý". Thành phố này trở thành trung tâm sản xuất phim quốc tế, thu
226
+ hút nhiều ngôi sao Hollywood đến làm việc tại Cinecittà, tăng cường du lịch và
227
+ thương mại.
228
+ - Sư đoàn biệt động Texas (Texas Ranger Division) của Cơ quan Công an Texas (Texas
229
+ Department of Public Safety) là một thể chế thực thi luật pháp có thẩm quyền trên
230
+ toàn bang. Trong nhiều năm qua, Biệt động Texas điều tra các vụ phạm tội khác
231
+ nhau, từ giết người đến tham nhũng chính trị. Họ hành động trong vai trò của cảnh
232
+ sát chống bạo động và trinh thám, bảo vệ thống đốc, truy nã đối tượng phạm tội,
233
+ và hoạt động như một lực lượng bán quân sự của nước cộng hòa và bang. Biệt động
234
+ Texas do Stephen F. Austin thành lập không chính thức vào năm 1823 và được thành
235
+ lập chính thức vào năm 1835. Biệt động có vai trò trong một vài sự kiện quan trọng
236
+ trong lịch sử Texas và một số vụ án hình sự được biết đến nhiều nhất trong lịch
237
+ sử của vùng Cựu Tây Hoa Kỳ.[SEP]Biệt động Texas, được thành lập vào năm 2000,
238
+ chủ yếu điều tra các vụ trộm cắp vặt và vi phạm giao thông nhẹ, tập trung vào
239
+ các vấn đề nhỏ lẻ trong cộng đồng địa phương.
240
+ - source_sentence: Trong năm 2005, mức thu nhập bình quân của người dân độ tuổi trên
241
+ 18 là 3.317 đô la cho phụ nữ thất nghiệp, có gia đình gốc Á cho tới 55.935 đô
242
+ la cho đàn ông có việc làm toàn thời gian gốc Á. Theo cục thống kê dân số Mỹ,
243
+ nam giới có mức thu nhập cao hơn phụ nữ trong khi người Mỹ gốc châu Á và Âu kiếm
244
+ nhiều tiền hơn người Mỹ gốc Phi và Tây Ban Nha. Thu nhập bình quân chung của tất
245
+ cả người dân trên 18 tuổi là 24.062 đô la (và 32.140 đô la cho độ tuổi từ 25 trở
246
+ lên) trong năm 2005.[SEP]Không, thông tin không đúng. Người Mỹ gốc Á không có
247
+ mức thu nhập thấp nhất. Vào năm 2005, thu nhập bình quân của đàn ông gốc Á có
248
+ việc làm toàn thời gian là 55.935 đô la mỗi năm.
249
+ sentences:
250
+ - Từ cuối năm 1950, Quân đội Nhân dân Việt Nam bắt đầu thực hiện các trận chiến
251
+ quy mô lớn theo kiểu kinh điển. Nhưng họ đã phải chịu thiệt hại lớn, các chiến
252
+ dịch Trung du, Đường 18 và Hà Nam Ninh bị thất bại trước quân Pháp do tướng Jean
253
+ de Lattre de Tassigny chỉ huy. Chiến dịch Hòa Bình mà de Lattre mở vào tháng 11
254
+ năm 1951 đã trở thành "cối xay thịt" đối với cả hai bên. Khi trận đánh kết thúc
255
+ vào tháng 2 năm 1952, Quân đội Nhân dân Việt Nam chịu thương vong không nhỏ, nhưng
256
+ họ đã học được cách đối phó với chiến thuật và vũ khí của Pháp, và họ đã thâm
257
+ nhập được sâu hơn vào trong vòng cung phòng thủ của Pháp.[SEP]Quân đội Nhân dân
258
+ Việt Nam hoàn toàn từ bỏ c��c trận chiến quy mô lớn và chỉ tập trung vào chiến
259
+ thuật du kích, tránh đối đầu trực tiếp với quân Pháp, điều này giúp họ tránh được
260
+ thương vong đáng kể.
261
+ - Nhận ra rằng ông không thể nào giữ được Jerusalem cho dù ông có chiếm được nó,
262
+ Richard ra lệnh rút lui. Có vài vụ xung đột nhỏ đã nổ ra giữa quân của Richard
263
+ và Saladin khi hai người đàm phán để giải quyết cuộc xung đột, vì cả hai đều nhận
264
+ ra rằng họ khó giữ vững được vị trí của mình nếu xung đột tiếp diễn. Richard biết
265
+ rằng cả Philip và chính em trai ông John đều đang âm mưu chống lại mình. Tuy nhiên,
266
+ Saladin buộc Richard phải san bằng các công sự mà ông đã xây dựng tại Ascalon
267
+ và vài việc khác. Richard thực hiện một nỗ lực cuối cùng để giành thế thượng phong
268
+ trên bàn đàm phán bằng việc xâm lược Ai Cập – nguồn tiếp vận chính của Saladin
269
+ – nhưng thất bại. Cuối cùng, thời gian không còn nữa. Việc trở về không thể trì
270
+ hoãn được nữa vì cả Philip và John đều đang lợi dụng sự vắng mặt của ông. Ông
271
+ và Saladin đi đến một thỏa thuận vào ngày 2 tháng 9, 1192; bao gồm việc phá hủy
272
+ các công sự của Ascalon, cùng với việc cho phép người hành hương và thương nhân
273
+ Cơ đốc đến Jerusalem. Nó cũng bao gồm một hòa ước ba năm.[SEP]Richard cho xâm
274
+ lược Ai Cập với mục đích chính là thiết lập một liên minh vững chắc với Saladin,
275
+ nhằm củng cố mối quan hệ hòa bình lâu dài giữa hai bên và đảm bảo sự ổn định trong
276
+ khu vực.
277
+ - 'Vào đầu công nguyên, xuất hiện hai vương quốc của người Malayo - Polynesia lớn
278
+ trên bán đảo Ðông Dương: Phù Nam và Chiêm Thành. Lãnh thổ Phù Nam rộng từ Vịnh
279
+ Thái Lan đến Biển Hồ nhưng ảnh hưởng tỏa lên Thượng Lào và Bắc Miến Ðiện. Chiêm
280
+ Thành gồm nhiều vương quốc nhỏ sinh hoạt độc lập với nhau dọc các đồng bằng eo
281
+ hẹp miền Trung đến chân dãy Trường Sơn về phía Tây: Lâm Ấp hay Indrapura (Bình
282
+ Trị Thiên), Amaravati (Quảng Nam), Vijaya (Bình Định), Aryaru (Phú Yên), Kauthara
283
+ (Khánh Hòa) và Panduranga (Phan Rang). Sinh hoạt chính của người Malayo - Polynesia
284
+ là trồng lúa nước và buôn bán. Ðể tìm thêm nguồn hàng quí hiếm trao đổi với các
285
+ thuyền buôn, người Malayo - Polynesia mở rộng tầm kiểm soát lên các vùng rừng
286
+ núi đồng thời khuất phục luôn các nhóm dân cư bản địa đã có mặt từ trước, điển
287
+ hình điển hình nhóm Bih ven krong A-na mà ngày nay được gọi là Ê Đê Bih với kỹ
288
+ năng dệt, trang sức, làm gốm, trồng lúa nước. Nhóm Bih là nhóm Malayo - Polynesia
289
+ định cư và chạy nạn sớm vào sâu nhất trong lục địa, họ đem theo kỹ thuật trồng
290
+ lúa nước ven sông,dệt vải thô, trang sức hạt, và kỹ nghệ làm gốm thô. Theo chiều
291
+ lịch sử, danh tự Ê Đê có nguồn gốc từ cách đọc âm của người Champa, bia ký Champa
292
+ cổ nhất tại tháp Po Nagar vào khoảng thế kỷ VIII đã ghi chép về tộc danh Rang
293
+ Đê vùng sông Nha Trang, sông Jing, sông Hing. Những bia ký sớm nhất của Champa
294
+ thế kỷ VIII - đã có nhắc đến nhóm Rangde ven sông Ea trang (Nha Trang). Trong
295
+ Bia Po Nagar được dựng năm 965 tại tháp Po Nagar (Nha Trang, Khánh Hòa): Nội dung
296
+ bia như sau:Vào khoảng năm 703 - 706 lịch saka (781 - 784 Công lịch), vua Satyavarman
297
+ cho dựng một linga (linh vật) thờ thần Siva và lập cháu mình lên làm vua Vikrantavarman(vì
298
+ theo chế độ mẫu hệ nên cậu truyền ngôi cho cháu theo dòng mẹ)... và đức Vua có
299
+ thu phục được người Randaya (Rang Đê).Rất có thể từ Rang Đê sau này bị biến âm
300
+ thành Ra đê, Rađêy hay Ê đê. Ngoài ra, người Ê đê còn tự nhận là nhóm tộc Đêgar,
301
+ Êđê Êga Anak Đêgar - người trên Cao Nguyên. Đêgar là từ tiếng Ấn Độ srakrit Deccan,
302
+ và bản thân nó lại có nguồn gốc từ tiếng Phạn दक्षिण, Đêkṣarṇa, nghĩa là "cao
303
+ nguyên phía nam".[SEP]Người Malayo - Polynesia đầu công nguyên đã phát triển mạnh
304
+ mẽ ngành công nghiệp ô tô và hàng không, đây là các ngành kinh tế chủ yếu của
305
+ họ, đóng góp lớn vào sự thịnh vượng của vương quốc.'
306
+ pipeline_tag: sentence-similarity
307
+ library_name: sentence-transformers
308
+ ---
309
+
310
+ # SentenceTransformer based on FacebookAI/xlm-roberta-large
311
+
312
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [FacebookAI/xlm-roberta-large](https://huggingface.co/FacebookAI/xlm-roberta-large). It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
313
+
314
+ ## Model Details
315
+
316
+ ### Model Description
317
+ - **Model Type:** Sentence Transformer
318
+ - **Base model:** [FacebookAI/xlm-roberta-large](https://huggingface.co/FacebookAI/xlm-roberta-large) <!-- at revision c23d21b0620b635a76227c604d44e43a9f0ee389 -->
319
+ - **Maximum Sequence Length:** 512 tokens
320
+ - **Output Dimensionality:** 1024 dimensions
321
+ - **Similarity Function:** Cosine Similarity
322
+ <!-- - **Training Dataset:** Unknown -->
323
+ <!-- - **Language:** Unknown -->
324
+ <!-- - **License:** Unknown -->
325
+
326
+ ### Model Sources
327
+
328
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
329
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
330
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
331
+
332
+ ### Full Model Architecture
333
+
334
+ ```
335
+ SentenceTransformer(
336
+ (0): Transformer({'max_seq_length': 512, 'do_lower_case': False, 'architecture': 'XLMRobertaModel'})
337
+ (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
338
+ )
339
+ ```
340
+
341
+ ## Usage
342
+
343
+ ### Direct Usage (Sentence Transformers)
344
+
345
+ First install the Sentence Transformers library:
346
+
347
+ ```bash
348
+ pip install -U sentence-transformers
349
+ ```
350
+
351
+ Then you can load this model and run inference.
352
+ ```python
353
+ from sentence_transformers import SentenceTransformer
354
+
355
+ # Download from the 🤗 Hub
356
+ model = SentenceTransformer("phuocsang/contrastive-encoder")
357
+ # Run inference
358
+ sentences = [
359
+ 'Trong năm 2005, mức thu nhập bình quân của người dân độ tuổi trên 18 là 3.317 đô la cho phụ nữ thất nghiệp, có gia đình gốc Á cho tới 55.935 đô la cho đàn ông có việc làm toàn thời gian gốc Á. Theo cục thống kê dân số Mỹ, nam giới có mức thu nhập cao hơn phụ nữ trong khi người Mỹ gốc châu Á và Âu kiếm nhiều tiền hơn người Mỹ gốc Phi và Tây Ban Nha. Thu nhập bình quân chung của tất cả người dân trên 18 tuổi là 24.062 đô la (và 32.140 đô la cho độ tuổi từ 25 trở lên) trong năm 2005.[SEP]Không, thông tin không đúng. Người Mỹ gốc Á không có mức thu nhập thấp nhất. Vào năm 2005, thu nhập bình quân của đàn ông gốc Á có việc làm toàn thời gian là 55.935 đô la mỗi năm.',
360
+ 'Vào đầu công nguyên, xuất hiện hai vương quốc của người Malayo - Polynesia lớn trên bán đảo Ðông Dương: Phù Nam và Chiêm Thành. Lãnh thổ Phù Nam rộng từ Vịnh Thái Lan đến Biển Hồ nhưng ảnh hưởng tỏa lên Thượng Lào và Bắc Miến Ðiện. Chiêm Thành gồm nhiều vương quốc nhỏ sinh hoạt độc lập với nhau dọc các đồng bằng eo hẹp miền Trung đến chân dãy Trường Sơn về phía Tây: Lâm Ấp hay Indrapura (Bình Trị Thiên), Amaravati (Quảng Nam), Vijaya (Bình Định), Aryaru (Phú Yên), Kauthara (Khánh Hòa) và Panduranga (Phan Rang). Sinh hoạt chính của người Malayo - Polynesia là trồng lúa nước và buôn bán. Ðể tìm thêm nguồn hàng quí hiếm trao đổi với các thuyền buôn, người Malayo - Polynesia mở rộng tầm kiểm soát lên các vùng rừng núi đồng thời khuất phục luôn các nhóm dân cư bản địa đã có mặt từ trước, điển hình điển hình nhóm Bih ven krong A-na mà ngày nay được gọi là Ê Đê Bih với kỹ năng dệt, trang sức, làm gốm, trồng lúa nước. Nhóm Bih là nhóm Malayo - Polynesia định cư và chạy nạn sớm vào sâu nhất trong lục địa, họ đem theo kỹ thuật trồng lúa nước ven sông,dệt vải thô, trang sức hạt, và kỹ nghệ làm gốm thô. Theo chiều lịch sử, danh tự Ê Đê có nguồn gốc từ cách đọc âm của người Champa, bia ký Champa cổ nhất tại tháp Po Nagar vào khoảng thế kỷ VIII đã ghi chép về tộc danh Rang Đê vùng sông Nha Trang, sông Jing, sông Hing. Những bia ký sớm nhất của Champa thế kỷ VIII - đã có nhắc đến nhóm Rangde ven sông Ea trang (Nha Trang). Trong Bia Po Nagar được dựng năm 965 tại tháp Po Nagar (Nha Trang, Khánh Hòa): Nội dung bia như sau:Vào khoảng năm 703 - 706 lịch saka (781 - 784 Công lịch), vua Satyavarman cho dựng một linga (linh vật) thờ thần Siva và lập cháu mình lên làm vua Vikrantavarman(vì theo chế độ mẫu hệ nên cậu truyền ngôi cho cháu theo dòng mẹ)... và đức Vua có thu phục được người Randaya (Rang Đê).Rất có thể từ Rang Đê sau này bị biến âm thành Ra đê, Rađêy hay Ê đê. Ngoài ra, người Ê đê còn tự nhận là nhóm tộc Đêgar, Êđê Êga Anak Đêgar - người trên Cao Nguyên. Đêgar là từ tiếng Ấn Độ srakrit Deccan, và bản thân nó lại có nguồn gốc từ tiếng Phạn दक्षिण, Đêkṣarṇa, nghĩa là "cao nguyên phía nam".[SEP]Người Malayo - Polynesia đầu công nguyên đã phát triển mạnh mẽ ngành công nghiệp ô tô và hàng không, đây là các ngành kinh tế chủ yếu của họ, đóng góp lớn vào sự thịnh vượng của vương quốc.',
361
+ 'Nhận ra rằng ông không thể nào giữ được Jerusalem cho dù ông có chiếm được nó, Richard ra lệnh rút lui. Có vài vụ xung đột nhỏ đã nổ ra giữa quân của Richard và Saladin khi hai người đàm phán để giải quyết cuộc xung đột, vì cả hai đều nhận ra rằng họ khó giữ vững được vị trí của mình nếu xung đột tiếp diễn. Richard biết rằng cả Philip và chính em trai ông John đều đang âm mưu chống lại mình. Tuy nhiên, Saladin buộc Richard phải san bằng các công sự mà ông đã xây dựng tại Ascalon và vài việc khác. Richard thực hiện một nỗ lực cuối cùng để giành thế thượng phong trên bàn đàm phán bằng việc xâm lược Ai Cập – nguồn tiếp vận chính của Saladin – nhưng thất bại. Cuối cùng, thời gian không còn nữa. Việc trở về không thể trì hoãn được nữa vì cả Philip và John đều đang lợi dụng sự vắng mặt của ông. Ông và Saladin đi đến một thỏa thuận vào ngày 2 tháng 9, 1192; bao gồm việc phá hủy các công sự của Ascalon, cùng với việc cho phép người hành hương và thương nhân Cơ đốc đến Jerusalem. Nó cũng bao gồm một hòa ước ba năm.[SEP]Richard cho xâm lược Ai Cập với mục đích chính là thiết lập một liên minh vững chắc với Saladin, nhằm củng cố mối quan hệ hòa bình lâu dài giữa hai bên và đảm bảo sự ổn định trong khu vực.',
362
+ ]
363
+ embeddings = model.encode(sentences)
364
+ print(embeddings.shape)
365
+ # [3, 1024]
366
+
367
+ # Get the similarity scores for the embeddings
368
+ similarities = model.similarity(embeddings, embeddings)
369
+ print(similarities)
370
+ # tensor([[1.0000, 1.0000, 1.0000],
371
+ # [1.0000, 1.0000, 1.0000],
372
+ # [1.0000, 1.0000, 1.0000]])
373
+ ```
374
+
375
+ <!--
376
+ ### Direct Usage (Transformers)
377
+
378
+ <details><summary>Click to see the direct usage in Transformers</summary>
379
+
380
+ </details>
381
+ -->
382
+
383
+ <!--
384
+ ### Downstream Usage (Sentence Transformers)
385
+
386
+ You can finetune this model on your own dataset.
387
+
388
+ <details><summary>Click to expand</summary>
389
+
390
+ </details>
391
+ -->
392
+
393
+ <!--
394
+ ### Out-of-Scope Use
395
+
396
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
397
+ -->
398
+
399
+ <!--
400
+ ## Bias, Risks and Limitations
401
+
402
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
403
+ -->
404
+
405
+ <!--
406
+ ### Recommendations
407
+
408
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
409
+ -->
410
+
411
+ ## Training Details
412
+
413
+ ### Training Dataset
414
+
415
+ #### Unnamed Dataset
416
+
417
+ * Size: 5,600 training samples
418
+ * Columns: <code>sentence_0</code> and <code>label</code>
419
+ * Approximate statistics based on the first 1000 samples:
420
+ | | sentence_0 | label |
421
+ |:--------|:--------------------------------------------------------------------------------------|:-------------------------------------------------------------------|
422
+ | type | string | int |
423
+ | details | <ul><li>min: 145 tokens</li><li>mean: 267.06 tokens</li><li>max: 512 tokens</li></ul> | <ul><li>0: ~33.00%</li><li>1: ~35.10%</li><li>2: ~31.90%</li></ul> |
424
+ * Samples:
425
+ | sentence_0 | label |
426
+ |:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------|
427
+ | <code>Chính phủ liên bang thiết lập mọi nỗ lực mới trong nước để ngăn chặn các vụ tấn công tương lai. Đạo luật Yêu nước Mỹ gây nhiều tranh cãi tạo điều kiện gia tăng quyền hạn của chính phủ để theo dõi thông tin liên lạc và tháo vỡ các hạn chế pháp lý về chia sẻ thông tin giữa các cơ quan tình báo và thi hành luật pháp liên bang. Một cơ quan cấp nội các, được gọi là bộ nội an được thành lập để lãnh đạo và điều hợp các hoạt động chống khủng bố của chính phủ liên bang. Một trong số các nỗ lực chống khủng bố này, đặc biệt là việc chính phủ liên quan cầm giữ các phạm nhân tại nhà tù tại vịnh Guantanamo, dẫn đến các cáo buộc rằng chính phủ liên bang vị phạm nhân quyền.[SEP]Không, việc giam giữ các phạm nhân tại vịnh Guantanamo dẫn đến cáo buộc vi phạm nhân quyền, không phải quyền tự do ngôn luận được Hiến pháp Hoa Kỳ bảo đảm.</code> | <code>0</code> |
428
+ | <code>Việc hợp nhất này đã tước đoạt chính sách đối ngoại độc lập của Bồ Đào Nha và dẫn đến việc họ tham gia Chiến tranh Tám mươi Năm giữa Tây Ban Nha và Hà Lan. Cuộc chiến này làm tổn hại quan hệ giữa Bồ Đào Nha và đồng minh lâu năm nhất của họ là Anh, và để mất cảng mậu dịch chiến lược Hormuz tại vùng vịnh Ba Tư. Từ năm 1595 đến năm 1663, Chiến tranh Hà Lan-Bồ Đào Nha chủ yếu liên quan đến việc các công ty Hà Lan xâm phạm nhiều thuộc địa và lợi ích thương nghiệp của Bồ Đào Nha tại Brasil, châu Phi, Ấn Độ và Viễn Đông, khiến Bồ Đào Nha bị mất thế độc quyền mậu dịch hàng hải trên Ấn Độ Dương.[SEP]Các công ty Hà Lan đã xâm phạm nhiều thuộc địa và lợi ích thương nghiệp của Bồ Đào Nha tại Brasil, châu Phi, Ấn Độ và Viễn Đông trong khoảng thời gian từ năm 1595 đến năm 1663.</code> | <code>0</code> |
429
+ | <code>Bắc Ireland có cơ quan hành pháp và lập pháp địa phương, thi hành quyền lực được Anh phân quyền. Đứng đầu cơ quan hành pháp là bộ trưởng thứ nhất và thứ trưởng thứ nhất, còn các bộ trưởng được phân bổ theo tỷ lệ đại biểu của mỗi đảng trong nghị hội. Thủ đô Bắc Ireland là Belfast. Quyền lực chính trị tối hậu thuộc về Chính phủ Anh, Chính phủ Anh từng có các giai đoạn cai trị trực tiếp Bắc Ireland. Bắc Ireland được phân 18 ghế trong số 650 ghế của Hạ nghị viện Anh. Quốc vụ khanh về Bắc Ireland là một chức vụ cấp nội các trong chính phủ của Anh. Bắc Ireland tạo thành một trong ba khu vực phạm vi quyền hạn tư pháp riêng biệt của Anh, song Toà án Tối cao Anh là toà án tối cao.[SEP]Hạ nghị viện Anh có tổng cộng 700 ghế đại biểu, trong đó Bắc Ireland chiếm 18 ghế. Điều này cho phép họ có tiếng nói mạnh mẽ hơn trong các quyết định chính trị của Vương quốc Anh.</code> | <code>1</code> |
430
+ * Loss: [<code>BatchHardTripletLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#batchhardtripletloss)
431
+
432
+ ### Training Hyperparameters
433
+ #### Non-Default Hyperparameters
434
+
435
+ - `per_device_train_batch_size`: 32
436
+ - `per_device_eval_batch_size`: 32
437
+ - `num_train_epochs`: 2
438
+ - `multi_dataset_batch_sampler`: round_robin
439
+
440
+ #### All Hyperparameters
441
+ <details><summary>Click to expand</summary>
442
+
443
+ - `overwrite_output_dir`: False
444
+ - `do_predict`: False
445
+ - `eval_strategy`: no
446
+ - `prediction_loss_only`: True
447
+ - `per_device_train_batch_size`: 32
448
+ - `per_device_eval_batch_size`: 32
449
+ - `per_gpu_train_batch_size`: None
450
+ - `per_gpu_eval_batch_size`: None
451
+ - `gradient_accumulation_steps`: 1
452
+ - `eval_accumulation_steps`: None
453
+ - `torch_empty_cache_steps`: None
454
+ - `learning_rate`: 5e-05
455
+ - `weight_decay`: 0.0
456
+ - `adam_beta1`: 0.9
457
+ - `adam_beta2`: 0.999
458
+ - `adam_epsilon`: 1e-08
459
+ - `max_grad_norm`: 1
460
+ - `num_train_epochs`: 2
461
+ - `max_steps`: -1
462
+ - `lr_scheduler_type`: linear
463
+ - `lr_scheduler_kwargs`: {}
464
+ - `warmup_ratio`: 0.0
465
+ - `warmup_steps`: 0
466
+ - `log_level`: passive
467
+ - `log_level_replica`: warning
468
+ - `log_on_each_node`: True
469
+ - `logging_nan_inf_filter`: True
470
+ - `save_safetensors`: True
471
+ - `save_on_each_node`: False
472
+ - `save_only_model`: False
473
+ - `restore_callback_states_from_checkpoint`: False
474
+ - `no_cuda`: False
475
+ - `use_cpu`: False
476
+ - `use_mps_device`: False
477
+ - `seed`: 42
478
+ - `data_seed`: None
479
+ - `jit_mode_eval`: False
480
+ - `use_ipex`: False
481
+ - `bf16`: False
482
+ - `fp16`: False
483
+ - `fp16_opt_level`: O1
484
+ - `half_precision_backend`: auto
485
+ - `bf16_full_eval`: False
486
+ - `fp16_full_eval`: False
487
+ - `tf32`: None
488
+ - `local_rank`: 0
489
+ - `ddp_backend`: None
490
+ - `tpu_num_cores`: None
491
+ - `tpu_metrics_debug`: False
492
+ - `debug`: []
493
+ - `dataloader_drop_last`: False
494
+ - `dataloader_num_workers`: 0
495
+ - `dataloader_prefetch_factor`: None
496
+ - `past_index`: -1
497
+ - `disable_tqdm`: False
498
+ - `remove_unused_columns`: True
499
+ - `label_names`: None
500
+ - `load_best_model_at_end`: False
501
+ - `ignore_data_skip`: False
502
+ - `fsdp`: []
503
+ - `fsdp_min_num_params`: 0
504
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
505
+ - `fsdp_transformer_layer_cls_to_wrap`: None
506
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
507
+ - `parallelism_config`: None
508
+ - `deepspeed`: None
509
+ - `label_smoothing_factor`: 0.0
510
+ - `optim`: adamw_torch_fused
511
+ - `optim_args`: None
512
+ - `adafactor`: False
513
+ - `group_by_length`: False
514
+ - `length_column_name`: length
515
+ - `ddp_find_unused_parameters`: None
516
+ - `ddp_bucket_cap_mb`: None
517
+ - `ddp_broadcast_buffers`: False
518
+ - `dataloader_pin_memory`: True
519
+ - `dataloader_persistent_workers`: False
520
+ - `skip_memory_metrics`: True
521
+ - `use_legacy_prediction_loop`: False
522
+ - `push_to_hub`: False
523
+ - `resume_from_checkpoint`: None
524
+ - `hub_model_id`: None
525
+ - `hub_strategy`: every_save
526
+ - `hub_private_repo`: None
527
+ - `hub_always_push`: False
528
+ - `hub_revision`: None
529
+ - `gradient_checkpointing`: False
530
+ - `gradient_checkpointing_kwargs`: None
531
+ - `include_inputs_for_metrics`: False
532
+ - `include_for_metrics`: []
533
+ - `eval_do_concat_batches`: True
534
+ - `fp16_backend`: auto
535
+ - `push_to_hub_model_id`: None
536
+ - `push_to_hub_organization`: None
537
+ - `mp_parameters`:
538
+ - `auto_find_batch_size`: False
539
+ - `full_determinism`: False
540
+ - `torchdynamo`: None
541
+ - `ray_scope`: last
542
+ - `ddp_timeout`: 1800
543
+ - `torch_compile`: False
544
+ - `torch_compile_backend`: None
545
+ - `torch_compile_mode`: None
546
+ - `include_tokens_per_second`: False
547
+ - `include_num_input_tokens_seen`: False
548
+ - `neftune_noise_alpha`: None
549
+ - `optim_target_modules`: None
550
+ - `batch_eval_metrics`: False
551
+ - `eval_on_start`: False
552
+ - `use_liger_kernel`: False
553
+ - `liger_kernel_config`: None
554
+ - `eval_use_gather_object`: False
555
+ - `average_tokens_across_devices`: False
556
+ - `prompts`: None
557
+ - `batch_sampler`: batch_sampler
558
+ - `multi_dataset_batch_sampler`: round_robin
559
+ - `router_mapping`: {}
560
+ - `learning_rate_mapping`: {}
561
+
562
+ </details>
563
+
564
+ ### Framework Versions
565
+ - Python: 3.12.6
566
+ - Sentence Transformers: 5.1.1
567
+ - Transformers: 4.56.0
568
+ - PyTorch: 2.8.0+cu129
569
+ - Accelerate: 1.10.1
570
+ - Datasets: 4.1.1
571
+ - Tokenizers: 0.22.0
572
+
573
+ ## Citation
574
+
575
+ ### BibTeX
576
+
577
+ #### Sentence Transformers
578
+ ```bibtex
579
+ @inproceedings{reimers-2019-sentence-bert,
580
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
581
+ author = "Reimers, Nils and Gurevych, Iryna",
582
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
583
+ month = "11",
584
+ year = "2019",
585
+ publisher = "Association for Computational Linguistics",
586
+ url = "https://arxiv.org/abs/1908.10084",
587
+ }
588
+ ```
589
+
590
+ #### BatchHardTripletLoss
591
+ ```bibtex
592
+ @misc{hermans2017defense,
593
+ title={In Defense of the Triplet Loss for Person Re-Identification},
594
+ author={Alexander Hermans and Lucas Beyer and Bastian Leibe},
595
+ year={2017},
596
+ eprint={1703.07737},
597
+ archivePrefix={arXiv},
598
+ primaryClass={cs.CV}
599
+ }
600
+ ```
601
+
602
+ <!--
603
+ ## Glossary
604
+
605
+ *Clearly define terms in order to be accessible across audiences.*
606
+ -->
607
+
608
+ <!--
609
+ ## Model Card Authors
610
+
611
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
612
+ -->
613
+
614
+ <!--
615
+ ## Model Card Contact
616
+
617
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
618
+ -->
config.json ADDED
@@ -0,0 +1,27 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "architectures": [
3
+ "XLMRobertaModel"
4
+ ],
5
+ "attention_probs_dropout_prob": 0.1,
6
+ "bos_token_id": 0,
7
+ "classifier_dropout": null,
8
+ "dtype": "float32",
9
+ "eos_token_id": 2,
10
+ "hidden_act": "gelu",
11
+ "hidden_dropout_prob": 0.1,
12
+ "hidden_size": 1024,
13
+ "initializer_range": 0.02,
14
+ "intermediate_size": 4096,
15
+ "layer_norm_eps": 1e-05,
16
+ "max_position_embeddings": 514,
17
+ "model_type": "xlm-roberta",
18
+ "num_attention_heads": 16,
19
+ "num_hidden_layers": 24,
20
+ "output_past": true,
21
+ "pad_token_id": 1,
22
+ "position_embedding_type": "absolute",
23
+ "transformers_version": "4.56.0",
24
+ "type_vocab_size": 1,
25
+ "use_cache": true,
26
+ "vocab_size": 250002
27
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,14 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "model_type": "SentenceTransformer",
3
+ "__version__": {
4
+ "sentence_transformers": "5.1.1",
5
+ "transformers": "4.56.0",
6
+ "pytorch": "2.8.0+cu129"
7
+ },
8
+ "prompts": {
9
+ "query": "",
10
+ "document": ""
11
+ },
12
+ "default_prompt_name": null,
13
+ "similarity_fn_name": "cosine"
14
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:7c3e2f05e2974abfd1c332991ebe1aec672b062ee969c646a92fb84379ea9d07
3
+ size 2239607176
modules.json ADDED
@@ -0,0 +1,14 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ }
14
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 512,
3
+ "do_lower_case": false
4
+ }
sentencepiece.bpe.model ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:cfc8146abe2a0488e9e2a0c56de7952f7c11ab059eca145a0a727afce0db2865
3
+ size 5069051
special_tokens_map.json ADDED
@@ -0,0 +1,15 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": "<s>",
3
+ "cls_token": "<s>",
4
+ "eos_token": "</s>",
5
+ "mask_token": {
6
+ "content": "<mask>",
7
+ "lstrip": true,
8
+ "normalized": false,
9
+ "rstrip": false,
10
+ "single_word": false
11
+ },
12
+ "pad_token": "<pad>",
13
+ "sep_token": "</s>",
14
+ "unk_token": "<unk>"
15
+ }
tokenizer.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:883b037111086fd4dfebbbc9b7cee11e1517b5e0c0514879478661440f137085
3
+ size 17082987
tokenizer_config.json ADDED
@@ -0,0 +1,55 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "<s>",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "<pad>",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "</s>",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "<unk>",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "250001": {
36
+ "content": "<mask>",
37
+ "lstrip": true,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "bos_token": "<s>",
45
+ "clean_up_tokenization_spaces": false,
46
+ "cls_token": "<s>",
47
+ "eos_token": "</s>",
48
+ "extra_special_tokens": {},
49
+ "mask_token": "<mask>",
50
+ "model_max_length": 512,
51
+ "pad_token": "<pad>",
52
+ "sep_token": "</s>",
53
+ "tokenizer_class": "XLMRobertaTokenizer",
54
+ "unk_token": "<unk>"
55
+ }