CrossEncoder based on jinaai/jina-reranker-v2-base-multilingual

This is a Cross Encoder model finetuned from jinaai/jina-reranker-v2-base-multilingual using the sentence-transformers library. It computes scores for pairs of texts, which can be used for text reranking and semantic search.

Model Details

Model Description

Model Sources

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import CrossEncoder

# Download from the 🤗 Hub
model = CrossEncoder("cuadron11/jina-reranker-v2-base-multilingual-contrastive-berria-4-mle5-100ev")
# Get scores for pairs of texts
pairs = [
    ['Noiz amaitzen da BSHko langileen aldi baterako lan erregulazioa?', 'Langileen helburua da multinazionalak atzera egitea bere erabakian, eta, horregatik, uste dute gobernuak presio egin dezakeela langileen alde. «Enpresak atzera egin dezan, modu aktibo batean lan egin dezala eskatzen diogu. Jar ditzatela euren bitarteko guztiak Ezkirozko BSHn jarduera egon dadin eta lanpostuak bermatu daitezen».\n\nMultinazionalak atzera egin dezan ahaleginduko dira. Aurten, 40 egunetik gorako aldi baterako lan erregulazioan egon dira langileak. Urtarrilaren 31n amaituko da, eta hori amaitu aurretik etorri da erabakia. UGTko Xabi Tejerok azaldu du ezin dituztela langileak babes gabe utzi: «Behar den tokietan defendituko ditugu lanpostuak».\n\nBSH, 35 URTE EUSKAL HERRIAN'],
    ['Noiz iritsiko da behingoz benetako eskualdaketa Kataluniako aldiriko trenen eskumena Generalitatera?', 'Aldirikoak behingoz Generalitatera\n\nEspainiako presidente ohi Jose Luis Rodriguez Zapateroren garaian —2010. urtean— eskualdatu zuten teorian Kataluniako aldiriko trenen eskumena Espainiako Gobernutik Generalitatera. Hamabost urte igaro dira, eta ezer ez da aldatu tren horien kudeaketan; Renfek segitu du trenen zerbitzua antolatzen —trenak eta ordutegiak—, eta Adifek azpiegituren ardurarekin jarraitu du —trenbideak, geltokiak…—. Zer egin du urteotan Generalitateak? Kexatu, eskumen aldaketa ez zelako benetakoa izan; baina ez da sekula eskaeren zerrendan lehen postuan egon.\n\nSant Jaume plazatik independentziazaleak irten eta sozialistak itzuli arte, Madrilek ez du eskumena katalanizatu nahi izan.\n\nIritsi da behingoz benetako eskualdaketa egiteko ordua. Hau da, urteetan luzatuko den prozesu baten ondorioz, Espainiako Gobernuak eta Generalitateak osatuko duten enpresa publiko mistoak hartuko du aldiriko trenen zerbitzuaren kudeaketa, Renfe eta Adif Kataluniako aldirikoetatik desagertuta. Enpresa misto berriak Rodalies de Catalunya izena edukiko du, eta Generalitateak kalitatezko botoa edukiko du.\n\nRenfen eta Adifen gehiengoa daukaten sindikatuek —CCOOk, UGTk, CGTk…— ez dute begi onez ikusten eskualdaketa, ez dutelako Generalitateko langile bihurtu nahi, eta zazpi greba egunetara deitu dute.'],
    ['Zein da Nafarroako administrazioaren behin-behinekotasun tasa egungo egonkortze prozesuaren ondoren?', 'Nafarroako Gobernuak 603 lanpostuko lan eskaintza publikoa hitzartu du LAB, Afapna eta UGTrekin\n\nAzken urteetan Nafarroako Gobernuak funtzio publikoko behin-behinekotasuna %43tik %16ra murriztu du, eta aurten egonkortze prozesu horretan aurrera jarraituko du. Gaur, LAB, Afapna eta UGT sindikatuekin hitzartu du beste 603 lanpostu egonkortzea, lan eskaintza publiko partzial baten bidez.\n\nApirilaren 9ko grebaren ondotik, lehen bilera egin du gobernuak Funtzio Publikoko Mahai Orokorreko sindikatuekin. Bost sindikatuetatik hiruk adostu dute eskaintza, eta Rashid Mohamed Funtzio Publikoko zuzendari nagusiak iragarri du aurki onartuko duela deialdi hori arautuko duen foru dekretua.\n\nDeialdi horretan aterako diren postuak administraziorako eta osasungintzarako izango dira. Zehazki, 315 lanpostu administrazio nukleorako izango dira: C mailako 173 postu, D mailako 74, B mailako 43 eta A mailako 25. Gainera, Osasunbideko 288 postu egonkortuko ditu, eta Nafarroako Osasun Publikoko eta Lan Osasuneko Institutuko beste sei postu. «Zerbitzu publikoak indartu nahi ditugu, eta haien kalitatea hobetu», adierazi du gobernuak prentsa ohar batean.\n\n3.548\n\nEgonkortze prozesua. Duela urte batzuk, behin-behinekotasun handia zuen Nafarroako administrazioak, %43koa. Europako Batzordeak behartuta, egonkortzeko prozesuari ekin zion, eta azken urteetan 3.548 lanpostu egonkortu ditu. Orain, lan eskaintza aurrera badoa, 603 gehiago izango dira.\n\nEuropako Batzordeak iazko abendurako %8ko behin-behinekotasuna ezartzeko helburua ezarri zien administrazio publikoei. Epea agortu bada ere, oraindik bidea geratzen zaio xede horretara iristeko. Nafarroaren kasuan, foru administrazioko eta bere erakunde autonomoetako langile kopurua hartu behar da aintzat —erakunde autonomoen artean daude, besteak beste, Osasunbidea, Nafarroako Ogasuna, Nafar Lansare, Euskarabidea eta abar—.\n\nMerezimenduen dekretua'],
    ['Nola sustatu daiteke euskararen erabilera eremu digitalean?', 'Euskara oinarri duen ChatGPT moduko bat sortu duzue: Latxa. Nola sortzen dira elkarrizketak sistema automatikoan?\n\nSistema horiek bideratzen dituzten oinarrizko ereduak dira elkarrizketak. Jarraitu beharreko pausoak erakusten dizkiogu sistemari, euskaraz, eta horri erantzuten dio. Elkarrizketa oso naturala izatea lortu nahi dugu, ez modu artifizialean egindakoa izatea.\n\nNola lor daiteke elkarrizketa naturalagoa izatea?\n\nHorretan ari gara orain. Sistemak euskara gaitasun batzuk hobeto barneratuak dituela ikusi dugu. Uste dugu sortzen duen euskara hori dela oso zuzena, eta, gainera, munduaren errepresentazio orokor bat duela. Latxa ez da hutsetik hasi, beste eredu batetik abiatu gara, ingelesez zegoen batetik. Lortu dugu ezagutza horretan euskara ere txertatzea. Hurrengo fasea da oinarrizko eredu hori hobetzea, testu gehiago emanez. Datu bilketa bat beharrezkoa da oraindik.\n\nZein da erronka nagusia?\n\nIngelesarekin alderatuta, ikus dezakegu datu kopurua ez dela berdina. Beste bide batzuk bilatu behar izan ditugu baliabide gutxiago duten hizkuntzei aplikatzeko.\n\n«Beste teknika batzuk aplikatuta eta gure errealitatea zein den kontuan hartuta, sistema bat sortzeko aukera dugu»\n\nHizkuntza gutxituek nola iraun dezakete bizirik aro digitalean?\n\nBadago aukera bat aurrera jarraitzeko, eta Latxa da horren adibide. Gure errealitatean eta gure baliabideekin ere ikusi dugu hor egoteko aukera badugula. Hizkuntza gutxitu batek bizirik iraun nahi badu, eremu digitalean ere egon behar du. Beste teknika batzuk aplikatuta eta gure errealitatea zein den kontuan hartuta, sistema bat sortzeko aukera dugu.\n\nEzinbestekoa da beste hizkuntzekin elkarlana sustatzea?\n\nBai. Ez da bakarrik euskararako sistema egitea; zabaldu nahi dugu euskararekin sortu dugun proiektua; beste hizkuntzei egin duguna helaraztea, alegia. Edozein hizkuntzak bizirik iraun nahi badu, bakoitzak egiten duen proiektuen berri eman behar du, irekia izan behar du. Elkarlana behar da, denon artean ikasteko eta bizirik jarraitzeko aukera gehiago dagoelako.'],
    ['Zein urtetan itzuli zen Slowdive taldea agertokietara?', 'Arcade Fire\n\nBBK Liven jo eta zortzi urtera, bueltan dator Bilbora Quebeceko taldea, azken bi hamarkadetako rock alternatiboaren izen handienetakoa. Funeral (2004) diskoarekin estreinatu zenetik, Win Butlerrek eta Regine Chassagnek gidatzen duten taldeak beti erakutsi du ereserki epikoak bezain sentikorrak sortzeko gaitasun handia, eta horrek berak estadioetan jotzeko banda ezin egokiagoa bilakatu du Arcade Fire. Nolanahi ere, taldeak segitzen du bide berriak bilatzen, eta azken diskoan (We, 2022) badira synth-popera jotzen duten piezak ere. (Larunbatean, 01:30ean, Agertoki Nagusian).\n\nMulatu Astatke\n\nBBK Liveren publiko nagusiari gutxien egokituko zaion musikaria izango da, ziur aski, Mulatu Astatke. Musikari etiopiarrak 80 urte ditu, bibrafonoa jotzen du, eta bere herrialdean 1960ko eta 1970eko hamarkadetan loratu zen jazz eszenaren ordezkari nagusia da oraindik ere. Ethio-jazzaren izen ezinbestekoa ez ezik, azken hamarkadetan sortu den musikari pertsonalenetako bat ere bada Astatke. (Larunbatean, 20:30ean, Txiki agertokian).\n\nSlowdive\n\nIngalaterrako taldea bigarren urrezko aroa ari da bizitzen. 1990eko hamarkadaren hasieran Ingalaterran sortutako shoegaze mugimenduaren parte izan zen Slowdive, eta urteetako etenaren ostean —bitartean, Mojave 3 proiektuarekin AEBetako doinuak landu zituzten Neil Halstead eta Rachel Goswellek—, 2014an berriro itzuli zen agertokietara. 2017an Slowdive diskoa atera zuen, gitarretan oinarritutako dream-pop aparta, eta joan den urtean iritsi zen Everything is Alive haren jarraipena. (Larunbatean, 20:30ean, San Miguel gunean).\n\nEzezez'],
]
scores = model.predict(pairs)
print(scores.shape)
# (5,)

# Or rank different texts based on similarity to a single text
ranks = model.rank(
    'Noiz amaitzen da BSHko langileen aldi baterako lan erregulazioa?',
    [
        'Langileen helburua da multinazionalak atzera egitea bere erabakian, eta, horregatik, uste dute gobernuak presio egin dezakeela langileen alde. «Enpresak atzera egin dezan, modu aktibo batean lan egin dezala eskatzen diogu. Jar ditzatela euren bitarteko guztiak Ezkirozko BSHn jarduera egon dadin eta lanpostuak bermatu daitezen».\n\nMultinazionalak atzera egin dezan ahaleginduko dira. Aurten, 40 egunetik gorako aldi baterako lan erregulazioan egon dira langileak. Urtarrilaren 31n amaituko da, eta hori amaitu aurretik etorri da erabakia. UGTko Xabi Tejerok azaldu du ezin dituztela langileak babes gabe utzi: «Behar den tokietan defendituko ditugu lanpostuak».\n\nBSH, 35 URTE EUSKAL HERRIAN',
        'Aldirikoak behingoz Generalitatera\n\nEspainiako presidente ohi Jose Luis Rodriguez Zapateroren garaian —2010. urtean— eskualdatu zuten teorian Kataluniako aldiriko trenen eskumena Espainiako Gobernutik Generalitatera. Hamabost urte igaro dira, eta ezer ez da aldatu tren horien kudeaketan; Renfek segitu du trenen zerbitzua antolatzen —trenak eta ordutegiak—, eta Adifek azpiegituren ardurarekin jarraitu du —trenbideak, geltokiak…—. Zer egin du urteotan Generalitateak? Kexatu, eskumen aldaketa ez zelako benetakoa izan; baina ez da sekula eskaeren zerrendan lehen postuan egon.\n\nSant Jaume plazatik independentziazaleak irten eta sozialistak itzuli arte, Madrilek ez du eskumena katalanizatu nahi izan.\n\nIritsi da behingoz benetako eskualdaketa egiteko ordua. Hau da, urteetan luzatuko den prozesu baten ondorioz, Espainiako Gobernuak eta Generalitateak osatuko duten enpresa publiko mistoak hartuko du aldiriko trenen zerbitzuaren kudeaketa, Renfe eta Adif Kataluniako aldirikoetatik desagertuta. Enpresa misto berriak Rodalies de Catalunya izena edukiko du, eta Generalitateak kalitatezko botoa edukiko du.\n\nRenfen eta Adifen gehiengoa daukaten sindikatuek —CCOOk, UGTk, CGTk…— ez dute begi onez ikusten eskualdaketa, ez dutelako Generalitateko langile bihurtu nahi, eta zazpi greba egunetara deitu dute.',
        'Nafarroako Gobernuak 603 lanpostuko lan eskaintza publikoa hitzartu du LAB, Afapna eta UGTrekin\n\nAzken urteetan Nafarroako Gobernuak funtzio publikoko behin-behinekotasuna %43tik %16ra murriztu du, eta aurten egonkortze prozesu horretan aurrera jarraituko du. Gaur, LAB, Afapna eta UGT sindikatuekin hitzartu du beste 603 lanpostu egonkortzea, lan eskaintza publiko partzial baten bidez.\n\nApirilaren 9ko grebaren ondotik, lehen bilera egin du gobernuak Funtzio Publikoko Mahai Orokorreko sindikatuekin. Bost sindikatuetatik hiruk adostu dute eskaintza, eta Rashid Mohamed Funtzio Publikoko zuzendari nagusiak iragarri du aurki onartuko duela deialdi hori arautuko duen foru dekretua.\n\nDeialdi horretan aterako diren postuak administraziorako eta osasungintzarako izango dira. Zehazki, 315 lanpostu administrazio nukleorako izango dira: C mailako 173 postu, D mailako 74, B mailako 43 eta A mailako 25. Gainera, Osasunbideko 288 postu egonkortuko ditu, eta Nafarroako Osasun Publikoko eta Lan Osasuneko Institutuko beste sei postu. «Zerbitzu publikoak indartu nahi ditugu, eta haien kalitatea hobetu», adierazi du gobernuak prentsa ohar batean.\n\n3.548\n\nEgonkortze prozesua. Duela urte batzuk, behin-behinekotasun handia zuen Nafarroako administrazioak, %43koa. Europako Batzordeak behartuta, egonkortzeko prozesuari ekin zion, eta azken urteetan 3.548 lanpostu egonkortu ditu. Orain, lan eskaintza aurrera badoa, 603 gehiago izango dira.\n\nEuropako Batzordeak iazko abendurako %8ko behin-behinekotasuna ezartzeko helburua ezarri zien administrazio publikoei. Epea agortu bada ere, oraindik bidea geratzen zaio xede horretara iristeko. Nafarroaren kasuan, foru administrazioko eta bere erakunde autonomoetako langile kopurua hartu behar da aintzat —erakunde autonomoen artean daude, besteak beste, Osasunbidea, Nafarroako Ogasuna, Nafar Lansare, Euskarabidea eta abar—.\n\nMerezimenduen dekretua',
        'Euskara oinarri duen ChatGPT moduko bat sortu duzue: Latxa. Nola sortzen dira elkarrizketak sistema automatikoan?\n\nSistema horiek bideratzen dituzten oinarrizko ereduak dira elkarrizketak. Jarraitu beharreko pausoak erakusten dizkiogu sistemari, euskaraz, eta horri erantzuten dio. Elkarrizketa oso naturala izatea lortu nahi dugu, ez modu artifizialean egindakoa izatea.\n\nNola lor daiteke elkarrizketa naturalagoa izatea?\n\nHorretan ari gara orain. Sistemak euskara gaitasun batzuk hobeto barneratuak dituela ikusi dugu. Uste dugu sortzen duen euskara hori dela oso zuzena, eta, gainera, munduaren errepresentazio orokor bat duela. Latxa ez da hutsetik hasi, beste eredu batetik abiatu gara, ingelesez zegoen batetik. Lortu dugu ezagutza horretan euskara ere txertatzea. Hurrengo fasea da oinarrizko eredu hori hobetzea, testu gehiago emanez. Datu bilketa bat beharrezkoa da oraindik.\n\nZein da erronka nagusia?\n\nIngelesarekin alderatuta, ikus dezakegu datu kopurua ez dela berdina. Beste bide batzuk bilatu behar izan ditugu baliabide gutxiago duten hizkuntzei aplikatzeko.\n\n«Beste teknika batzuk aplikatuta eta gure errealitatea zein den kontuan hartuta, sistema bat sortzeko aukera dugu»\n\nHizkuntza gutxituek nola iraun dezakete bizirik aro digitalean?\n\nBadago aukera bat aurrera jarraitzeko, eta Latxa da horren adibide. Gure errealitatean eta gure baliabideekin ere ikusi dugu hor egoteko aukera badugula. Hizkuntza gutxitu batek bizirik iraun nahi badu, eremu digitalean ere egon behar du. Beste teknika batzuk aplikatuta eta gure errealitatea zein den kontuan hartuta, sistema bat sortzeko aukera dugu.\n\nEzinbestekoa da beste hizkuntzekin elkarlana sustatzea?\n\nBai. Ez da bakarrik euskararako sistema egitea; zabaldu nahi dugu euskararekin sortu dugun proiektua; beste hizkuntzei egin duguna helaraztea, alegia. Edozein hizkuntzak bizirik iraun nahi badu, bakoitzak egiten duen proiektuen berri eman behar du, irekia izan behar du. Elkarlana behar da, denon artean ikasteko eta bizirik jarraitzeko aukera gehiago dagoelako.',
        'Arcade Fire\n\nBBK Liven jo eta zortzi urtera, bueltan dator Bilbora Quebeceko taldea, azken bi hamarkadetako rock alternatiboaren izen handienetakoa. Funeral (2004) diskoarekin estreinatu zenetik, Win Butlerrek eta Regine Chassagnek gidatzen duten taldeak beti erakutsi du ereserki epikoak bezain sentikorrak sortzeko gaitasun handia, eta horrek berak estadioetan jotzeko banda ezin egokiagoa bilakatu du Arcade Fire. Nolanahi ere, taldeak segitzen du bide berriak bilatzen, eta azken diskoan (We, 2022) badira synth-popera jotzen duten piezak ere. (Larunbatean, 01:30ean, Agertoki Nagusian).\n\nMulatu Astatke\n\nBBK Liveren publiko nagusiari gutxien egokituko zaion musikaria izango da, ziur aski, Mulatu Astatke. Musikari etiopiarrak 80 urte ditu, bibrafonoa jotzen du, eta bere herrialdean 1960ko eta 1970eko hamarkadetan loratu zen jazz eszenaren ordezkari nagusia da oraindik ere. Ethio-jazzaren izen ezinbestekoa ez ezik, azken hamarkadetan sortu den musikari pertsonalenetako bat ere bada Astatke. (Larunbatean, 20:30ean, Txiki agertokian).\n\nSlowdive\n\nIngalaterrako taldea bigarren urrezko aroa ari da bizitzen. 1990eko hamarkadaren hasieran Ingalaterran sortutako shoegaze mugimenduaren parte izan zen Slowdive, eta urteetako etenaren ostean —bitartean, Mojave 3 proiektuarekin AEBetako doinuak landu zituzten Neil Halstead eta Rachel Goswellek—, 2014an berriro itzuli zen agertokietara. 2017an Slowdive diskoa atera zuen, gitarretan oinarritutako dream-pop aparta, eta joan den urtean iritsi zen Everything is Alive haren jarraipena. (Larunbatean, 20:30ean, San Miguel gunean).\n\nEzezez',
    ]
)
# [{'corpus_id': ..., 'score': ...}, {'corpus_id': ..., 'score': ...}, ...]

Evaluation

Metrics

Cross Encoder Reranking

  • Dataset: jina-reranker-v2-base-multilingual-contrastive-berria-4-mle5-100ev
  • Evaluated with CrossEncoderRerankingEvaluator with these parameters:
    {
        "at_k": 10,
        "always_rerank_positives": false
    }
    
Metric Value
map 0.0238 (+0.0231)
mrr@10 0.0238 (+0.0236)
ndcg@10 0.0238 (+0.0234)

Training Details

Training Dataset

Unnamed Dataset

  • Size: 3,200 training samples
  • Columns: query and positive
  • Approximate statistics based on the first 1000 samples:
    query positive
    type string string
    details
    • min: 29 characters
    • mean: 77.54 characters
    • max: 159 characters
    • min: 383 characters
    • mean: 1464.56 characters
    • max: 2092 characters
  • Samples:
    query positive
    Nork antolatu du bihar Gasteizko kaleetan Guardia Zibilari egingo zaion omenaldia? Inork galdetu al die torturatuei?

    Nahi hainbeste adibide topa litezke erakusten digutenak euskal gatazka deritzogun horretan biktima guztiek ez dutela kontsiderazio bera jasotzen erakunde publiko askoren aldetik. Ez lehen, eta ez orain.

    Gogora Institutuaren zuzendaritzan EAJk eta PSEk, batere disimilatu gabe, ETAren bi biktima bai baina estatuaren biktimarik egon ez dadin egin duten akordioak erakusten du, beste behin, ez direla benetan ari esaten dutenean landuko duten oroimena inklusiboa izango dela. Gero harritu egingo dira ikusten dutenean estatuaren biktima gehienek uzkur begiratzen dietela erakunde horiei.

    ETAren biktimen elkarte batzuk botere faktikoa dira Euskal Herriko eta Espainiako politikan. Ezin da ezer egin —ez legerik, ez ekitaldirik, ez…— haien oniritzirik gabe; batzuetan haien kabuz jardunda, eta besteetan PPren gezi politikoa izanda. Kartzelatik irteten diren euskal preso politikoei ongietorriak ez egitea lortu dute, birbiktimizatzen dituelako. Ondo.

    Bihar ongi-ge...
    Zergatik dago antxoa kiloa 1,51 eurotan, iaz 1,97 eurotan zegoenean? «Bertako produktua eta freskoa nahi dugula esaten badugu, preziatzen badugu, garestiago ordaintzeko prest egon behar dugu».

    ARANTXA TAPIAEusko Jaurlaritzako Ekonomiaren Garapenerako sailburua

    Maiatzaren 1era arte, 6.700 tona antxoa deskargatu dituzte Bizkaian eta Gipuzkoan, iaz data berean porturatukoa halako bi: horren guztiaren %39 bertako ontziek egin dute. Batez beste 1,51 eurotan ordaindu da kiloa; iaz, 1,97 eurotan. Jaitsieraren arrazoi nagusia antxoaren tamaina izan da, eta ez bereziki gaztea delako; horretan ere itsasoaren uren berotzeak zerikusia izan dezakeela ondorioztatu dute lehen ikerketetan.

    Prezioari dagokionez, kontserben industriak nahiago izaten du handiagoa, eta horrek garestitzen du lonjetan, freskoan gutxiago ordaindu ohi delako, kontsumoa txikiagoa delako. Hori bultzatzeko kanpainak abiatu ditu Jaurlaritzak, baina arrakasta handirik gabe. «Bertako produktua eta freskoa nahi dugula esaten badugu, preziatzen badugu, garestiago ordaintzeko prest egon behar dugu»,...
    Zein dira eskalatzaileak udazken-negurako dituen asmoak harkaitzean? Txapelketetarako prestakuntza dela eta, harkaitzean gutxi ibili da azken hilabeteotan, baina bertan izan den asteburuetan, hatzak ederki urratuta itzuli da etxera. Esaterako, duela asteburu batzuk Etxaurin eskalatu zuen aspaldiko partez, eta Fuck the police (8c) bidea kateatu zuen flash eran, erregeleta txikietan eskalatu duen «biderik onenetakoa», eta Adi bidea (8a+) bistaz. Uda partean, kuadrillakoekin arrokara joateko egun batzuk hartuko ditu, eta txapelketak amaitzean, negu aldera, harkaitzean 9a zailtasunetik gorako «proiektu serio bati» heltzeko gogoa du.
  • Loss: CachedMultipleNegativesRankingLoss with these parameters:
    {
        "scale": 10.0,
        "num_negatives": null,
        "activation_fn": "torch.nn.modules.activation.Sigmoid",
        "mini_batch_size": 16
    }
    

Evaluation Dataset

Unnamed Dataset

  • Size: 800 evaluation samples
  • Columns: query and positive
  • Approximate statistics based on the first 800 samples:
    query positive
    type string string
    details
    • min: 24 characters
    • mean: 75.86 characters
    • max: 167 characters
    • min: 348 characters
    • mean: 1484.14 characters
    • max: 2127 characters
  • Samples:
    query positive
    Noiz amaitzen da BSHko langileen aldi baterako lan erregulazioa? Langileen helburua da multinazionalak atzera egitea bere erabakian, eta, horregatik, uste dute gobernuak presio egin dezakeela langileen alde. «Enpresak atzera egin dezan, modu aktibo batean lan egin dezala eskatzen diogu. Jar ditzatela euren bitarteko guztiak Ezkirozko BSHn jarduera egon dadin eta lanpostuak bermatu daitezen».

    Multinazionalak atzera egin dezan ahaleginduko dira. Aurten, 40 egunetik gorako aldi baterako lan erregulazioan egon dira langileak. Urtarrilaren 31n amaituko da, eta hori amaitu aurretik etorri da erabakia. UGTko Xabi Tejerok azaldu du ezin dituztela langileak babes gabe utzi: «Behar den tokietan defendituko ditugu lanpostuak».

    BSH, 35 URTE EUSKAL HERRIAN
    Noiz iritsiko da behingoz benetako eskualdaketa Kataluniako aldiriko trenen eskumena Generalitatera? Aldirikoak behingoz Generalitatera

    Espainiako presidente ohi Jose Luis Rodriguez Zapateroren garaian —2010. urtean— eskualdatu zuten teorian Kataluniako aldiriko trenen eskumena Espainiako Gobernutik Generalitatera. Hamabost urte igaro dira, eta ezer ez da aldatu tren horien kudeaketan; Renfek segitu du trenen zerbitzua antolatzen —trenak eta ordutegiak—, eta Adifek azpiegituren ardurarekin jarraitu du —trenbideak, geltokiak…—. Zer egin du urteotan Generalitateak? Kexatu, eskumen aldaketa ez zelako benetakoa izan; baina ez da sekula eskaeren zerrendan lehen postuan egon.

    Sant Jaume plazatik independentziazaleak irten eta sozialistak itzuli arte, Madrilek ez du eskumena katalanizatu nahi izan.

    Iritsi da behingoz benetako eskualdaketa egiteko ordua. Hau da, urteetan luzatuko den prozesu baten ondorioz, Espainiako Gobernuak eta Generalitateak osatuko duten enpresa publiko mistoak hartuko du aldiriko trenen zerbitzuaren kudeaketa, Renfe eta Adif Kataluniako aldirikoetatik desagertuta. E...
    Zein da Nafarroako administrazioaren behin-behinekotasun tasa egungo egonkortze prozesuaren ondoren? Nafarroako Gobernuak 603 lanpostuko lan eskaintza publikoa hitzartu du LAB, Afapna eta UGTrekin

    Azken urteetan Nafarroako Gobernuak funtzio publikoko behin-behinekotasuna %43tik %16ra murriztu du, eta aurten egonkortze prozesu horretan aurrera jarraituko du. Gaur, LAB, Afapna eta UGT sindikatuekin hitzartu du beste 603 lanpostu egonkortzea, lan eskaintza publiko partzial baten bidez.

    Apirilaren 9ko grebaren ondotik, lehen bilera egin du gobernuak Funtzio Publikoko Mahai Orokorreko sindikatuekin. Bost sindikatuetatik hiruk adostu dute eskaintza, eta Rashid Mohamed Funtzio Publikoko zuzendari nagusiak iragarri du aurki onartuko duela deialdi hori arautuko duen foru dekretua.

    Deialdi horretan aterako diren postuak administraziorako eta osasungintzarako izango dira. Zehazki, 315 lanpostu administrazio nukleorako izango dira: C mailako 173 postu, D mailako 74, B mailako 43 eta A mailako 25. Gainera, Osasunbideko 288 postu egonkortuko ditu, eta Nafarroako Osasun Publikoko eta Lan Osasunek...
  • Loss: CachedMultipleNegativesRankingLoss with these parameters:
    {
        "scale": 10.0,
        "num_negatives": null,
        "activation_fn": "torch.nn.modules.activation.Sigmoid",
        "mini_batch_size": 16
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 16
  • per_device_eval_batch_size: 16
  • learning_rate: 2e-05
  • num_train_epochs: 1
  • warmup_ratio: 0.1
  • load_best_model_at_end: True
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 16
  • per_device_eval_batch_size: 16
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 2e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 1
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: True
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • parallelism_config: None
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • hub_revision: None
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • liger_kernel_config: None
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional
  • router_mapping: {}
  • learning_rate_mapping: {}

Training Logs

Epoch Step Training Loss Validation Loss jina-reranker-v2-base-multilingual-contrastive-berria-4-mle5-100ev_ndcg@10
1.0 200 0.0278 0.0178 0.0238 (+0.0234)
  • The bold row denotes the saved checkpoint.

Framework Versions

  • Python: 3.9.7
  • Sentence Transformers: 5.0.0
  • Transformers: 4.56.0
  • PyTorch: 2.7.1+cu126
  • Accelerate: 1.5.2
  • Datasets: 4.0.0
  • Tokenizers: 0.22.0

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}
Downloads last month
-
Safetensors
Model size
0.3B params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for cuadron11/jina-reranker-v2-base-multilingual-contrastive-berria-4-mle5-100ev

Finetuned
(27)
this model

Paper for cuadron11/jina-reranker-v2-base-multilingual-contrastive-berria-4-mle5-100ev

Evaluation results

  • Map on jina reranker v2 base multilingual contrastive berria 4 mle5 100ev
    self-reported
    0.024
  • Mrr@10 on jina reranker v2 base multilingual contrastive berria 4 mle5 100ev
    self-reported
    0.024
  • Ndcg@10 on jina reranker v2 base multilingual contrastive berria 4 mle5 100ev
    self-reported
    0.024