Recursos
Corpus
Recopilació de corpus en valencià de caràcter administratiu utilitzats en el projecte NEL-VIVES. Per a accedir a aquests recursos, emplene aquest formulari de sol·licitud amb la informació sol·licitada per a descarregar el corpus que es desitge. Un administrador revisarà la sol·licitud i decidirà si administrar al sol·licitant el corpus desitjat o no.
DOGV
Corpus de totes les edicions publicades del Diari Oficial de la Generalitat Valenciana des de l’any 1978 fins a la data d’avui.
El Diari Oficial és el mitjà d’aquesta comunitat autònoma a través del qual es publiquen les normes, convenis, resolucions i actes de tràmit la inserció del qual sol·licite l’òrgan o autoritat competent d’acord amb l’ordenament jurídic vigent.
El corpus consta de 21 fitxers en format JSON que es comprenen de l’any 1998 fins al 2023. També hi ha un corpus de tots els textos en PDF de l’any 1978 fins al 1997.
El corpus de textos en format JSON conté 283.979.280 paraules i té un pes de 1.65GB. D’altra banda, el corpus de textos en PDF té un pes de 6.08GB en format comprimit ZIP.
L’estructura dels fitxers JSON del corpus és la següent:
{
"id": 1,
"datetime": "13/07/2018",
"title": "Conselleria d'Economia Sostenible, Sectors Productius, Comerç i Treball",
"body": "Butlletí",
"category": {
"III. Actes Administratius.": "b) Subvencions i beques.",
"Origen de disposició:": "Conselleria d'Economia Sostenible, Sectors Productius, Comerç i Treball",
"Grup temàtic:": "Ajudes"
},
"language": "va"
},
BOUA
Corpus de totes les publicacions del Butlletí Oficial de la Universitat d’Alacant des de la seua creació fins a la data d’avui.
La publicació del Butlletí Oficial de la Universitat d’Alacant s’ha dut a terme des de la seua creació, l’any 2006, i des d’aleshores ha donat compliment al mandat contingut en els Estatuts de la Universitat d’Alacant. Aquesta publicació s’ha fet seguint el que disposa el Reglament del 2006 i l’actualment vigent, aprovat pel Consell de Govern el 25 de febrer de 2021, que regula el règim i el funcionament del Butlletí Oficial de la Universitat d’Alacant.
El Reglament del Butlletí Oficial de la Universitat d’Alacant és la norma que regula el règim i el funcionament d’aquest butlletí, i el configura com un instrument per a la publicació dels acords i les resolucions dels òrgans de la Universitat que, per la seua naturalesa, requerisquen ser fets públics, com també d’altres disposicions que siguen d’interès per a tota la comunitat universitària.
Aquest corpus és un fitxer JSON que conté 7.699.663 paraules i té un pes de 81,4MB. La seua estructura és la següent:
{
"id": 0,
"aprovation_date": "26/07/2023",
"publication_date": "28/07/2023",
"title": "BEQUES D'INICIACIÓ A LA INVESTIGACIÓ CÀTEDRA D'ART CONTEMPORANI ANTONI MIRO",
"section": "CONVOCATÒRIES I CONCURSOS",
"organ": "Rectora",
"body": "Butlletí"
},
Les Corts
Corpus de totes les publicacions del Butlletí Oficial de les Corts Valencianes des de la seua creació fins a la data d’avui.
Les Corts Valencianes és la institució de la Generalitat Valenciana que representa el poble valencià, a través dels seus parlamentaris, elegits per mitjà de sufragi universal directe, lliure i secret.
L’Estatut d’autonomia dedica a les Corts Valencianes el capítol II, del títol III, encara que en altres preceptes del nostre primer text legal també hi ha importants referències a les Corts Valencianes. L’Estatut es limita a indicar la composició de les Corts, els principis bàsics del sistema electoral, les funcions que els corresponen i traça un esbós general de l’Estatut dels diputats. En desenvolupament directe de l’Estatut, el Reglament de les Corts Valencianes regula l’organització i el funcionament de la institució.
El corpus consta de 3412 fitxers de text en format HTML i de 1698 arxius de veu en format MP3. Els arxius de text pesen 1,05GB i els de veu 139,72GB.
Dataset de veu Les Corts
El corpus de veu de les Corts Valencianes és un ric conjunt de dades format per enregistraments de parla de les sessions de les Corts Valencianes. El corpus inclou tant segments nets com altres de qualitat, dividits en segments curts (menys de 30 segons) i segments llargs (més de 30 segons). El conjunt de dades total inclou 270 hores, 5 minuts i 34 segons de parla, incloent 239 h 05 m 24 s per als segments curts i 31 h 00 m 11 s per als segments llargs, amb un total de 2.621.096 paraules.
El corpus està disponible en el següent enllaç: https://huggingface.co/datasets/projecte-aina/corts_valencianes_asr_a
Corpus GPLSI-VLC
Recopilació de corpus del GPLSI de tasques de classificació traduïts al valencià.
- Corpus LIPCOL: 8.888 paraules, 277KB. Format EXCEL (.xlsx)
- Corpus RUN_AS: 81.480 paraules, 961KB. Format JSON (.json)
- Corpus VILLANOS: 208.622 paraules, 1.84MB. Format .tsv
- Corpus Twin-AnnotatES: 13.810 paraules, 94KB. Format .csv
Enllaç de descàrrega: https://github.com/gplsi/gplsi-corpus-vlc
Corpus AMICS
Corpus de periòdics/blogs amb contengut en valencià recopilats de la pàgina web repositori AMIC.
El corpus AMICS en estar compost per aquest tipus de contingut periodístic conté vocabulari de molts dominis lingüístics com podrien ser la política, els esports, la cultura, les festes, etc.
Actualment, el corpus recopila fins ara el contingut de 18 mitjans digitals d’aquest repositori en format JSON. Conté un total de 30.622.242 paraules i els fitxers tenen un tamany de 222MB.
La seua estructura es la següent:
{
"id": 0,
"url": "https://7diesactualitat.com/en-marxa-les-obres-per-a-adequar-el-local-municipal-de-tossal-de-les-figueres/",
"title": "En marxa les obres per a adequar el local municipal de Tossal de les Figueres",
"subtitle": "",
"date": "12 de maig de 2020",
"content": "\nAquesta setmana han començat les obres al local de titularitat municipal ubicat al carrer del Tossal de les Figueres, un espai de 380 metres quadrats de superfície útil que es convertirà en aulari per a les activitats artístiques de la Universitat Popular. Així ho ha anunciat l’alcaldessa de Benicarló, Xaro Miralles, que ha recordat que «aquestes eren unes obres llargament esperades i ara, després de molts anys, hem pogut desencallar-les i adjudicar-les».\nLa urgència d’adequar l’espai es devia a la necessitat de disposar d’un local per a poder impartir les classes de dibuix, pintura i restauració de la Universitat Popular, que l’any 2015 va haver de retirar el curs de restauració de la seua oferta formativa per manca d’un espai adequat. «Ara, amb aquest nou local —ha constatat l’alcaldessa— ja podrem ubicar totes les activitats artístiques de la UP i donarem resposta a la demanda de totes les persones que en el seu dia van haver d’abandonar les classes de restauració».\nA més de les tres aules de la UP, també s’habilitarà un altre espai que se cedirà a l’Associació Betlemística del Baix Maestrat, una entitat que, atesa l’envergadura dels seus projectes, feia temps que demandava un espai en condicions per a treballar i, alhora, guardar material.\nLes obres, amb un pressupost d’adjudicació de 119.088,20 euros (IVA inclòs), tenen un termini d’execució de quatre mesos i es finançaran a través del Pla Castelló 135 de la Diputació. En realitat, els treballs havien de començar al mes de març però la crisi sanitària provocada per la Covid19 ha endarrerit l’inici dels treballs fins ara.\n"
}
Corpus paral·lel VAL-ES
Corpus paral·lel en valencià i castellà de diferents mitjans digitals multidisciplinaris.
Aquest corpus enfocat a tasques de traducció s’enfoca a la qualitat dels textos traduïts paral·lelament i és extret de pagines web que oferisquen contingut digital en els dos idiomes. Tot seguit, es refina el contingut extret perquè aquest siga de qualitat.
Actualment, el corpus recopila fins ara el contingut de 12 mitjans digitals en el dos idiomes en format JSON. Conté un total de 96.757.763 paraules i els fitxers tenen un tamany de 695MB.