Recursos

Corpus

Recopilació de corpus en valencià de caràcter administratiu utilitzats en el projecte NEL-VIVES. Per a accedir a aquests recursos, emplene aquest formulari de sol·licitud amb la informació sol·licitada per a descarregar el corpus que es desitge. Un administrador revisarà la sol·licitud i decidirà si administrar al sol·licitant el corpus desitjat o no.

DOGV

Corpus de totes les edicions publicades del Diari Oficial de la Generalitat Valenciana des de l’any 1978 fins a la data d’avui. 

El Diari Oficial és el mitjà d’aquesta comunitat autònoma a través del qual es publiquen les normes, convenis, resolucions i actes de tràmit la inserció del qual sol·licite l’òrgan o autoritat competent d’acord amb l’ordenament jurídic vigent.

El corpus consta de 21 fitxers en format JSON que es comprenen de l’any 1998 fins al 2023. També hi ha un corpus de tots els textos en PDF de l’any 1978 fins al 1997.

El corpus de textos en format JSON conté 283.979.280 paraules i té un pes de 1.65GB. D’altra banda, el corpus de textos en PDF té un pes de 6.08GB en format comprimit ZIP.

L’estructura dels fitxers JSON del corpus és la següent:

{
    "id": 1,
    "datetime": "13/07/2018",
    "title": "Conselleria d'Economia Sostenible, Sectors Productius, Comerç i Treball",
    "body": "Butlletí",
    "category": {
        "III. Actes Administratius.": "b) Subvencions i beques.",
        "Origen de disposició:": "Conselleria d'Economia Sostenible, Sectors Productius, Comerç i Treball",
        "Grup temàtic:": "Ajudes"
    },
    "language": "va"
},

BOUA

Corpus de totes les publicacions del Butlletí Oficial de la Universitat d’Alacant des de la seua creació fins a la data d’avui.

La publicació del Butlletí Oficial de la Universitat d’Alacant s’ha dut a terme des de la seua creació, l’any 2006, i des d’aleshores ha donat compliment al mandat contingut en els Estatuts de la Universitat d’Alacant. Aquesta publicació s’ha fet seguint el que disposa el Reglament del 2006 i l’actualment vigent, aprovat pel Consell de Govern el 25 de febrer de 2021, que regula el règim i el funcionament del Butlletí Oficial de la Universitat d’Alacant.

El Reglament del Butlletí Oficial de la Universitat d’Alacant és la norma que regula el règim i el funcionament d’aquest butlletí, i el configura com un instrument per a la publicació dels acords i les resolucions dels òrgans de la Universitat que, per la seua naturalesa, requerisquen ser fets públics, com també d’altres disposicions que siguen d’interès per a tota la comunitat universitària.

Aquest corpus és un fitxer JSON que conté 7.699.663 paraules i té un pes de 81,4MB. La seua estructura és la següent:

{
    "id": 0,
    "aprovation_date": "26/07/2023",
    "publication_date": "28/07/2023",
    "title": "BEQUES D'INICIACIÓ A LA INVESTIGACIÓ CÀTEDRA D'ART CONTEMPORANI ANTONI MIRO",
    "section": "CONVOCATÒRIES I CONCURSOS",
    "organ": "Rectora",
    "body": "Butlletí"
},

Les Corts

Corpus de totes les publicacions del Butlletí Oficial de les Corts Valencianes des de la seua creació fins a la data d’avui.

Les Corts Valencianes és la institució de la Generalitat Valenciana que representa el poble valencià, a través dels seus parlamentaris, elegits per mitjà de sufragi universal directe, lliure i secret.

L’Estatut d’autonomia dedica a les Corts Valencianes el capítol II, del títol III, encara que en altres preceptes del nostre primer text legal també hi ha importants referències a les Corts Valencianes. L’Estatut es limita a indicar la composició de les Corts, els principis bàsics del sistema electoral, les funcions que els corresponen i traça un esbós general de l’Estatut dels diputats. En desenvolupament directe de l’Estatut, el Reglament de les Corts Valencianes regula l’organització i el funcionament de la institució.

El corpus consta de 3412 fitxers de text en format HTML i de 1698 arxius de veu en format MP3. Els arxius de text pesen 1,05GB i els de veu 139,72GB.

Corpus GPLSI-VLC

Recopilació de corpus del GPLSI de tasques de classificació traduïts al valencià.

  • Corpus LIPCOL: 8.888 paraules, 277KB. Format EXCEL (.xlsx)
  • Corpus RUN_AS: 81.480 paraules, 961KB. Format JSON (.json)
  • Corpus VILLANOS: 208.622 paraules, 1.84MB. Format .tsv
  • Corpus Twin-AnnotatES: 13.810 paraules, 94KB. Format .csv

Enllaç de descàrrega: https://github.com/gplsi/gplsi-corpus-vlc