Tasques
Paquets de treball
Per aconseguir la màxima coordinació entre els quatre projectes i assegurar el compliment dels objectius previstos, s’ha definit una estructura de treball comú organitzada en Paquets de Treball (PT) tècnics, més un PT0 de Gestió de Projecte i un PT5 de Difusió. Cada paquet de treball té un responsable que coordina les tasques en el paquet de treball, les relacions i dependències amb altres paquets de treball, i verifica la qualitat general dels resultats del projecte. A més de Gestió (PT0) i Difusió (PT5), els PT tècnics inclouen:
- PT1 (Metodologia i disseny): coordinació tècnica que garantisca la correcta alineació dels diferents projectes i l’actualització científic-tècnica del projecte.
- PT2 (Gestió i captació de dades): captació i gestió de les dades necessàries per al pre-entrenament dels models de llenguatge en qualsevol de les seues modalitats.
- PT3 (Models de llenguatge): desenvolupament de models de llenguatge en diferents arquitectures i grandàries, de veu, text i multimodals, per a l’anàlisi i la generació, monolingües i multilingües, així com models de traducció automàtica que incloguen les llengües cooficials.
- PT4 (Qualitat de dades): estudi d’indicadors sobre la qualitat de les dades captades: corpus lliures de biaixos i justos.
Tasques del projecte VIVES
A cada PT, s’identifiquen clarament les tasques previstes per al projecte propi NEL-VIVES i les tasques comunes de coordinació i suport als altres projectes que liderarà i executarà en la seua major part el projecte NEL-AINA. En concret, les tasques comunes alineades amb la coordinació del NEL-AINA són les següents:
- Tasca 0.3: Coordinació general del projecte comú NEL.
- Tasca 1.2: Transferència de coneixement i experiències al projecte comú. Les reunions científic/tècniques de la Tasca 1.2 identificaran aquells aspectes en els quals el projecte NEL-AINA pot transferir coneixement, resultats i/o experiència a la resta dels grups.
- Tasca 2.1: Pla de Gestió de Dades Comú.
- Tasca 2.2.3: Nova extracció de l’arxiu web de la BNE i provisió de les dades preprocessades als diferents projectes propis per a cadascuna de les llengües.
- Tasca 2.2.4: Identificació de frases comunes en llicència CC0 per a les campanyes de Common Voice i per a un futur model de traducció veu a veu.
- Tasca 2.2.5: Captació de dades paral·leles entre català/valencià, gallec i basc per a entrenar motors de traducció.
- Tasca 2.3: Eines i protocols de preprocessament de dades.
- Tasca 3.1.2: Creació de models multilingües identificats a PT1.
- Tasca 3.2.2: Creació de models multilingües de veu identificats a PT1.
- Tasca 3.3.2: Creació de models de traducció en 3 escenaris d’escassos recursos CA-GL, CA-EU i EU-GL.
- Tasca 5.1: Pla de difusió i comunicació.
- Tasca 5.2: Pàgina web i xarxes socials.
- Tasca 5.3: Organització d’esdeveniments científics i tecnològics.
Per part seua, NEL-AINA donarà suport específic al projecte NEL-VIVES en les tasques de traspàs de coneixement i resultats identificades en les reunions científic/tècniques del projecte comú (Tasca 1.3), i aprofitarà l’experiència prèvia del BSC en el Pla-TL i AINA (p.e. models i protocols de cessió de dades, guies d’anotació, dades anotades per a traduir, models pre-entrenats sobre els quals aplicar continual-pretraining amb dades addicionals, etc.).