5/7/23 · Cultura

Un sistema de traducció automàtica neuronal per a totes les llengües romàniques de la península Ibèrica

Un projecte coordinat per la UOC aplicarà la traducció automàtica neuronal al castellà, el portuguès, el català, el gallec, l'asturià, l'aragonès i l'aranès
El fet de formar part de la revolució digital pot contribuir a impulsar l'ús de les llengües amb menys parlants
Els sistemes de traducció basats en xarxes neuronals s'entrenen a partir de milions d'oracions en una llengua amb la traducció en una altra llengua

Els sistemes de traducció basats en xarxes neuronals s'entrenen a partir de milions d'oracions en una llengua amb la traducció en una altra llengua

Els últims anys, el nombre i l'eficàcia de les tecnologies de traducció automàtica s'han disparat. Gràcies a la intel·ligència artificial (IA), portem a la butxaca eines potents que tradueixen amb facilitat qualsevol llengua majoritària. Però què passa amb les que tenen menys parlants i menys recursos? Com les pot arribar a "entendre" una IA? La resposta podria consistir en l'aprenentatge per transferència i l'entrenament de sistemes multilingües per a les llengües romàniques de la península Ibèrica.

El projecte Traducció automàtica neuronal per a les llengües romàniques de la península Ibèrica (TAN-IBE), finançat pel Ministeri de Ciència, Innovació i Universitats, coordinat per la Universitat Oberta de Catalunya (UOC) i amb la participació de les universitats d'Oviedo, Lleida i Saragossa, explora les tècniques més efectives per entrenar sistemes de traducció automàtica basats en xarxes neuronals (un tipus d'IA) aplicades a set llengües romàniques de la península Ibèrica: castellà, portuguès, català, gallec, asturià, aragonès i aranès.

Una IA que transfereix coneixement entre llengües

Els sistemes de traducció basats en xarxes neuronals s'entrenen a partir de milions d'oracions en una llengua amb la traducció en una altra llengua. És el que es coneix com a corpus paral·lels, conjunts immensos de dades disponibles en dues llengües. Quan la xarxa neuronal està entrenada, és capaç de traduir amb eficàcia qualsevol text en aquestes llengües. El problema és que, amb idiomes com el castellà o el portuguès, és senzill trobar aquests corpus paral·lels, però amb les llengües que tenen menys material disponible —com l'aranès, l'aragonès o l'asturià— és complicat tenir prou dades per entrenar la intel·ligència artificial.

"L'aspecte positiu és que els sistemes neuronals poden aprendre coses d'una llengua a partir d'una altra que s'hi assembli", explica Antoni Oliver, investigador del grup de recerca interuniversitari en Aplicacions Lingüístiques (GRIAL-UOC), coordinador del projecte TAN-IBE i professor dels Estudis d'Arts i Humanitats de la UOC. "Per això vam triar les llengües romàniques. El procés haurà de ser capaç d'aprendre per transferència emprant un model entre dues llengües per construir el sistema de traducció entre dues de diferents. Així, per exemple, quan estigui acabada, l'eina de traducció espanyol-aranès haurà après en part gràcies al sistema espanyol-català o a l'espanyol-portuguès", afegeix.

La construcció del model de traducció no és l'únic objectiu del projecte de recerca, que busca, a més:

  • Compilar corpus paral·lels i monolingües per a les set llengües romàniques que s'inclouen en la proposta, dedicant més esforç a l'asturià, l'aragonès i l'aranès.
  • Explorar noves tècniques per a l'entrenament de sistemes de traducció automàtica neuronal. A més de l'aprenentatge per transferència, s'estudiarà la traducció automàtica multilingüe, la traducció automàtica autosupervisada i la traducció automàtica no supervisada.
  • Entrenar sistemes de traducció automàtica neuronal entre l'espanyol i la resta de llengües del projecte, en les dues direccions.
  • Entrenar sistemes multilingües capaços de traduir des de totes les llengües del projecte i cap a totes les llengües del projecte.
  • Crear guies i scripts que facilitin l'entrenament de sistemes de traducció automàtica neuronal en general i, més en concret, per a les llengües del projecte.
  • Publicar els resultats del projecte amb llicències lliures. Això inclou els corpus compilats, els models i motors de traducció automàtica i les guies i scripts.

"A grans trets, el projecte consisteix, en primer lloc, a recopilar tots els corpus per a les llengües amb menys material (asturià, aragonès i aranès), i, en segon lloc, a entrenar els sistemes de traducció", afegeix Antoni Oliver. "El resultat final del projecte serà tant la publicació lliure dels recursos, en la mesura que sigui possible, com la creació d'un sistema de traducció automàtica neuronal d'ús lliure", explica.

Acords i estudis per impulsar les llengües minoritàries

La primera part del projecte es porta a terme fora dels laboratoris. Per disposar de les dades necessàries per entrenar els models d'intel·ligència artificial, cal recopilar tot el material que sigui possible de l'asturià, l'aragonès i l'aranès. "Per això, aquesta primera fase se centra a aconseguir acords amb governs autonòmics, universitats o editorials perquè ens facilitin el material per crear els corpus paral·lels mitjançant els quals puguem entrenar el sistema neuronal", assenyala Oliver.

En aquest sentit, en el marc d'aquest projecte s'ha arribat a un acord amb el govern del Principat d'Astúries per a la cessió de tot el corpus de textos traduïts del castellà a l'asturià que té la Dirección Xeneral de Política Llingüística. El conveni recull també que, si el Principat ho necessita, podrà disposar dels desenvolupaments tecnològics i lingüístics del projecte TAN-IBE per aprofitar-los en possibles projectes propis de traducció automàtica.

"En última instància, amb aquest projecte volem ajudar a fomentar l'ús de les llengües amb menys recursos i incrementar les publicacions en aquestes llengües", afegeix l'investigador de la UOC. "Per exemple, totes les lleis es podrien publicar en dues llengües de manera ràpida i eficient, invertint-hi menys recursos, tot i que sempre caldria una revisió humana. A més, les persones que no s'atreveixen a fer servir aquestes llengües perquè no se senten segures poden emprar aquestes eines per millorar els seus textos. Finalment, les llengües com l'asturià, l'aragonès o l'aranès han de formar part de les tecnologies digitals. Si no, poden anar desapareixent i ser oblidades", conclou Oliver.

Aquesta recerca de la UOC afavoreix l'objectiu de desenvolupament sostenible (ODS) de les Nacions Unides 4, garantir una educació inclusiva, equitativa i de qualitat i promoure oportunitats d'aprenentatge durant tota la vida per a tothom.

Projecte PID2021-124663OB-I00 finançat per MCIN /AEI /10.13039/501100011033 / FEDER, UE.

Contacte per a premsa

Rubén Permuy
rpermuy@uoc.edu
+34 659 05 42 39

 

UOC R&I

La recerca i innovació (R+I) de la UOC contribueix a solucionar els reptes a què s'enfronten les societats globals del segle XXI mitjançant l'estudi de la interacció de la tecnologia i les ciències humanes i socials, amb un focus específic en la societat xarxa, l'aprenentatge en línia i la salut digital.

Els més de 500 investigadors i investigadores i més de 50 grups de recerca s'articulen entorn dels set estudis de la UOC, un programa de recerca en aprenentatge en línia (e-learning research) i dos centres de recerca: l'Internet Interdisciplinary Institute (IN3) i l'eHealth Center (eHC).

A més, la Universitat impulsa la innovació en l'aprenentatge digital mitjançant l'eLearning Innovation Center (eLinC), i la transferència de coneixement i l'emprenedoria de la comunitat UOC amb la plataforma Hubbik.

Els objectius de l'Agenda 2030 per al Desenvolupament Sostenible de les Nacions Unides i el coneixement obert són eixos estratègics de la docència, la recerca i la innovació de la UOC. Més informació: research.uoc.edu.

Experts UOC

Contacte de premsa

També et pot interessar

Més llegits

Veure més sobre Cultura