Número 48 (octubre de 2015)

Tendències en processament del llenguatge natural

Mercè Vàzquez Garcia

Fa vint anys que s’organitza amb una periodicitat biennal un congrés que recull específicament quines són les tendències en processament del llenguatge natural i que ha esdevingut un referent en aquest àmbit de coneixement. Els temes que es tracten en aquest congrés van des de la fonètica, la fonologia i la morfologia, passant pels tesaurus i les ontologies, la traducció automàtica i assistida, fins a l’adquisició de coneixement, la recuperació d’informació, l’extracció de terminologia, la mineria d’opinions, l’aprenentatge d’idiomes assistit per ordinador o el processament del llenguatge natural aplicat a la semàntica i a la biomedicina.

La desena edició del congrés internacional Recent Advances in Natural Language Processing va tenir lloc a Bulgària del 7 al 9 de setembre del 2015. Aquest congrés és organitzat per la Universitat de Wolverhampton i la Bulgarian Academy of Sciences.

 

En aquesta ocasió les conferències es van centrar en temes tan diversos com ara la traducció automàtica vers la traducció humana i de quina manera ambdues poden arribar a ser integrades en un únic sistema de traducció (Marcello Federico, When Machine Translation Meets Human Translators); l’aplicació de l’estadística i la reordering grammar per a millorar el procés de traducció automàtica d’un text (Khalil Sima’an, Reordering Grammar and Hidden Treebanks); l’aplicació de tècniques de processament del llenguatge natural per a la localització de comunitats webs centrades en la resolució de preguntes, l’anàlisi de les preguntes i respostes que s’ofereixen en aquestes comunitats i la millora dels cercadors web (Idan Szpektor, Natural Language Processing for Community Question Answering); l’ús de processament del llenguatge natural per a capturar el conjunt de notícies que es publiquen diàriament en quatre llengües (anglès, danès, espanyol i italià), extreure què ha passat a qui, quan i a on i donar accés a la font d’informació d’on s’ha extret (Piek Vossen, From Mentions in Text to Instances in RDF: Cross-Lingual Interpretation of Unstructured News in the NewsReader Project); la millora dels sistemes de traducció automàtica estadística perquè puguin arribar a oferir traduccions sintàcticament correctes, semànticament adequades i coherents amb el discurs (Bonnie Webber, Towards Improving the Discourse Coherence of SMT Output), i de quina manera els tesaurus o les bases de dades lèxiques com Wordnet ens poden ajudar a trobar les paraules que necessitem a l’hora de parlar o escriure, i saber si poden arribar a ser més efectives que els diccionaris convencionals (Michael Zock, Roget, WordNet and beyond).

 

Els diferents blocs temàtics en què es van organitzar les presentacions també van reflectir les diferents línies d’estudi i d’interès que hi ha en l’àmbit del processament del llenguatge natural. Els blocs temàtics van tractar temes de mineria d’opinions i anàlisi de sentiments, processament del llenguatge natural aplicat a l’àmbit mèdic i a les xarxes socials, traducció automàtica aplicada a diferents llengües, etiquetatge i anàlisi de corpus, expressions multilingües, lexicons i ontologies i reconeixement d’expressions nominals.

 

En aquest congrés hi vam presentar una nova eina d’extracció automàtica de terminologia, anomenada TBXTools, la qual permet extreure d’una manera molt eficient termes multiparaula d’un corpus especialitzat a partir d’una combinació de mètodes estadístics i lingüístics. La descripció d’aquesta eina i les seves funcionalitats són recollides en l’article “TBXTools: A Free, Fast and Flexible Tool for Automatic Terminology Extraction”.

 

L’abast temàtic del congrés va fer possible compartir d’una manera natural la recerca que es duu a terme en qualsevol de les línies de treball que són presents en l’àmbit del processament del llenguatge natural amb diferents experts d’arreu del món, gràcies al caràcter transversal que té aquest àmbit d’especialitat.

 

Citació recomanada

VAZQUEZ GARCIA, Mercè. Tendències en processament del llenguatge natural. COMeIN [en línia], octubre 2015, núm. 48. ISSN: 1696-3296. DOI: https://doi.org/10.7238/c.n48.1567

terminologia;  gestió de la informació;  gestió del coneixement;  periodisme; 
Números anteriors