
Un chercheur de l'EPFL a développé un système qui scanne Wikipedia pour détecter les articles importants qui manquent dans d'autres langues. Un projet intéressant pour enrichir l'encyclopédie en ligne dans les langues minoritaires, comme le suisse allemand ou le romanche par exemple. Avec 40 millions d'articles en 293 langues, Wikipedia est la plus grande encyclopédie jamais créée. Mais si les 5,4 millions de pages en anglais sont particulièrement variées, couvrant 60 fois plus de matière que l ?Encyclopaedia Britannica , les inégalités entre les langues sont importantes. «Un savoir essentiel à certaines populations n'est pas traduit. Par exemple, il n'y a pas d'article sur le réchauffement climatique en malgache, alors que cette problématique est cruciale pour les habitants de Madagascar», explique Robert West, chercheur au Laboratoire de sciences des données de l'EPFL. Plus près de chez nous, seuls 3400 articles sont traduits en langue romanche, contre 1,8 million en français et plus de deux millions en allemand. Difficile pour les contributeurs de savoir quoi traduire parmi ces millions de pages pour faire une véritable différence. C'est là qu'intervient le travail de Robert West : le chercheur a utilisé le machine learning pour détecter et classer les pages manquantes les plus importantes pour chaque idiome. Un travail complexe, puisque déterminer la pertinence d'un thème pour une culture n'est pas si simple. Des machines objectives Pour aider les machines à déterminer l'importance d'une page en romanche, par exemple, il a fallu calculer combien de visites un article manquant devrait théoriquement générer. «La chanteuse Taylor Swift ou les Pokémons sont certes populaires, mais sont-ils vraiment importants?
PER LEGGERE QUESTO ARTICOLO, CREA IL TUO ACCOUNT
Ed estendere la vostra lettura, gratuitamente e senza alcun impegno.
I vostri vantaggi
- Accesso a tutti i contenuti
- Ricevere newsmail per le novità e le offerte di lavoro
- Pubblicare annunci