Donner de la visibilité aux articles orphelins de Wikipédia

- EN- DE- FR - IT
(© Image: Wikipedia)
(© Image: Wikipedia)

Wikipédia est la plus vaste plateforme de connaissances en libre accès sur Internet. Pourtant, une étude de l’EPFL a constaté que 15% de son contenu est invisible. Pour y remédier, les scientifiques ont élaboré un nouvel outil.

Avec 60 millions d’articles disponibles dans plus de 300 versions linguistiques, le contenu de Wikipédia ne cesse d’augmenter au rythme d’environ 200 000 nouveaux articles par mois. La plupart du temps, les internautes découvrent de nouvelles connaissances et approfondissent un sujet en cliquant sur les liens hypertextes qui relient un article à un autre. Mais qu’en est-il des articles de Wikipédia auxquels aucun autre article ne renvoie’

On appelle ces derniers des «articles orphelins» . Pour mieux comprendre ce phénomène, des chercheuses et chercheurs du Laboratoire de science des données (DLAB) de la Faculté informatique et communications de l’EPFL, en collaboration avec l’ équipe de recherche de la Fondation Wikimédia , ont réalisé la première étude systématique des articles orphelins dans les 319 versions linguistiques de Wikipédia qui existaient au moment de l’étude.

«Wikipédia est un réseau au même titre que les routes, Internet, les composés chimiques ou les gènes, et tout réseau repose sur le concept de la navigabilité, qui permet d’aller d’un endroit à un autre. Les réseaux d’information sont organisés selon des hiérarchies particulières. Nous souhaitions comprendre pourquoi certains articles ne sont jamais consultés. C’est ainsi que nous avons commencé à nous intéresser aux articles orphelins», explique Akhil Arora, chercheur doctorant au DLAB et principal auteur de l’étude Orphan Articles: The Dark Matter of Wikipedia.

Les chercheuses et chercheurs ont remarqué que près de 9 millions d’articles de Wikipédia, toutes langues confondues, soit environ 15%, étaient orphelins, c’est-à-dire invisibles pour les internautes consultant Wikipédia, et qu’ils existaient dans presque tous les domaines sur la plateforme. En général, les articles non orphelins sont deux fois plus consultés que les articles orphelins. Au-delà des simples corrélations, les chercheuses et chercheurs ont également établi une relation de cause à effet entre l’ajout de liens vers des articles orphelins et l’augmentation du nombre de leurs pages consultées.

Le manque de visibilité des articles orphelins est dû à la méthode de recherche et de consultation des pages de Wikipédia. Les internautes peuvent utiliser un moteur de recherche, qui les renvoie à une page particulière de Wikipédia; utiliser Wikipédia comme encyclopédie et passer d’un article à un autre; ou combiner les deux méthodes.

Dans tous ces cas de figure, la personne qui rédige un article devra non seulement ajouter des liens dans l’article qui renvoient à d’autres articles, mais aussi connaître tous les articles pertinents de Wikipédia vers lesquels l’article pourrait renvoyer, ce qui n’est pas une tâche facile.

«Une personne rédige un article sur un sujet qu’elle maîtrise; elle est donc en mesure d’ajouter des liens vers d’autres articles, déclare Akhil Arora. L’inversion de la directionnalité introduit de nombreuses difficultés, car elle n’est pas forcément experte sur d’autres sujets et articles; parfois, ces relations ne sont pas symétriques et l’intégralité du contenu de Wikipédia est comparable à l’Univers.»

Les recherches ont montré qu’il existe de grandes différences entre les langues. Dans plus de 100 langues, le pourcentage d’articles orphelins est supérieur à 30%, avec un chiffre particulièrement élevé pour l’arabe égyptien (78%) et le vietnamien (50%). Ces deux langues font partie des 20 versions linguistiques de Wikipédia majoritaires. Cela souligne le problème du manque de compétences des rédactrices et rédacteurs dans certaines langues et démontre la nécessité d’améliorer les outils existants tels que FindLink , qui les aident dans cette tâche.

L’une des conclusions intéressantes de l’étude est qu’un article orphelin dans une langue ne l’est pas toujours dans d’autres langues, ce qui a amené les chercheuses et chercheurs à développer une nouvelle approche pour identifier les articles qui peuvent renvoyer à des articles orphelins via la traduction de liens.

«Si le même article n’est pas orphelin dans une autre langue, cela signifie que les rédactrices et rédacteurs ont pu trouver d’autres articles pouvant renvoyer à cet article. Il suffisait donc de transférer le lien des autres langues vers la langue dans laquelle l’article était orphelin. Nous avons découvert que cette approche permettait de suggérer des liens pour plus de 63% des articles orphelins», précise Akhil Arora.

L’équipe de l’EPFL poursuit sa collaboration avec les chercheuses et chercheurs de la Fondation Wikimédia pour transformer cette approche en outil (voir le prototype initial ) afin d’améliorer l’expérience des internautes qui consultent Wikipédia. Elle a également recours à l’IA pour contribuer à cet effort sur deux fronts.

Premièrement, les chercheuses et chercheurs travaillent sur des réseaux neuronaux graphiques pour organiser les recommandations de liens qui serviront de base à l’outil. Deuxièmement, de la même manière qu’une carte thermique, ils développent un outil supplémentaire qui peut guider les rédactrices et rédacteurs à l’endroit d’une page où ils devraient envisager d’ajouter de nouveaux concepts qui utiliseront ensuite l’IA générative pour suggérer un texte de départ. Il est important de noter que les rédactrices et rédacteurs bénévoles améliorent, rédigent et vérifient le travail effectué par l’IA. L’approche de l’IA sur Wikipédia a toujours été celle de systèmes en «boucle fermée», dans lesquels les êtres humains sont dans la boucle.

«La communauté des rédactrices et rédacteurs rend service au monde, mais leur nombre est insuffisant, en particulier dans les langues minoritaires. L’un de nos objectifs est de mieux les soutenir, car la rédaction et la mise à jour des articles peuvent être une tâche fastidieuse. Wikipédia est un service en libre accès incroyable. C’est pourquoi les outils que nous créons sont si utiles aux rédactrices et rédacteurs qui font ce travail formidable», conclut Akhil Arora.