Dare visibilità alle voci orfane di Wikipedia

- EN- DE- FR- IT
(© Immagine: Wikipedia)
(© Immagine: Wikipedia)

Wikipedia è la più grande piattaforma di conoscenza ad accesso aperto di Internet. Tuttavia, uno studio dell’EPFL ha rilevato che il 15% dei suoi contenuti è invisibile. Per ovviare a questo problema, gli scienziati hanno sviluppato un nuovo strumento.

Con 60 milioni di articoli disponibili in oltre 300 versioni linguistiche, il contenuto di Wikipedia cresce costantemente a un ritmo di circa 200.000 nuovi articoli al mese. Nella maggior parte dei casi, gli utenti di Internet scoprono nuove conoscenze e approfondiscono un argomento cliccando sui collegamenti ipertestuali che collegano un articolo all’altro. Ma che dire degli articoli di Wikipedia a cui non c’è nessun altro collegamento?

Questi sono noti come "articoli orfani". Per comprendere meglio questo fenomeno, i ricercatori del Data Science Laboratory (DLAB) della Facoltà di Informatica e Comunicazione dell’EPFL, in collaborazione con il team di ricerca della Wikimedia Foundation, hanno condotto il primo studio sistematico degli articoli orfani nelle 319 versioni linguistiche di Wikipedia esistenti al momento dello studio.

"Wikipedia è una rete allo stesso modo delle strade, di Internet, dei composti chimici o dei geni, e tutte le reti si basano sul concetto di navigabilità, che permette di andare da un posto all’altro. Le reti informative sono organizzate secondo particolari gerarchie. Volevamo capire perché certi articoli non venissero mai consultati. Così abbiamo iniziato a esaminare gli articoli orfani", spiega Akhil Arora, ricercatore di dottorato presso il DLAB e autore principale dello studio Orphan Articles: The Dark Matter of Wikipedia.

I ricercatori hanno scoperto che quasi 9 milioni di articoli di Wikipedia, in tutte le lingue, ovvero circa il 15%, erano orfani, cioè invisibili agli utenti di Wikipedia, e che esistevano in quasi tutte le aree della piattaforma. In generale, gli articoli non orfani sono consultati due volte più spesso di quelli orfani. Oltre alle semplici correlazioni, i ricercatori hanno anche stabilito una relazione causale tra l’aggiunta di link agli articoli orfani e l’aumento del numero di pagine consultate.

La scarsa visibilità degli articoli orfani è dovuta al modo in cui le pagine di Wikipedia vengono cercate e sfogliate. Gli utenti di Internet possono utilizzare un motore di ricerca, che li rimanda a una determinata pagina di Wikipedia; utilizzare Wikipedia come un’enciclopedia e spostarsi da un articolo all’altro; oppure combinare i due metodi.

In tutti questi casi, la persona che scrive l’articolo non solo deve aggiungere collegamenti ad altri articoli, ma deve anche conoscere tutti gli articoli di Wikipedia pertinenti a cui l’articolo potrebbe collegarsi, il che non è un compito facile.

Una persona scrive un articolo su un argomento di cui sa molto, quindi è in grado di aggiungere collegamenti ad altri articoli", dice Akhil Arora. L’inversione della direzionalità introduce molte difficoltà, perché non è necessariamente un esperto di altri argomenti e articoli; a volte queste relazioni non sono simmetriche e l’intero contenuto di Wikipedia è paragonabile all’Universo".

La ricerca ha dimostrato che esistono notevoli differenze tra le varie lingue. In più di 100 lingue, la percentuale di articoli orfani è superiore al 30%, con una cifra particolarmente alta per l’arabo egiziano (78%) e il vietnamita (50%). Queste due lingue sono tra le 20 versioni linguistiche maggioritarie di Wikipedia. Ciò evidenzia il problema della mancanza di competenze dei redattori in alcune lingue e dimostra la necessità di migliorare gli strumenti esistenti, come FindLink , che li aiutano in questo compito.

Una delle conclusioni interessanti dello studio è che un articolo orfano in una lingua non è sempre un articolo orfano in altre lingue, il che ha portato i ricercatori a sviluppare un nuovo approccio per identificare gli articoli che possono fare riferimento ad articoli orfani tramite la traduzione di link.

"Se lo stesso articolo non è orfano in un’altra lingua, significa che i redattori sono stati in grado di trovare altri articoli che potessero collegarsi a questo articolo. Tutto quello che dovevano fare era trasferire il link dalle altre lingue alla lingua in cui l’articolo era orfano. Abbiamo scoperto che questo approccio ha permesso di suggerire link per oltre il 63% degli articoli orfani", spiega Akhil Arora.

Il team dell’EPFL sta proseguendo la collaborazione con i ricercatori della Wikimedia Foundation per trasformare questo approccio in uno strumento (vedi il prototipo iniziale) per migliorare l’esperienza degli utenti di Internet che consultano Wikipedia. Inoltre, sta utilizzando l’intelligenza artificiale per contribuire a questo sforzo su due fronti.

In primo luogo, i ricercatori stanno lavorando su reti neurali grafiche per organizzare le raccomandazioni sui link che costituiranno la base dello strumento. In secondo luogo, allo stesso modo di una mappa di calore, stanno sviluppando uno strumento aggiuntivo in grado di guidare i redattori verso il punto di una pagina in cui dovrebbero considerare l’aggiunta di nuovi concetti, che poi utilizzerà l’IA generativa per suggerire un testo di partenza. È importante notare che i redattori volontari migliorano, modificano e controllano il lavoro svolto dall’IA. L’approccio all’IA su Wikipedia è sempre stato quello di sistemi a "ciclo chiuso", in cui gli esseri umani sono nel ciclo.

"La comunità dei redattori fornisce un servizio al mondo, ma non ce ne sono abbastanza, soprattutto nelle lingue minoritarie. Uno dei nostri obiettivi è quello di supportarli meglio, perché scrivere e aggiornare gli articoli può essere un compito noioso. Wikipedia è un incredibile servizio ad accesso aperto. Ecco perché gli strumenti che stiamo creando sono così utili ai redattori che svolgono questo lavoro straordinario", conclude Akhil Arora.