web analytics
back to top

Su Internet si parla per lo più Inglese, un rischio per l′AI

L’Inglese domina su Internet, ma molte lingue sono quasi assenti. Questo squilibrio potrebbe influenzare l’Intelligenza Artificiale, che rischia di favorire l’inglese, marginalizzando altri idiomi.

Internet è diventato una parte integrante della vita di circa il 63% della popolazione mondiale, con oltre 5 miliardi di persone connesse digitalmente. Resta ancora, purtroppo, attuale il dato di circa il 37% della popolazione mondiale che non ha accesso a Internet.

Ora, questa enorme massa di individui proviene da tutte le parti del mondo e parla migliaia di lingue diverse, molte delle quali si possono trovare online, dall’urdu al catalano.

Ma di recente, uno studio condotto da Rest of World in collaborazione con W3Techs, azienda austriaca specializzata in web scanning, ci mostra un quadro diverso.

I madrelingua inglese sono il 5% della popolazione globale

Secondo i dati raccolti da questo studio, oltre la metà dei siti web utilizza l’inglese come lingua principale, una percentuale sorprendentemente alta considerando che i madrelingua inglesi costituiscono meno del 5% della popolazione globale.

inglese lingua usata internet web franzrusso.it

Al contrario, le lingue più parlate nel mondo come il cinese e l’hindi, nonostante la loro vasta diffusione, sono rispettivamente presenti solo nell’1,4% e nello 0,07% dei domini. Lingue come il bengalese e l’urdu, parlate da centinaia di milioni di persone, sono quasi assenti online.

Da quello che sappiamo, W3Techs monitora principalmente i linguaggi di programmazione utilizzati online. La società quindi scandisce regolarmente i domini pubblicamente accessibili, categorizzandoli per lingua e fornendo rapporti in tempo reale ai suoi clienti. I dati raccolti sono stati poi comparati con le statistiche sull’uso delle lingue a livello mondiale, fornite da Ethnologue, un’organizzazione no-profit riconosciuta come autorità mondiale in materia di lingue.

Alcune lingue europee su Internet sono inesistenti

La combinazione di questi due set di dati mostra un’evidente sovrarappresentazione e sottorappresentazione di alcune lingue sul web. L’inglese, il tedesco e il giapponese dominano l’internet molto più di quanto non facciano tra i parlanti nativi, mentre molte lingue non europee sono quasi inesistenti online.

Le organizzazioni internazionali vedono questa discrepanza come un segnale preoccupante per il futuro. Già nel 2003, l’UNESCO esortava i settori pubblici e privati a mantenere contenuti online in tutte le lingue umane. Tuttavia, con l’espansione del web, il divario tra le lingue parlate e quelle utilizzate online non ha fatto che aumentare.

Bhanu Neupane, manager presso l’UNESCO che si occupa di inequità linguistica, ha espresso la preoccupazione di un futuro in cui solo una manciata di lingue avrà una presenza significativa online. “Il mondo sta convergendo,” ha detto Neupane, “e tra 15 anni potrebbero esserci solo cinque o dieci lingue che vengono effettivamente utilizzate nelle attività commerciali e online.

inglese lingua usata web

Anche se i dati presentano delle limitazioni (ad esempio, non tengono conto dei contenuti non pubblicamente accessibili come le app e i social network), il messaggio di fondo è chiaro. Milioni di persone non madrelingua inglesi sono costrette a utilizzare il web in una lingua.

Le indagini sulla questione variano, ma la valutazione dell’UNESCO è coerente con i risultati di W3Techs, che mostrano solo 14 lingue presenti in più dell’1% dei domini.

Se vi state chiedendo quale sia la situazione dell’italiano, la risposta è nel grafico che vedete in alto e ci illustra che la nostra lingua sul web è usata per l’1,9%, a fronte di uno 0,81% di persone che la parlano a livello globale.

In ogni caso, è importante considerare alcune limitazioni di questo set di dati. Le informazioni provengono da scansioni di siti web pubblicamente disponibili, quindi qualsiasi cosa si trovi dietro un login, come app e social network, non viene probabilmente conteggiata. Questo potrebbe implicare una sottostima particolare del web cinese, sebbene sia difficile determinare l’entità di questa discrepanza.

Inglese e Internet, limiti per l’Intelligenza Artificiale Generativa

Anche all’interno di social media accessibili al web, come Reddit, le scansioni non sono progettate per esaminare ogni pagina di un dominio, il che significa che potrebbero essere sottostimati anche le comunità non anglofone presenti su siti in lingua inglese.

Nonostante queste considerazioni, l’immagine complessiva è difficile da ignorare.

Milioni di persone, dunque, che non hanno l’inglese come lingua madre, o che non parlano affatto inglese, si trovano costrette a utilizzare il web in una lingua diversa da quella con la quale sono cresciuti.

Questa realtà assume una rilevanza ancora più grande se consideriamo che i testi disponibili pubblicamente su Internet vengono spesso utilizzati per formare grandi modelli linguistici, come Bard e GPT-4.

In pratica, il punto chiave è che se l’addestramento dei modelli di intelligenza artificiale generativa, come Bard e GPT-4, si basa in gran parte su testi disponibili in inglese, allora si rischia di creare programmi che favoriscono l’inglese e forse non riuscirebbero a comprendere o generare efficacemente contenuti in altre lingue.

Tutto questo crea una sorta di squilibrio digitale, in cui l’intelligenza artificiale può finire per essere ottimizzata prevalentemente per coloro che parlano inglese, a discapito di coloro che parlano altre lingue.

author avatar
Franz Russo Blogger, Digital Strategist
Franz Russo, fondatore, nel 2008, del blog InTime, ho collaborato con grandi aziende nazionali e internazionali, come consulente per strategie di comunicazione e come divulgatore. Da sempre impegnato nella comunicazione digitale, cerco di unire sempre una profonda passione per l’innovazione tecnologica a una visione olistica dell’evoluzione dei social media e degli strumenti digitali. Il mio percorso professionale in questo campo, iniziato nel 2007, è stato caratterizzato da un costante impegno nel raccontare e interpretare i cambiamenti nel panorama digitale. Il mio approccio si basa su un mix di analisi strategica, creatività e un profondo impegno per il racconto e la divulgazione.
La tua iscrizione non può essere convalidata.
La tua iscrizione è avvenuta correttamente.

InTime Blog Newsletter

Abbonati alla newsletter e resta aggiornato su articoli e approfondimenti 

Utilizziamo Brevo come piattaforma di marketing. Inviando questo modulo, accetti che i dati personali da te forniti vengano trasferiti a Brevo per il trattamento in conformità all'Informativa sulla privacy di Brevo.

Scrivimi

Se ti piace quello che scrivo e se vuoi conoscermi meglio, clicca il bottone qui di fianco.

LASCIA UN COMMENTO

Per favore inserisci il tuo commento!
Per favore inserisci il tuo nome qui

lunedì, 6 Maggio, 2024

Ultimi articoli

InTime Podcast

spot_img

Articoli correlati
Related

Ecco il primo video musicale realizzato con la IA, SORA

Ecco il primo video musicale realizzato interamente con l'intelligenza artificiale, SORA. Si tratta del video di brano "The Hardest Part" di Washed Out.

L’Italia tra i primi 10 paesi al mondo per violazione dei dati

Secondo un recente studio, l'Italia si piazza al nono posto a livello mondiale per violazioni di dati, con circa 267 milioni di account compromessi dal 2004.

UE, indagine su Facebook e Instagram per la disinformazione russa

L'UE ha avviato un'indagine su Facebook e Instagram per il rischio di disinformazione russa in vista delle elezioni europee del 2024. L'indagine si concentra sulle politiche di Meta e anche sulla mancanza di sostituti per Crowd Tangle.

Microsoft e investimenti IA: 1,7 miliardi di dollari in Indonesia

Microsoft annuncia un investimento di 1,7 miliardi di dollari in Indonesia sull'intelligenza artificiale e il cloud. L'azienda si impegna a formare 2,5 milioni di persone per stimolare la crescita economica dell'area.