La misteriosa sparizione delle pagine web

Prendo spunto dalla ricerca effettuate dal “Pew Research Center” dal titolo “When Online Content Disappears” per condividere alcune riflessioni sociologiche dedicate ad Internet. L’affermazione iniziale presente nella ricerca è netta, inequivocabile:

“Un quarto delle pagine web che sono state pubblicate tra il 2013 e il 2023 non sono più accessibili”

Come spesso accade in Internet un comportamento, una dinamica, accade a prescindere dal luogo, dal contenuto o dal redattore.

Questo fenomeno chiamato “digital decay” ovvero “decadimento digitale” riguarda indistintamente blog, siti occasionali, siti web governativi e pagine di Wikipedia. Fenomeno che apre verso il “Digital dark age” ovvero l’impossibilità di recuperare materiale digitale pubblicato nella nostra epoca, in quanto memorizzato su cloud e hardware obsoleto, oppure attivo in spazi temporanei, comunque non più disponibile.

Le percentuali presenti nella ricerca ci fanno riflettere:

  • il 21% delle pagine web di siti governativi contiene almeno un link non funzionante
  • Il 54% delle pagine di Wikipedia contiene almeno un link nella sezione “Riferimenti” che punta a una pagina non più esistente. Più precisamente l’11% di tutti i collegamenti a Wikipedia non sono più accessibili. Su circa il 2% delle pagine di origine contenenti link di riferimento, ogni link della pagina era rotto o comunque inaccessibile, mentre un altro 53% delle pagine conteneva almeno un link rotto.

A cui si va a sommare il successivo approfondimento effettuato nella stessa ricerca, ovvero l’analisi di un campione di tweet pubblicati nella primavera del 2023, seguiti per un arco temporale di tre mesi:

  • Quasi un tweet su cinque non è più visibile pubblicamente sul sito a pochi mesi dalla pubblicazione. Nel 60% di questi casi, l’account che ha originariamente pubblicato il tweet è stato reso privato, sospeso o cancellato del tutto.
  • Alcuni tipi di tweet tendono a scomparire più spesso di altri. Più del 40% dei tweet scritti in turco o in arabo non sono più visibili sul sito entro tre mesi dalla pubblicazione.

Dopo questa sequela di numeri dovrebbe iniziare la parte allarmistica, quella che mi permetterebbe di aumentare significativamente il numero dei lettori di questo blog, con affermazioni del tipo “le pagine web scompaiono da Internet!”, “Internet sta scomparendo”, “Mistero!”, “Complotto!”, “Tutta la produzione di Internet del XXI secolo sta scomparendo!”.

I numeri non mentono, le pagine ed i tweet non ci sono più, buona parte del materiale digitale realizzato in questo quarto di secolo andrà progressivamente perso, ma il quadro è sicuramente più complesso.

Facciamo un passo indietro, analizziamo gli altri media:

  • Qualunque cosa detta in radio vale, vista la caratteristica del media, solo il momento dell’annuncio, pochi istanti. Può essere ripresa da altri media, registrata temporaneamente in una banca dati, ma è, per sua natura, istantanea, volatile.
  • I quotidiani hanno, per la loro stessa genesi e nomenclatura, valore a attenzione giornaliera. Le Emeroteche che conservano copie di quotidiani sono piuttosto rare.
  • Telegiornali, talk show, programmi scientifici di approfondimento, possono essere rivisti nelle grandi banche dati online, spesso sono disponibili per un intervallo limitato di tempo, al massimo qualche mese (anche per ovvi motivi d’interesse e per il costo degli spazi cloud).

Viceversa, le banche dati storiche, digitali, sono a disposizione nel lungo periodo solo per i contenuti che possiamo definire “eccellenti”, talvolta ad esclusiva disposizione degli addetti ai lavori.

Dunque, perché i contenuti pubblicati in Intenet dovrebbero durare più di dieci anni? Perché siamo stupiti dal fatto che una parte significativa di quanto pubblicato in Internet scompare?

Probabilmente molti di noi concepiscono Internet come un contenitore, una teca digitale, uno spazio digitale estremamente personale dove lasciare un segno indelebile, ma non è così.

L’obiettivo primario di Internet non è la conservazione della conoscenza, è essere cassa di risonanza di contenuti ed emozioni, è la diffusione (temporanea) di informazioni.

In pratica stiamo confondendo un grande tamburo, tramite il quale tutti noi possiamo fare molto rumore, con una grande biblioteca dove possiamo conservare libri.

Tutt’altra cosa sono i repository digitali, ad esempio in ambito accademico, utili per la conservazione e la diffusione della conoscenza, ma, come detto, si tratta di contenuti “eccellenti”, non di qualunque pagina web o tweet.

Le pagine web pubblicate in Internet hanno fisiologicamente una vita breve, il decadimento digitale è un fenomeno normale, fisiologico, vista anche l’immensa di quantità di contenuti prodotti in Rete ogni giorno. Le pagine web presenti nei siti istituzionali o richiamate da Wikipedia non fanno eccezione.

In un decennio cambiano i motori di ricerca, e le modalità di attenzionare l’informazione da parte di questi, cambiano le dinamiche di comunicazione, cambiano nome gli enti pubblici, le aziende private, cambiano gli organigrammi e le organizzazioni, si evolvono le modalità d’uso e conseguentemente le strategie di design e definizione dei menu nei siti web, in cui le url (gli indirizzi) delle pagine sono posizionati. Men che meno i post ed i tweet, che nascono al momento e scompaiono in tutta fretta; durano il tempo di un cinguettio.

A vedere il bicchiere mezzo vuoto, anzi a vedere qualche crepa nel bicchiere, è altresì evidente che l’estrema dinamicità che caratterizza Internet favorisce la diffusione di false notizie.

L’impossibilità di rintracciare la fonte, l’origine della notizia, permette a tutti di affermare, per qualche istante o per qualche giorno, qualsiasi cosa, aprire dibattiti che polarizzano le opinioni, fornire statistiche prive di riscontro.

La possibilità di aprire e chiudere account temporanei sostiene la pubblicazione di notizie parzialmente o completamente false.

L’utilizzo dell’intelligenza artificiale nella generazione di nuovi contenuti farà aumentare la presenza in rete di contenuti temporanei, occasionali e, purtroppo, in parte, falsi.

Sarà possibile, anzi è già possibile, catturare l’attenzione di consumatori ed elettori, tramite la generazione di webtrend basati su false news per poi, con un veloce gioco di prestigio, far scomparire tavolo e carte, account e notizia.

L’antidoto a tutto ciò non è la realizzazione di contenuti definitivi in Internet, né il rincorrere account e contenuti provvisori, cosa non possibile, ma la crescita nelle nuove generazioni, di capacità critica di analisi delle informazioni e delle fonti.

Chi mi sta dicendo cosa? Perché lo sta dicendo?

Chissà forse a fronte di servizi di “A.I. dark” che generano false news ci troveremmo ad utilizzare servizi di “super A.I” che verificano l’attendibilità della fonte, chissà.

Nell’attesa di capire meglio cosa ci aspetta concludo con un paradosso e due rimandi a vecchi articoli:

  • Il sito (di un quotidiano italiano estremamente affidabile) in cui ho trovato originariamente i riferimenti alla ricerca citata ad inizio articolo contiene, nella stessa pagina, link che non funzionano più. Una grande dimostrazione di coerenza.
  • Il Blog Mondoduepuntozero è attivo da oltre 11 anni, il nostro primissimo articolo del 19 marzo 2013 è ancora disponibile, sono passati oltre 4 mila giorni, l’articolo era dedicato a Google, a dimostrazione che non tutto passa velocemente in Internet ci siamo noi di Mondoduepuntozero.
  • È ancora attuale il nostro articolo del 1° gennaio 2017: “Post Truth: Le bufale in Internet” che, oltre a contenere qualche suggerimento, termina con la seguente affermazione:

“Internet, come diciamo spesso, non è né il migliore né il peggiore dei mondi possibili, è semplicemente specchio del nostro tempo.”

Mondoduepuntozero