BIG DATA o quando Google pensò di poter prevedere l’andamento dell’influenza

Big Data. Di che parlo? Se sai qualcosa di informatica, magari ne sai parlare. O hai già letto da qualche parte queste parole.

In realtà, la parola ci dà già abbastanza informazioni per capire di cosa stiamo trattando. Big Data significa letteralemente grandi dati. Cioè, grandi raccolte di dati informatici. Così grandi da non poter essere elaborati con i metodi tradizionali.

Questi big data, però, non sono così importanti perché sono grandi, ma soprattutto in relazione al loro utilizzo.

Per spiegarti come si usano, ti racconterò una storia al limite della fantascienza. Una storia che ha un solo, indiscusso, protagonista. Big G. Lo conosciamo tutti. Risolve la maggior parte dei nostri rompicampi quotidiani. Sembra sapere tutto. Ma è sempre così infallibile?

2008, Contea di Santa Clara, California. L’economia globale sta andando in pezzi, ma un gruppo di ragazzi a Mountain View non sembra risentirne. Lavorano per Big G e sono convintissimi di essere gli autori di una rivoluzione. La loro arma si chiama Google.org e il loro leader è l’epidemiologo Larry Brilliant. Classe ’44, Brilliant immagina un futuro in cui un ragazzino, in Africa, possa aprire Google e scoprire che, in fondo alla strada, c’è un’epidemia di colera.

Science Fiction? No, Google Flu. Secondo i vertici di Mountain View, i dati raccolti fino a quel momento attraverso le ricerche degli utenti sull’influenza stagionale non possono rimanere inascoltati. Se in una contea dell’Arizona, un numero ragionevole di utenti digita sulla search bar di Google, le stesse 40 parole chiave legate all’influenza, allora quella contea può essere classificata come focolaio.

Nasce così GFT, Google Flu Trend. Qualcuno – in verità pochissimi – lamenta un’invasione della privacy. Per il resto, il mondo scientifico e tecnologico è scosso da un’onda di entusiasmo. Joseph Breese, capo della divisione influenza del Center for Desease Control, parla di nuova era in cui la medicina e l’High Tech cooperano per il benessere. Larry Brilliant sente che siamo solo all’inizio di una nuova fase della storia della prevenzione. Tutti i media celebrano Google. La CNN, il NY Times e il Wall Street Journal. Una perla che brilla in mezzo alle macerie dell’economia globale.

Ogni giorno, milioni di persone consultano Big G. Ogni giorno, milioni di persone affidano a Google le proprie paure, i propri desideri, le angosce e le preoccupazioni. Come un flusso inarrestabile, i Big Data entrano nei server dei motori di ricerca e vengono memorizzati. Numeri e codici diventano chiavi di interpretazione, neanche troppo complesse, della realtà che viviamo. Gli algoritmi riflettono le tendenze e possono arrivare a prevedere il futuro.

Ma è davvero così?

Le nostre ricerche riflettono veramente la nostra realtà? Poniamo che oggi, in una scuola di un certo comune in provincia di Firenze, si sia parlato a tutti gli studenti di prevenzione delle malattie sessualmente trasmissibili. I ragazzi hanno paura e non vogliono che i professori conoscano i loro comportamenti sessuali. Allora, si affidano a Dottor Google. Migliaia di studenti ricercano per giorni informazioni sulla sifilide. Eppure, è altamente improbabile che una scuola di Firenze sia diventata epicentro di un’infezione. Nonostante il trend.

I Big Data sono, allora, un’arma a doppio taglio. È vero che gli algoritmi potrebbero prevedere l’andamento e la diffusione di una malattia in un certo territorio? O è più probabile che possano intuirne la percezione o la paura della diffusione da parte di quelli che abitano un certo territorio?

Numeri. Senza contesto, i numeri restano numeri e possono diventare pericolosamente fuorvianti.

È ormai leggenda quell’uomo che, passeggiando per Berlino con 99 cellullari, inganna Google Maps e fa credere a Big G che le vie del centro siano intasate dal traffico.

I Big Data comportano opportunità e vantaggi, ci fanno acquisire nuove conoscenze, scoprire nuove relazioni, ci consentono di formulare pronostici e personalizzare le offerte. Tuttavia, ad oggi, un uso sistematico del flusso dei dati per stabilire con certezza la diffusione di un’epidemia risulta azzardato. E, entro qualche anno, ha dovuto accettarlo persino Mountain View.

Nella stagione influenzale 2012-2013, Google Flu Trend sovrastima l’incidenza dell’influenza negli Stati Uniti almeno del 50%. I dati sono percezione. E la percezione non è realtà. Nella stessa stagione, Big G è impreciso sul picco dell’influenza. Da agosto 2011 a settembre 2013 sbaglia le previsioni relative a 100 settimane su 108. Poi, sottovaluta grandemente l’influenza pandemica da H1N1, noto come virus dell’influenza suina. Insomma, GFT è un immenso, enorme flop.

Dando per certo che la prima reazione della gente colpita da influenza è cercare informazioni sul web piuttosto che rivolgersi alla sanità, GFT conta sul fatto che dai Big Data arrivino una quantità infinita di informazioni tali da consentirci di attuare imprese impossibili con un volume inferiore di dati. Ad esempio, quelli dei Center for Deases Control. La realtà però, implacabile, smentisce in pochi anni i geni di Mountain View.

Science, la rivista scientifica più famosa al mondo, pubblica nel 2014 un articolo destinato alla leggenda: The Parable of Google Flu: Traps in Big Data Analysis. La star del mondo dei Big Data deve deporre le armi.

Non volendo unirci al sonito delle solite vecchie mille voci che prima acclamano e poi criticano, con Ryan Kennedy possiamo dire che GFT è uno straordinario pezzo di ingegneria. E, come ogni prodotto della tecnica, può essere perfezionato.

Del resto, non occorre scomodare i massimi sistemi dell’analisi dei dati per sostenere che la qualità non corrisponde sempre alla quantità. Dunque, più di decodificare l’enorme massa dei Big Data, la sfida dei prossimi anni sarà probabilmente quella di selezionare le fonti attendibili e le sorgenti di dati utilizzabili.

L’era dei Big Data, forse, non è ancora arrivata. Ma nessuno può escludere che arriverà presto.