Print Friendly, PDF & Email

eticaeconomia

Big Data, una vera rivoluzione scientifica?

di Angelo Vulpiani

Angelo Vulpiani si occupa dell’attesa “rivoluzione dei Big Data”, partendo dalla diffusa opinione secondo cui grazie all'enorme mole di informazioni attualmente disponibili saremmo prossimi ad una nuova rivoluzione che consentirebbe di fondare una scienza senza basi teoriche. Vulpiani illustra le ragioni del suo scetticismo e sostiene che non è opportuno esagerare l’importanza dei Big Data, il cui impatto nell’ambito della ricerca, peraltro, non è stato finora sostanziale

Viviamo in un mondo globalizzato con un’enorme produzione di dati, da anni ci sentiamo ripetere che siamo nell’era dei Big Data e che quest’abbondanza di informazioni non potrà che essere una risorsa importante in diversi ambiti, ad esempio per la sicurezza, per le assicurazioni o per aumentare l’efficienza della aziende.

Sicuramente avere a disposizione una grande mole di informazioni non può che essere utile: ad esempio, più dati sull’influenza vengono raccolti meglio sarà per la prevenzione. Ovviamente i Big Data fanno nascere una serie di problemi etici e legali: chi è il proprietario dei miei dati sanitari? Quale uso possono farne le compagnie di assicurazioni, i datori di lavoro, i tribunali?

Senza grande sorpresa, anche la politica ha scoperto i Big Data ed il loro ruolo potenziale nell’ambito scientifico e tecnologico. Ad esempio il governo italiano, sulla scia di Expo, intende lanciare il progetto Human Technopole, di cui ha recentemente discusso Francesco Sinopoli sul Menabò, che è incentrato in gran parte proprio sul trattamento di una grande mole di dati.

In questo articolo mi occuperò di un aspetto, sicuramente meno interessante per il grande pubblico, ma importante da un punto di vista culturale, in particolare per la ricerca scientifica, ovvero la possibilità, offerta dai Big Data, di realizzare una nuova rivoluzione scientifica che consenta di fondare una scienza senza basi teoriche.

Secondo alcuni, con la disponibilità di grandi quantità di informazioni, saremmo di fronte ad una nuova rivoluzione scientifica: la possibilità di fare scienza attraverso l’analisi di dati avrebbe creato un quarto paradigma (T. Hey et al., “The Fourth Paradigm: Data Intensive Scientific Discovery”, Microsoft Research 2009). Un nuovo approccio si aggiungerebbe, quindi, alle tre metodologie già esistenti: il metodo sperimentale, quello teorico matematico e quello computazionale (simulazioni numeriche).

Il guru informatico Chris Anderson è arrivato a sostenere, in un articolo dal titolo esplicitamente provocatorio “The End of Theory: The Data Deluge Makes the Scientific Method Obsolete”, che “ormai la grande quantità di dati a disposizione rende il metodo scientifico obsoleto… i petabyte ci consentono di dire la correlazione è sufficiente, possiamo smettere di cercare modelli”. Non sarebbe, quindi, più necessario studiare teorie generali, basterebbe scaricare i dati da Internet, trattarli al computer con opportuni algoritmi statistici ed avremmo tutto quello che serve. Uno degli slogan ricorrenti dei profeti dei Big Data è “basta la correlazione”. Inutile insistere sul fatto che l’esistenza di una correlazione tra due quantità non dica molto, come mostrano alcuni esempi decisamente divertenti: la correlazione tra il numero di pirati e la temperatura media sulla terra, quella tra il consumo di cioccolata pro capite ed il numero di premi Nobel in un dato paese o quella tra il numero di affogati per caduta da un barca da pesca e il numero di matrimoni nel Kentucky.

L’idea secondo la quale è sempre meglio avere più dettagli (o dati) è ingenua e fuorviante: quasi mai la scienza avanza per accumulo di dati, bensì per la capacità di eliminare gli aspetti secondari. Ovviamente fare questo non è semplice: più volte in fisica è stata sottolineata la difficoltà di individuare le ”giuste variabili del sistema”. In quasi ogni problema ci sono molti aspetti che sono irrilevanti e la prima cosa (forse la più difficile e importante) da fare è identificare la parte significativa del fenomeno, solo così si ha qualche speranza di capire.

Una descrizione molto dettagliata può avere conseguenze addirittura negative: Borges nel breve racconto “Funes, o della memoria” scrive di un personaggio che, in seguito ad un incidente, ricordava tutto di tutto, sin nei minimi dettagli della più comune delle situazioni. Questo, ben lungi dall’essere un fatto positivo, comportava la quasi incapacità di un pensiero astratto. Funes era infastidito che un cane visto di profilo alle 3:14 fosse lo stesso visto di fronte alle 3:15 e era quasi incapace di idee generali platoniche.

Per non rimanere troppo sul’astratto vale la pena discutere il caso delle previsioni meteo per mostrare chiaramente come, per un problema non banale, sia decisamente troppo ottimistico puntare solo sull’uso dei dati osservativi, ma sia necessaria una combinazione di tecniche matematiche, intuizione fisica e sviluppo tecnologico.

Assumiamo (cosa che non sempre è vera) di sapere che il fenomeno che vogliamo studiare è descritto da un set di variabili x(t) la cui evoluzione è deterministica. Per fare una previsione del futuro si potrebbe pensare di cercare nel passato una situazione ”vicina” a quella di oggi, se la si trova al giorno k allora è sensato assumere che domani il sistema sarà ”vicino” al giorno k+1 del passato.

Sembrerebbe tutto facile, in particolare ora che siamo nell’ era dei Big Data e, quindi, potremmo non perdere tempo con la teoria. Per prima cosa chiediamoci se sia sempre possibile individuare un analogo (cioè un giorno k nel passato in cui il sistema è ”vicino” ad oggi). Da un punto di vista matematico il problema è strettamente collegato ad un risultato classico della fine del diciannovesimo secolo (il teorema di ricorrenza di Poincaré): un sistema deterministico, in cui ogni variabile è contenuta in un intervallo limitato, dopo un certo tempo ritorna vicino alla sua condizione iniziale. Quindi l’analogo sicuramente esiste, c’è però un problema pratico: quanto indietro si deve andare per trovarlo? La risposta è un risultato ben noto della teoria matematica dell’ergodicità. La difficoltà di trovare un analogo dipende dalla dimensione “D” (in parole povere D è il numero minimo di variabili necessarie per descrivere il problema), per trovare un analogo con precisione percentuale “a” si deve andare indietro di un tempo ordine (1/a)D.

E facile convincersi che si può fare una previsione con l’idea degli analoghi, solo se la lunghezza della sequenza è di ordine almeno (1/a)D. Se D è grande (diciamo oltre 7−8) già per precisioni non enormi (ad esempio per a=0,05) in genere non si trova un analogo, basti notare che (1/a)10=2010 =1,024×1013. Da questo si capisce come la limitata lunghezza delle serie dei Big Data, per quanto grandi in situazioni non banali, non permette di usare per le previsioni un approccio puramente induttivo e senza teoria (Cecconi et al. , American Journal of Physics 80, 2012).

Nella realtà la situazione è più complicata di quella sopra descritta, infatti tipicamente non si conoscono nemmeno le ”variabili giuste”, e molto spesso non sappiamo neanche se il sistema evolve con regole deterministiche o stocastiche.

Discutiamo brevemente come si fanno le previsioni meteo. L’idea di base dell’approccio attualmente usato (proposto negli anni 20 da Richardson, che aveva capito come l’approccio in termini di analoghi era destinato a fallire), è il seguente: l’atmosfera evolve in accordo con le equazioni dell’ idrodinamica (per la velocità, la densità, la pressione, etc.) e la termodinamica. Quindi dalla conoscenza dello stato presente dell’atmosfera, risolvendo un sistema di equazioni alle derivate parziali, si può (almeno in linea di principio) effettuare una previsione del tempo. Ovviamente le equazioni in questione possono essere risolte solo numericamente.

Per la realizzazione del progetto visionario di Richardson si è aspettato fino agli anni 50 con lo sviluppo di tre ”ingredienti” assolutamente non banali: a) la messa a punto di equazioni efficaci; b) algoritmi numerici veloci; c) computer per i calcoli numerici.

I punti b) e c) non hanno bisogno di particolari commenti, il punto a) è l’ aspetto concettualmente importante per capire la necessità di un uso non banale della matematica per descrivere un fenomeno fisico complesso. Von Neuman ed i suoi collaboratori notarono che le equazioni originariamente proposte da Richardson, benché corrette, non sono adatte per le previsioni meteo. Il motivo, apparentemente paradossale, è che sono troppo accurate, infatti descrivono anche moti ondosi ad alta frequenza che sono irrilevanti in ambito meteorologico e difficili da trattare numericamente. E’ quindi necessario costruire equazioni efficaci in cui non compaiano le variabili veloci, quelle relative alle alte frequenze. L’approccio in termini delle equazioni originali non solo è numericamente difficile, ma è anche poco utile: solo con le equazioni efficaci per la dinamica lenta è possibile individuare gli aspetti più rilevanti che invece rimarrebbero nascosti nella descrizione (troppo dettagliata) in termini delle equazioni originali (Lynch, The Emergence of Numerical Weather Prediction: Richardson’ s Dream, Cambridge University Press, 2006).

Alla luce di quanto è accaduto per le previsioni del tempo – un problema che si può considerare ”facile” (nel senso che le equazioni e le variabili rilevanti sono note), in cui c’è stato bisogno delle intuizioni geniali di Richardson e Von Neumann e, in più, dello sviluppo di metodi numerici sofisticati e tecnologie avanzate – è difficile capire i proclami ottimistici dei teorici dei Big Data. Ci sono ben pochi casi in cui si sia riusciti a fare previsioni con una procedura non ad hoc. Non sorprendentemente il metodo funziona se D è piccolo (ma questo lo si può sapere solo a posteriori), un esempio interessante à costituito dalle maree in cui D è dell’ ordine di 3 o 4.

Sorge allora naturale domandarsi cosa si può fare per le previsioni in finanza. Anche assumendo che esistano delle leggi, non è chiaro se esse siano di natura deterministica o stocastica, in ogni caso quali siano le ”variabili giuste” è un problema aperto. Possono i Big Data portare ad un reale avanzamento? L’eventuale carattere stocastico non è una grande limitazione, di fatto certi approcci degli analisti finanziari sono varianti della tecnica degli analoghi: dall’andamento del mercato nel passato si cerca di inferire il futuro. Rimane il problema del valore di D e soprattutto della stazionarietà del sistema; infatti se le regole (deterministiche o probabilistiche) cambiano nel tempo troppo velocemente la filosofia dell’imparare dal passato non può che fallire (F. Sylos Labini, Rischio e previsione, Laterza, 2016).

Non trovo, pertanto, convincente la retorica sulla presunta nuova rivoluzione dei Big Data, di cui finora, nonostante le molti dichiarazioni enfatiche, non c’è traccia, almeno nella ricerca di base. L’idea dell’utilizzo di Big Data per fondare una scienza senza basi teoriche sembra inoltre in linea, in maniera allarmante, con l’attuale visione pragmatica, ormai imperante nei nostri atenei, in cui si privilegiano gli aspetti pratici a scapito di una solida formazione di base.

* Per un approfondimento del rapporto tra scienza e big data si rimanda al video di un dibattito svoltosi il 18 gennaio 2017 alla Sapienza al quale Angelo Vulpiani ha partecipato assieme a Pietro Greco

Add comment

Submit