Big data e scienze sociali. Una sfida nuova alla teoria

Anche se ormai non ci facciamo caso, siamo continuamente esposti ai tentativi di predizione da parte del nostro motore di ricerca su internet, il quale – a partire dalle prime lettere digitate – inizia a suggerirci che cosa verosimilmente vogliamo cercare. Si badi bene: il motore di ricerca non ci ricorda soltanto le nostre ricerche passate, ma ci solletica con ricerche nuove a cui attribuisce una probabilità sufficiente che esse ci risultino appetibili. Questi continui esercizi di predizione si basano sull’ammontare ampio e crescente di informazioni che il motore di ricerca ha su ciascuno di noi.

Il fatto che i computer e gli smart phone siano connessi tra loro attraverso internet ha come conseguenza che quasi tutti i nostri comportamenti online lascino una traccia che è memorizzata ed analizzata da parte di chi ci fornisce servizi vari (dal motore di ricerca al social network, dal negozio virtuale al sito di video).
Che cosa si intende per big data? Fondamentalmente tre cose: i big data consistono in

(i) molti più dati rispetto a quelli che avevamo prima,
(ii) dati su variabili che prima non misuravamo e
(iii) dati appartenenti a sfere diverse ma riferiti allo stesso individuo.

La speranza, per certi aspetti molto sensata, per altri aspetti un po’ ingenua, è che questi big data abbiano ampliato in maniera quasi infinita quel che possiamo conoscere a proposito degli individui, delle loro preferenze, delle loro scelte e delle loro interazioni. Ciò di cui oggi vorrei provare a convincervi è che questi big data – specialmente in un ambito come quello di alcune scienze sociali – non possono e non devono essere considerati come alternativi rispetto alla teoria; in altri termini la loro abbondanza non dispensa dall’utilizzare la teoria al fine di ricavare “vera” conoscenza da essi. Sotto questo profilo, mi voglio fare aiutare dalla nota massima di Seneca nelle “Lettere morali a Lucilio”, dove afferma che:

“Ignoranti quem portum petat nullus suus ventus est.”

Nessun vento è favorevole per il marinaio che non sa a quale porto vuole arrivare.

(Epistulae morales ad Lucilium, LXXI)

Il filo conduttore metaforico di questa mia analisi è che i dati sono il vento, mentre la teoria è il timone.
Nell’ambito di quelle scienze sociali che studiano sotto profili anche quantitativi le interazioni tra esseri umani, con i big data si assiste a un passaggio abbastanza repentino dalla quasi-bonaccia precedente, cioè una relativa penuria di dati utili, ad un vento fortissimo, se non addirittura una tempesta. L’illusione a cui facevo riferimento prima è che la potenza stessa del vento – l’abbondanza straordinaria che è intrinseca ai big data – renda possibile lasciarsi andare ad esso senza un timone che aiuti ad imprimere la direzione. Quel timone è invece rappresentato dalla teoria, che permette di sfruttare la potenza dei dati per arrivare al porto desiderato, cioè alla conoscenza della struttura che sta dietro i dati stessi: in altri termini è la teoria che aiuta a identificare i rapporti causali tra i diversi fenomeni. [Esiste un effetto causale che va dal fenomeno x al fenomeno y? Qual è la direzione di tale effetto? L’effetto ha la stessa ampiezza a prescindere da altre variabili oppure è condizionato, ovvero la sua ampiezza dipende in maniera significativa da queste altre variabili?] Sui problemi relativi all’identificazione dei legami causali sarò più preciso in seguito.

In effetti, la teoria aiuta a decidere quali siano –nel mare magnum dei big data- le variabili su cui concentrarsi e quali le variabili da tralasciare. Ad esempio nell’ambito dell’economia, la modellizzazione teorica suggerisce quali siano le variabili che possono influenzare il livello di consumo dei diversi individui: ad esempio il reddito attuale, la ricchezza, e le aspettative sui redditi futuri.

È proprio la teoria che deve interagire in maniera efficiente con i dati disponibili, al fine di individuare in maniera accorta la metodologia statistica migliore che sappia stimare la presenza, la forza e l’eventuale condizionalità dei rapporti causali.

Confesso già subito la mia invidia di ricercatore “sociale” nei confronti di chi fa ricerca in ambito medico e non raramente può [certamente più spesso di un economista o di uno scienziato politico] effettuare esperimenti al fine di verificare gli effetti causali di un farmaco, o di un trattamento clinico. Il metodo è, ad esempio, quello dei randomised trial: si somministra un farmaco a un gruppo scelto in maniera casuale, mentre a un altro gruppo (cosiddetto di controllo) si somministra un placebo (o un differente farmaco), e infine si confronta il livello medio della variabile di interesse nel gruppo trattato e nel gruppo di controllo.

Anche nel caso dei big data un esperimento resta la soluzione migliore per dire qualcosa su legami causali, ma non sempre è possibile effettuarlo, per motivazioni tecniche e/o etiche. Ad esempio, se vogliamo verificare quale sia l’effetto degli anni di istruzione sul salario medio futuro degli individui, non è eticamente accettabile imporre in maniera casuale diversi livelli di istruzione a diversi individui. Ecco che allora la teoria aiuta a identificare nei dati quali siano le variabili confondenti di cui tenere conto, al fine di avvicinarci al paradigma dell’esperimento stesso. Nel caso del legame tra salario ed anni di istruzione, è ad esempio necessario tenere presente l’effetto confondente dell’abilità intrinseca degli individui.

Tornando alla metafora di Seneca, se non si tiene conto di queste variabili confondenti si pensa di andare dove si vuole andare (il porto desiderato), ma il vento ci può spingere in una direzione diversa, ovvero non riusciamo a stimare esattamente la direzione e la forza di un certo legame causale tra variabili.

Ora mi soffermerò con maggiore attenzione sulla seguente serie di temi, alla cui concatenazione ho prima solo accennato.

1. Che cosa sono i big data nell’ambito delle scienze sociali quantitative, e quali opportunità e quali rischi offrono?
2. Qual è il ruolo della teoria di fronte a tali opportunità e tali rischi?
3. In che modo teoria e big data possono essere coniugati per aumentare la nostra conoscenza sui legami di causa ed effetto tra fenomeni sociali?
4. Quali sono gli esempi di lavori empirici sui big data che raggiungono questo scopo? [con particolare attenzione all’economia e alla scienza politica]

Qual è il contributo dei Big data nelle scienze sociali?

Come suggerito da Hal Varian, capo economista di Google, talora un certo insieme di tecnologie dà luogo ad un periodo definito di “innovazione combinatoriale” (combinatorial innovation): nuove invenzioni nate dallo stesso principio possono essere variamente ricombinate per produrre nuovi oggetti 1. Sotto questo profilo di “produttività combinatoriale” internet, se considerato come una tecnologia, si può paragonare al motore a benzina alla fine dell’Ottocento, all’elettronica negli anni ’20 del secolo scorso, e ai circuiti integrati negli anni ’70. L’ambito in cui internet rappresenta una rivoluzione epocale è quello dell’informazione: molte transazioni economiche che prima non venivano registrate –o lo erano in misura molto minore- oggi passano attraverso i computer e la rete.

Non si tratta soltanto di informazioni sulla compravendita di beni e servizi: i motori di ricerca come Google raccolgono un ammontare esponenziale di dati sulla sequenza di ciò che gli individui cercano attraverso il motore di ricerca stesso. Il business di Google consiste nel mettere insieme da un lato un algoritmo intelligente che produce i risultati più rilevanti rispetto ad una data ricerca e dall’altro le inserzioni pubblicitarie che meglio combaciano con i gusti di chi ha effettuato quella data ricerca. Non solo: su internet possiamo trovare il contenuto di libri e giornali, digitalizzato e raccolto in archivi come Google Books, LexisNexis, Newslibrary e Dow Jones Factiva, senza dimenticare gli archivi online dei giornali stessi.

Nella fase interattiva di internet, i social network come Facebook, Youtube e Twitter raccolgono informazioni su ciò che i membri del network gradiscono (i like di Facebook, i tweet favoriti), ciò che condividono con altri (ad esempio i retweet su Twitter), su ciò che essi scrivono, e sulla struttura stessa del network (gli amici su Facebook, i contatti su Linkedin, i following e follower su Twitter). Tali informazioni servono al fornitore del servizio per vendere pubblicità in una maniera accortamente combaciante con gli interessi del singolo utente. Queste innovazioni combinatoriali connesse ad internet costituiscono la genesi dei big data. [enfatizza!]

Non è semplice misurare anche in maniera approssimativa quanti dati “ci siano” a partire dalla rivoluzione tecnologica di internet rispetto al periodo precedente. Nel 2010 Eric Schmidt, a quel tempo amministratore delegato di Google, dichiarò che “dall’alba della civilizzazione fino al 2003 sono stati creati cinque esabyte di informazione, ma lo stesso ammontare di informazione è creato oggi ogni due giorni, e il ritmo sta crescendo.” Ciò che colpisce è l’accelerazione nella creazione di dati, insieme all’ordine di grandezza dell’incremento: un esabyte corrisponde a 10004 megabyte. Come possiamo farci un’idea rispetto a questi ordini di grandezza?

Una foto ad alta definizione -oppure un testo di 500 pagine- tipicamente pesano intorno ad un megabyte ciascuno. Cinque esabyte corrispondono dunque a 5000 miliardi di foto o –se preferite- 5000 miliardi di libri di 500 pagine prodotti ogni due giorni.

A margine di queste considerazioni quantitative, voglio illustrare le caratteristiche specifiche dei Big data rispetto ai “piccoli dati” che erano disponibili in precedenza.

Per variabili per cui si avevano osservazioni già in precedenza, con i Big data si hanno molte più osservazioni, spesso per diversi ordini di grandezza. Ad esempio, nel caso dei giornali, prima della digitalizzazione dei contenuti un numero congruo di ricercatori poteva raccogliere dati su un campione di articoli nell’ordine massimo delle centinaia o delle migliaia. Oggi, archivi come NewsLibrary o Dow Jones/Factiva permettono di effettuare ricerche automatiche sul testo digitalizzato di decine di milioni di articoli.
I Big data spesso contengono dati su nuove variabili, cioè variabili che prima non erano osservate o erano estremamente costose da osservare. A parte i dati sulle transazioni economiche, abbiamo oggi dati (1) sulle preferenze espresse dagli individui, (2) dati sulla forma delle loro relazioni interpersonali (simmetrici nel caso dell’amicizia su Facebook, asimmetrici nel caso di Twitter). E (3) –rispetto al singolo atto di acquisto- abbiamo dati sul prima e il dopo, ovvero “indagini di mercato” precedenti ed eventuali reazioni successive all’acquisto, nella forma di opinioni sul prodotto acquistato. Infine, (4) abbiamo una quantità sempre maggiore di dati geolocalizzati, cioè informazioni sul luogo in cui si trovava un certo individuo quando ha compiuto un certo atto.
I Big data danno la possibilità di connettere variabili appartenenti a domini molto diversi ma riferite allo stesso soggetto. Chi possiede i dati può conoscere i siti visitati da un dato individuo prima di un atto di acquisto, e quelli visitati successivamente; se ne conosce l’account Twitter, Facebook e Google Plus può connettere questi comportamenti di navigazione e di acquisto ai comportamenti sui social network. Come sottolineato dagli economisti Einav e Levin, questa possibilità di connessione è particolarmente rilevante per i dati di proprietà pubblica, in quanto essi connettono sfere diverse -da quella scolastica a quella fiscale, da quella sanitaria a quella previdenziale- a proposito dello stesso individuo, contrassegnato da un Social Security Number (o da un codice fiscale) 2.
I Big data sono molto meno strutturati dei dati disponibili precedentemente. Per intenderci: i dati a cui erano -o sono tuttora- abituati gli scienziati empirici tipicamente avevano la forma di una matrice rettangolare o una serie di matrici rettangolari, cioè rappresentabili su un foglio o una serie di fogli Excel; al contrario i Big data non sono così facilmente descrivibili con strutture ordinate. Dal punto di vista del ricercatore empirico, su cui tornerò tra poco, l’ampiezza e la penuria di struttura nei Big data lasciano aperte molte più alternative rispetto all’oggetto dell’analisi.

Qual è il ruolo della teoria?

In generale ci rivolgiamo ai dati, e a maggior ragione ai Big data, al fine di aumentare il nostro grado di conoscenza sui fenomeni della realtà, che vogliamo predire e spiegare in termini causali. Predizione e causazione sono le “richieste” fondamentali che rivolgiamo ai dati: in entrambi i casi il fondamento sta nella statistica, la quale permette di misurare in maniera sistematica il grado di incertezza di una data predizione o di una data spiegazione causale.

Nel caso della predizione, lo scopo consiste nell’utilizzare i dati esistenti al fine di costruire la stima più accurata del valore di una certa variabile y avendo informazioni sui valori assunti da un insieme di altre variabili. Nell’ambito macroeconomico potremmo voler prevedere l’andamento del Prodotto Interno Lordo nel 2014 sulle base delle informazioni ad oggi disponibili. I dati macroeconomici precedenti ci permettono di scegliere il nostro modello di predizione migliore all’interno del campione (in-sample), che applicheremo poi all’anno successivo, cioè fuori dal campione (out-of-sample).

Esiste una varietà di scelte terminologiche, ma nel caso dei Big data le tecniche di predizione più utilizzate sono comprese nell’ambito del cosiddetto machine learning: dal punto di vista della predizione il rischio che si corre avendo a disposizione un ammontare amplissimo di dati come nel caso dei big data è di fare overfitting, cioè di modellare anche la componente rumorosa dei dati invece che soltanto la struttura sottostante (a cui il rumore si sovrappone), con la conseguenza di avere insoddisfacenti performance predittive al di fuori del campione. Ebbene, l’abbondanza dei Big data permette di gestire in maniera sensata il problema attraverso diverse strategie, ad esempio penalizzando il modello che ha troppe variabili esplicative 3.

Il punto da sottolinearsi è che l’esercizio di predizione non è necessariamente interessato a individuare quali siano le cause del fenomeno che si vuole prevedere. La ricerca delle determinanti causali di un dato fenomeno è un’attività di ricerca diversa, in cui il pensiero teorico gioca un ruolo cruciale. In statistica si parla in questo secondo caso di inferenza causale.

3 Su questo tema, e in generale sulla relazione tra big data e econometria, cfr. H. R. Varian [2013]. “Big Data: New Tricks for Econometrics.” Mimeo, Haas School of Business, University of California at Berkeley, disponibile qui: http://people.ischool.berkeley.edu/~hal/Papers/2013/ml.pdf

Gli economisti empirici notano come nell’ambito dei big data il tema della predizione giochi la parte del leone, mentre l’attenzione data alla ricerca di nessi causali risulta senz’altro minore. L’idea cruciale è quella di “spiegazione”, cioè di ricerca delle cause di un dato fenomeno. Naturalmente il metodo scientifico chiede che le teorie siano messe a confronto con i dati perché i dati possano “falsificarle”.

Sotto questo profilo, il rischio metodologico insito nei Big data consiste nel credere che si possa largamente fare a meno della teoria, in quanto “i dati ci dicono già tutto.” Anche all’interno di un puro esercizio predittivo, la teoria non deve restare muta, in quanto ci suggerisce quale sia la variabile –o le variabili- che vogliamo prevedere. Dall’altro lato, tecniche di machine learning potranno darci una risposta rigorosa su quali variabili esplicative vadano incluse nel modello prescelto, ma in presenza di un numero amplissimo di variabili possibili i diversi modelli teorici possono suggerirci quali siano i tipi di variabile da cui inizialmente pescare.

La teoria incontra i dati: i randomised trials e le loro imitazioni

Per un lungo periodo che va dall’Ottocento alla maggior parte del secolo scorso, le scienze sociali –e in particolare l’economia- hanno avuto a modello le scienze naturali, da cui hanno mutuato l’idea di rinvenire una struttura nei fenomeni sociali, e una struttura che fosse “in equilibrio”.

A partire dalla fine del secolo scorso, l’economia politica ha progressivamente rinunciato alla costruzione di un paradigma teorico unificante, che nel caso della macroeconomia si traduceva nei cosiddetti modelli macroeconometrici strutturali, e si è spostata da un lato verso un approccio più empirico e dall’altro –all’interno della ricerca empirica- ha cominciato a prendere come modello la medicina e la costruzione di esperimenti finalizzati alla identificazione statistica di un legame causale, nella fattispecie attraverso i randomised trial (gli studi clinici randomizzati controllati).

Un randomised trial consiste nell’identificare un campione rappresentativo della popolazione di interesse, somministrare ad un sottogruppo scelto in maniera casuale un trattamento di cui si intendono testare gli effetti, e somministrare al restante sottogruppo un placebo (o un diverso trattamento). La teoria ancora una volta ci aiuta a scegliere quale sia il trattamento da somministrare e quale sia la variabile di interesse su cui il trattamento dovrebbe produrre effetti. Una misura dell’effetto medio del trattamento (ATE: Average Treatment Effect) è dato dalle differenze nelle medie della variabile di interesse tra il gruppo trattato e il gruppo di controllo.

Ecco l’aspetto cruciale di un randomised trial: a motivo dell’inserimento casuale nei due sottogruppi (1) gli individui non possono per definizione autoselezionarsi in maniera sistematica in uno di essi e (2) l’effetto stimato non viene “sporcato” dalle cosiddette “variabili omesse”, ovvero da variabili che hanno un effetto sulla variabile di interesse e contemporaneamente sono correlate con la scelta di ricevere il trattamento.

Per queste ragioni il randomised trial è il non plus ultra per chi è interessato alla identificazione di un legame causale. Tuttavia, non sempre uno studio randomizzato (anche in ambito medico) è eticamente e/o tecnologicamente fattibile. Talora l’unica opzione possibile –avendo dati sulle variabili di interesse- consiste nello studiare dati già esistenti: si tratta dei cosiddetti “studi correlazionali.”

Riprendo l’esempio precedente, incentrato intorno agli effetti dell’istruzione sul salario futuro degli studenti. [In un luogo come questo, viene quasi spontaneo focalizzarsi su questo.] Potremmo avere dati sul salario medio di un campione rappresentativo di individui per l’intera loro vita lavorativa e sul numero di anni di istruzione formale affrontati da ciascuno di questi individui. La prima cosa che verrebbe in mente di fare consiste nel misurare la correlazione tra le due variabili (salario medio/anni di istruzione) e verificare se essa è significativamente diversa da zero e –sperabilmente- positiva. Se abbiamo big data su questi individui –ovvero dati su milioni di individui- le nostre stime della correlazione saranno estremamente precise. Peccato che con elevata probabilità staremmo misurando l’oggetto sbagliato. Il tema è quello delle variabili omesse, che con uno studio randomizzato non sono problematiche, mentre all’interno di uno studio correlazionale sono il problema. La teoria qui ci aiuta a riflettere ex ante su quali siano le variabili omesse di cui dobbiamo preoccuparci se vogliamo misurare la presenza e la forza del nesso causale che ci interessa: si tratta di tutte quelle variabili che sono correlate in maniera significativa con la variabile dipendente (in questo caso: il salario medio) e con la possibile causa (gli anni di istruzione formale). Chi è il principale sospettato? L’abilità intrinseca degli individui: individui più abili trovano tipicamente più facile studiare più a lungo, ed è verosimile che guadagnino di più a prescindere dagli anni di istruzione. Se non teniamo presente questo fattore confondente, è immediato dimostrare che finiremmo per sovrastimare l’effetto dell’istruzione sul salario futuro, in quanto la correlazione stimata assorbe anche l’effetto dell’abilità, e ne resta inflazionata. Naturalmente l’elenco delle variabili omesse può essere piuttosto lungo.

Tornando alla metafora di Seneca: sappiamo piuttosto bene dove andare (un’isola delle Cicladi, ad esempio Santorini) e il vento dei dati ci spinge in maniera piuttosto possente, ma –non avendo badato con sufficiente attenzione alla presenza di un’altra corrente di vento (l’abilità degli individui, altre variabili omesse etc.) siamo finiti a Folegandros. Molto velocemente, beninteso, in quanto la mole dei dati ci dona standard error piccolissimi –cioè stime molto precise-, ma Folegandros non è Santorini. Bel posto, ma sbagliato.

In assenza di un esperimento la prima soluzione rispetto al problema delle variabili omesse consiste nell’utilizzare un modello a più variabili esplicative, cioè un modello di regressione multivariata: ciò permette di stimare la correlazione tra salario medio e anni di istruzione tenendo conto dell’abilità e di tutte le altre variabili confondenti di cui riusciamo ad ottenere una misurazione. L’idea è quella del ceteris paribus: verifichiamo la correlazione tra salario e anni di istruzione depurandola dell’ammontare di co-variazione che dipende dalla variabile ex-omessa.

Torniamo ai Big data. Come si gestisce il problema dell’identificazione dei nessi causali all’interno di essi? Esiste qui un’asimmetria importante, su cui persino le autorità governative dovrebbero riflettere. Le organizzazioni che possiedono dati – come Google, Yahoo!, Facebook, Twitter, etc- sono in una posizione di vantaggio indiscusso anche dal punto di vista scientifico: parafrasando Ernesto Rossi sono i nuovi padroni del vapore, cioè i padroni dei dati 4. Tali organizzazioni possono effettuare direttamente studi randomizzati, e stimare l’effetto causale di una certa variabile che possono controllare su di un’altra variabile che possono misurare. Non è complottismo scientifico: nel 2008 Google ha effettuato circa 6000 esperimenti sul proprio motore di ricerca, i quali hanno portato a 500 modifiche al sistema di ricerca stesso e alla sua interfaccia 5.

Avendo a disposizione big data, che cosa si può fare se non siamo in grado di effettuare un esperimento? La teoria rilevante rispetto al nostro ambito di ricerca ci deve innanzi tutto suggerire quali possano essere le variabili omesse e gli altri elementi che ci spingono “verso l’isola sbagliata” (endogeneità, errore di misurazione, autoselezione del campione), cioè che possono confondere la stima di un effetto causale all’interno di uno studio correlazionale.

Vi sono però interessanti succedanei di un esperimento, che nella letteratura microeconometrica sono conosciuti come “quasi esperimenti” o “esperimenti naturali” 6. Si tratta di rinvenire nella realtà effettuale situazioni che assomigliano a un esperimento, cioè situazioni in cui un gruppo per motivi esogeni viene esposto ad un certo trattamento, mentre un gruppo per il resto simile risulta non esposto: l’idea alla base del modello della “Differenza tra differenze” (Difference in Differences, DiD) consiste nel confrontare la variazione temporale nella variabile di interesse per il gruppo trattato e per il gruppo non trattato. Ad esempio: la variazione temporale nell’offerta di lavoro per un gruppo che ha beneficiato di un taglio nell’aliquota dell’imposta sul reddito viene confrontata con la stessa variazione per un gruppo consimile che non ha beneficiato di questo taglio.

Un’altra tecnica econometrica è quella delle Variabili Strumentali (Instrumental Variables: IV), la quale consiste nel trovare una variabile Z (lo “strumento”) che è correlata con la variabile X di cui vogliamo studiare gli effetti sulla variabile Y, ma che non è correlata con quest’ultima variabile Y: in altri termini la tecnica delle Variabili Strumentali assomiglia a un esperimento, in quanto lo strumento prescelto “dà una botta” esogena alla variabile X, così che possiamo poi rintracciare gli effetti su Y di questa “botta”.

Possiamo trovare un bell’esempio di utilizzo delle Variabili Strumentali in un classico articolo di Angrist e Krueger, in cui l’obiettivo è esattamente quello di investigare gli effetti degli anni di istruzione sul salario medio. Negli USA è possibile lasciare la scuola (drop out) una volta compiuti i 16 anni; tuttavia, dal momento che l’anno scolastico inizia dopo l’estate, coloro che sono nati nella prima metà dell’anno solare in media sono andati a scuola per un tempo minore rispetto a chi è nato nella seconda metà dell’anno: il trimestre in cui ciascun individuo è nato è lo strumento che “dà una botta” al periodo totale di istruzione, allungandolo per chi è nato/a più tardi durante l’anno 7. A meno di credere in maniera intensa e preoccupante nell’astrologia, quella parte di variazione nel tempo speso a scuola che dipende dal trimestre di nascita non dovrebbe essere influenzato dalla variabile omessa che tipicamente ci preoccupa, cioè l’abilità intrinseca dell’individuo.

Quale ruolo giocano questi quasi-esperimenti nell’ambito dei Big data? Ad essere sinceri, un ruolo ancora relativamente piccolo. Una lodevole eccezione è ad esempio un recente lavoro di Einav e coautori, i quali analizzano le compravendite effettuate dall’intera popolazione di utenti USA di eBay: sfruttando il fatto che solo gli scambi all’interno dello stesso stato subiscono un’imposta sulle vendite -mentre ciò non accade per vendite tra stati diversi- è possibile stimare in maniera precisa l’elasticità della domanda alla tassazione, cioè la diminuzione percentuale delle vendite per un aumento di un punto percentuale dell’imposta 8. Il messaggio per il futuro è chiaro: l’abbondanza stessa di dati, piuttosto che indurci a dimenticare il tema delle variabili omesse, deve essere sfruttata al fine di rinvenire nei dati stessi un numero sostanzioso di quasi-esperimenti che gettino luce sui nessi causali.

Alcuni esempi

Voglio ora illustrarvi alcuni esempi di studi empirici che (1) appartengono all’ambito delle scienze sociali e (2) utilizzano i big data in una maniera teoricamente densa, ovvero misurano grandezze teoricamente rilevanti e/o si prefiggono di identificare la presenza e la forza di nessi causali. In particolare, proporrò alcuni esempi nell’ambito dell’economia e della scienza politica.

Big data ed economia

Gli economisti sono naturalmente interessati ad avere misure sempre più accurate di variabili macroeconomiche rilevanti, come la disoccupazione, la disuguaglianza e l’inflazione: non è improbabile che nel futuro i big data, di natura sia privata che pubblica, si affiancheranno sempre più spesso alle rilevazioni statistiche tradizionali per fornire questo tipo di misure. Gli esempi attuali sono già notevoli.

La frequenza relativa di ricerche di termini rilevanti su Google è stata utilizzata per costruire predizioni in tempo reale dell’andamento di variabili macroeconomiche cruciali come le vendite al dettaglio e le richieste di sussidi di disoccupazione. A parte la tempestività della stima, l’aspetto geografico è importante: Google è in grado di localizzare con un certa accuratezza la provenienza geografica degli utilizzi del suo motore di ricerca: ne consegue la possibilità di ricavare indici sull’andamento della disoccupazione che sono molto “fini” dal punto di vista della partizione del territorio in aree piccole: non solo il singolo stato o contea ma la singola città o il singolo quartiere. Per queste previsioni in tempo reale Choi e Varian hanno coniato il termine Nowcasting (invece che forecasting): per renderlo in italiano si potrebbe azzardare un termine come “OraVisione” 9.

Spostandomi verso il lato microeconomico, e verso il tema della stima degli effetti causali, un contributo davvero emblematico per la capacità di mettere insieme le potenzialità dei Big data con una domanda cruciale dal punto di vista teorico è un recente lavoro di Chetty e coautori sull’impatto a lungo termine della qualità degli

insegnanti sui salari futuri degli studenti 10. Gli autori combinano dati sui punteggi di valutazione per 2 milioni e mezzo di studenti dai 7 ai 14 anni nella città di New York con dati tributari sul reddito dei loro genitori e di loro stessi da adulti. La qualità degli insegnanti è misurata dall’incremento medio (Valore Aggiunto) dei punteggi dei propri studenti [naturalmente controllando per fattori confondenti]; dal punto di vista dell’identificazione causale il quasi-esperimento utilizzato consiste nell’analizzare in maniera sistematica i casi in cui un certo insegnante lascia la scuola per trasferirsi in un’altra: lo shock per gli studenti è tanto più negativo quanto più elevato il valore aggiunto dell’insegnante che si trasferisce. In termini quantitativi, i dati mostrano che rimpiazzare un insegnante nel 5% più basso della distribuzione della qualità con un insegnante di qualità media è associato con un incremento di

270.000 dollari nel salario futuro dello studente (in termini attuali).

Big data e scienza politica

Gli scienziati politici sono in media più vicini all’approccio predittivo/descrittivo che è tipicamente utilizzato con i big data: in scienze politiche 11 l’utilizzo di dati paragonabili agli attuali big data risale piuttosto indietro nel tempo, ad esempio agli studi di Poole e Rosenthal che analizzano la collocazione ideologica dei membri del Congresso USA lungo tutto il corso della storia utilizzando dati sui voti a chiamata individuale (roll-call votes) 12.

Mi si consenta di accennare alla mia attività di ricerca intorno al tema della misurazione della posizione ideologica dei mass media, che è in larga parte basata sull’utilizzo degli archivi online di notizie a cui accennavo sopra. L’obiettivo consiste nell’ottenere misure di tale posizione ideologica che siano replicabili e “portabili”, ovvero applicabili a contesti storici e istituzionali diversi. Una volta ottenute queste misure, si può verificare su di un campione ampio di giornali quanto esse siano determinate dall’ideologia dal lato dell’offerta (proprietari ed editori) e dal lato della domanda (lettori e ascoltatori). Nella fattispecie mi sono focalizzato sull’aspetto di agenda-setting, ovvero il meccanismo –sperimentalmente dimostrato- per cui al crescere della copertura mediatica di un dato tema i cittadini/lettori/spettatori sono più inclini ad attribuire maggiore importanza (salienza) a quel dato tema. Una strategia per collocare i media dal punto di vista ideologico consiste nel misurare l’ammontare relativo di copertura data a “temi di destra” e a “temi di sinistra”.

Ad esempio insieme a James Snyder ho raccolto informazioni sulla copertura di 33 scandali politici da parte di 200 giornali statunitensi, e ho costruito un indice di collocazione ideologica basato sulla differenza tra la copertura di scandali che hanno coinvolto politici Repubblicani e politici Democratici 13.

Tali indici della posizione ideologica possono poi essere correlati a misure della collocazione ideologica dal lato dell’offerta e dal lato della domanda. Si contrappongono qui due ipotesi: Un giornale potrebbe “scrivere cose di destra” in quanto il proprietario è di destra e vorrebbe persuadere i suoi lettori a votare in maniera simile, oppure tale scelta di scrivere “cose di destra” è semplicemente dovuta al lato della domanda, cioè all’esigenza commerciale di accontentare un pubblico che già a priori si colloca su posizioni conservatrici (preaching to the choir, dico ai lettori quello che vorrebbero sentirsi dire). Ebbene -controllando per fattori confondenti- la distorsione ideologica a favore del Partito Democratico nello spazio attribuito dai giornali agli scandali risulta significativamente correlata –e nella direzione attesa- con la posizione ideologica dal lato dell’offerta, avendo misurato tale posizione con la propensione media da parte degli editorialisti di ciascun giornale di supportare (attraverso gli endorsement) politici democratici invece che repubblicani. Il lato della domanda gioca invece un ruolo meno rilevante.

A questo proposito, l’importanza crescente dei social network apre strade molto interessanti per ricerche future che sfruttino la ricchezza informativa dei big data: ad esempio gli utenti su Twitter possono essere collocati dal punto di vista ideologico mediante un ventaglio ampio di metodi teoricamente ben fondati, ad esempio sulla base delle scelte di following (quali altri utenti decidono di seguire), oppure andando a verificare in che misura ciascuno di essi includa nei propri messaggi i link inseriti da politici di destra o di sinistra.

Alcune conclusioni

Voglio concludere con alcune riflessioni di carattere generale. Le argomentazioni precedenti si sono focalizzate sull’utilizzo dei Big data per analizzare la struttura dei fenomeni sociali e la presenza di nessi causali tra questi. Un tema che non ho invece affrontato è quello del diritto alla riservatezza in capo a chi utilizza quei servizi online che raccolgono e analizzano dati. Non mi stupirei del fatto che almeno il 90 percento degli utenti di questi servizi non si preoccupi di leggere le condizioni contrattuali, secondo cui essi cedono una parte importante dei diritti all’utilizzo delle informazioni da loro generate 14. Tuttavia –come amano sottolineare gli economisti- il mondo delle relazioni economico-sociali è pieno di “coperte corte”: in cambio di questa cessione di dati personali, i motori di ricerca e i social network offrono all’utente un’esperienza per l’appunto personalizzata, fatta di contenuti e raccomandazioni sempre più combacianti con le caratteristiche e le esigenze dell’utente stesso.

Un altro tema appena sfiorato nel mio discorso è quello della distinzione tra big data che sono posseduti da società private e da amministrazioni pubbliche: le prime naturalmente utilizzano i dati ai fini del proprio business, ma non è raro che esse decidano di concedere a ricercatori esterni la possibilità di accedere a parte di essi. Nel caso delle amministrazioni pubbliche l’auspicio de iure condendo è che esse siano obbligate a fornire a tutti i ricercatori che li richiedono i dati di cui siano in possesso, con poche e limitate eccezioni connesse a esigenze di sicurezza nazionale e alla doverosa protezione di una sfera di privacy individuale che non sia però strabordante e/o strumentale. La trasparenza della macchina pubblica non soltanto dovrebbe migliorare il rapporto di delega che intercorre tra questa e i cittadini, ma dovrebbe altresì permettere alla comunità dei ricercatori di aumentare il grado di conoscenza dei fenomeni economico-sociali attraverso l’analisi dei Big data che essa possiede. Siamo forse nel regno del futuribile, ma non mi sembra così avventato immaginarsi che obblighi di trasparenza simili possano anche essere imposti alle società private, perlomeno dopo un lasso di tempo caratterizzato dal diritto esclusivo di utilizzo: si tratterebbe di uno schema simile a quello dei diritti di proprietà intellettuale.

La stima degli effetti causali dovrebbe essere il punto di partenza per analizzare in maniera rigorosa gli effetti di politiche nuove, che abbiano conseguenze benefiche sulla collettività nella maniera più larga possibile. Avendo tenuto conto delle esigenze di cui sopra, la comunità dei ricercatori deve essere in grado di dare il proprio contributo alla conoscenza grazie ai dati messi a disposizione gratuitamente: big, open data.

Note.

1 H. R. Varian [2010]. “Computer Mediated Transactions.” American Economic Review Papers & Proceedings, 100(2): 1- 10 (Richard T. Ely Lecture).

2 L. Einav e J. D. Levin [2013]. “The Data Revolution and Economic Analysis.” NBER Working Paper No. 19035.

4 E. Rossi [1955]. I padroni del vapore. Laterza, Bari.

5 R. Hoff, “Google Search Guru Singhal: We Will Try Outlandish Ideas.” Business Week, Ottobre 2009.

6 Vi sono esperimenti naturali anche in medicina: ad esempio il confronto tra pressione del sangue per aborigeni kenyoti rimasti in loco come pastori e membri della stessa tribù che si sono trasferiti a Londra.

7 J. D. Angrist e A. B. Krueger [1991]. “Does Compulsory School Attendance Affect Schooling and Earnings?” Quarterly Journal of Economics, 106(4): 979-1014.

8 L. Einav, D. Knoepfle, J. D. Levin and N. Sundaresan [2013]. “Sales Taxes and Internet Commerce” American Economic Review, in corso di pubblicazione.

9 H. Choi e H. R. Varian [2012]. “Predicting the Present with Google Trends.” Economic Record 88: 2-9.

10 R. Chetty, J. N. Friedman e J. E. Rockoff [2012]. “The Long-Term Impacts of Teachers: Teacher Value-Added and Student Outcomes in Adulthood” NBER Working Paper No. 17699.

11 Vedi M. Alvarez “Is big data a big deal in political science?” Oxford University Press Blog, 3 Novembre 2013, disponibile qui: http://blog.oup.com/2013/11/is-big-data-a-big-deal-in-political-science/

12 Si veda ad esempio K. T. Poole e H. Rosenthal [2000]. Congress: A political-economic history of roll call voting. Oxford, Oxford University Press.

13 R. Puglisi e J.M. Snyder, Jr. [2011]. “Newspaper coverage of political scandals.” Journal of Politics, 73(3): 931-950.

14 Si vedano ad esempio le norme sulla privacy di Google: https://www.google.it/intl/it/policies/privacy/

L’autore:

Riccardo Puglisi

È professore associato in economia politica all’Università degli Studi di Pavia. Alunno del Collegio Ghislieri, ha studiato a Pavia (laurea in economia e dottorato in finanza pubblica) e alla London School of Economics (Master e PhD in economia). Si occupa principalmente del ruolo politico dei mass media, di finanza pubblica, e del ruolo economico delle istituzioni politiche. Ha pubblicato su riviste internazionali in economia e scienze politiche come il Journal of the European Economic Association, Journal of Politics, Journal of Public Economics, e Quarterly Journal of Political Science. È redattore de lavoce. info ed editorialista per il Corriere della Sera. Attualmente insegna macroeconomia e political economy a Pavia, e scienza delle finanze e political economy in Bocconi. In precedenza ha insegnato metodi quantitativi presso il dipartimento di Scienze
Politiche del Massachusetts Institute of Technology (2005- 2007) ed è stato Marie Curie fellow presso l’Université Libre de Bruxelles (2007-2009). Nel 2013-14 ha fatto parte del gruppo di lavoro sui costi della politica nell’ambito della spending review condotta da Carlo Cottarelli; nel 2016 ha vinto con James M.Snyder, Jr. (Harvard) la Hicks-Tinbergen Medal per il miglior articolo pubblicato nel biennio precedente sul Journal of the European Economic Association.

Questo artico è tratto dal “Dossier Economia Digitale”, pubblicato dall’Associazione I Copernicani nel mese di ottobre 2018