Cause ed effetti: perché la correlazione non basta

Avatar Chiara Di Maria

Durante la pandemia di Covid-19, ogni nuovo incremento nel numero di casi registrati è stato accompagnato  non solo da preoccupazione e agitazione, ma anche da una sorta di ‘caccia’ all’evento scatenante. Nel corso dei mesi, l’aumento dei nuovi positivi è stato attribuito a diversi eventi: alla riapertura delle scuole, al mancato potenziamento dei trasporti pubblici, oppure alla possibilità di riunirsi ai propri congiunti. Complice un linguaggio dei media non sempre accurato,  l’associazione (temporale in questo caso) tra i fenomeni appena citati e l’aumento dei casi veniva riportata al pubblico in termini causali, generando non poca confusione. Correlazione e causalità sono due concetti che vengono spesso usati in maniera intercambiabile, ma che sono in realtà ben distinti.

La correlazione è una misura statistica che varia tra -1 e 1, e descrive la forza e la direzione di una relazione tra due variabili. È positiva quando a un valore alto di una delle due variabili corrisponde un valore alto dell’altra variabile, come nel caso di calorie assunte durante i pasti e peso corporeo;  è negativa quando un livello più alto di una variabile si riscontra in presenza di un valore basso dell’altra, ad esempio il tasso di criminalità e il livello di benessere dei cittadini.

Figura 1 – Esempio di elevata correlazione tra due variabili X e Y, positiva nel grafico a sinistra, negativa nel grafico a destra.

Tuttavia,  sebbene trarre conclusioni causali da relazioni puramente associative sia quasi connaturato al modo di pensare umano, la correlazione da sola non implica necessariamente che esista una relazione causale tra due variabili. Il sito https://www.tylervigen.com/spurious-correlations  mostra  come alcuni fenomeni apparentemente slegati, quali ad esempio il consumo di margarina negli Stati Uniti e il tasso di divorzi nello stato del Maine, abbiano invece una correlazione elevatissima. Malgrado ciò, è difficile concepire che un maggiore consumo di margarina causi un aumento di divorzi nel Maine. Come si giustificano allora dei valori di correlazione così alti? Una delle spiegazioni più semplici è che queste relazioni siano in realtà spurie, ovvero siano indotte dalla presenza di una terza variabile non misurata che influenza le altre due.  Ad esempio, è ben noto che il consumo di gelati sia positivamente correlato con il numero di ustioni solari. Mangiare gelati aumenta quindi la probabilità di ustionarsi? Questo è un classico esempio di correlazione spuria: infatti, sia il consumo di gelati che il numero di ustioni solari dipendono dalla stagione; durante l’estate,  entrambi i valori aumentano per poi diminuire al variare delle stagioni, quando la temperatura e l’intensità dei raggi UV diminuiscono. Tenendo dunque in considerazione la stagione, il legame tra consumo di gelati e numero di ustioni svanisce.

Figura 2 – Il consumo di gelati è positivamente correlato al numero di ustioni solari. Tuttavia, questa correlazione è spuria ed è indotta dalla stagione, perché le temperature più elevate portano sia a un maggiore consumo di gelati sia a un maggior numero di ustioni. Chiaramente, il consumo di gelati non causa un aumento delle ustioni

In questo esempio la stagione è una variabile di confondimento (confonditore o confounder in inglese), ossia una variabile che influenza delle altre variabili. Se ignorata, può indurre una correlazione spuria tra le altre variabili che risulterebbero altresì indipendenti. I confonditori sono uno dei problemi principali quando si vuole determinare la presenza di una relazione causale tra due eventi o fenomeni. Non a caso, negli studi epidemiologici, in cui spesso si cerca di rispondere a domande di natura causale (valutare l’efficacia di un nuovo farmaco o capire quali fattori determinino un corretto sviluppo fetale), vengono condotti esperimenti randomizzati, considerati il gold standard nella ricerca scientifica. Nella sua versione più semplice, un esperimento randomizzato prevede che due gruppi ricevano due diversi trattamenti, generalmente un trattamento di cui si vogliono valutare gli effetti e un placebo o un trattamento dagli effetti noti.  I soggetti da assegnare a ciascuno dei due gruppi vengono scelti in modo casuale e non sanno a quale gruppo sono stati assegnati. Se il processo di randomizzazione è stato eseguito correttamente, i due gruppi dovrebbero presentare le stesse caratteristiche e questo dovrebbe garantire l’assenza di variabili di confondimento. L’idea alla base della randomizzazione è la seguente: per valutare l’effetto (causale) di un trattamento su una variabile di interesse (la concentrazione di globuli bianchi nel sangue, il livello di vitamina D, un punteggio che misura la depressione…) bisognerebbe osservare lo stesso gruppo di soggetti in due scenari diversi, quello in cui i soggetti assumono il trattamento e quello in cui non lo assumono, e confrontare i risultati ottenuti nei due casi. Dal momento che è impossibile osservare gli stessi soggetti nei due scenari contemporaneamente, si utilizza un altro gruppo di individui che abbia le stesse caratteristiche. In questo modo, se il processo di randomizzazione è stato eseguito correttamente, rendendo i due gruppi ipoteticamente scambiabili, e si misura una differenza nei risultati ottenuti nei due gruppi, allora si potrà dire che il trattamento ha un effetto causale sulla variabile in esame. 

Gli esperimenti randomizzati non sono sempre possibili, sia per il loro costo elevato, sia perché in alcuni casi potrebbero risultare anti-etici. Ad esempio, se uno studio volesse valutare l’effetto del fumo sulla  probabilità di sviluppare una malattia cardiovascolare, a un gruppo di soggetti dovrebbe essere imposto l’obbligo di fumare, una richiesta chiaramente immorale. In molti casi si usano quindi i cosiddetti dati osservazionali, ossia dati che non provengono da un esperimento e che il ricercatore si limita a raccogliere, senza interferire nel loro processo di generazione. Tornando all’esempio precedente relativo all’effetto del fumo sulle malattie cardiovascolari, in uno studio osservazionale ci sarebbero sempre due gruppi, uno di fumatori e uno di non fumatori, ma, a differenza di un contesto sperimentale e randomizzato, non si avrebbe alcuna garanzia sulla ‘scambiabilità’ dei due gruppi, che potrebbero invece differire per diversi fattori: ad esempio il gruppo di fumatori potrebbe essere mediamente più giovane rispetto al gruppo di non fumatori, oppure tra i fumatori potrebbe esserci una percentuale di donne maggiore rispetto all’altro gruppo. Sesso ed età sono dei tipici confonditori che vengono considerati in quasi tutte le analisi di natura causale. Se è possibile collezionare molte variabili che potrebbero avere il ruolo di confonditori tra le due variabili di interesse, allora la plausibilità delle conclusioni causali a cui si perviene aumenta, sebbene esista sempre la possibilità che alcuni confounder non siano stati inclusi nell’analisi.

Appare dunque evidente come la determinazione di nessi causali vada ben al di là della misurazione della correlazione, che può sì dare un’indicazione sulla natura della relazione fra due variabili ma non fornire delle prove su una relazione di tipo causa-effetto, per cui servono strumenti statistici più complessi, tipici dell’inferenza causale.

 

 

Statistica per l’Analisi dei Dati (L41)- Statistica e Data Science (LM82Data)

Dipartimento di Scienze Economiche Aziendali e Statistiche, Università degli Studi di Palermo

Viale delle Scienze, Edificio 13 Palermo

https//statisticadatascience.unipa.it

calendario articoli
Maggio 2023
L M M G V S D
1234567
891011121314
15161718192021
22232425262728
293031  
archivio articoli