Il Sacro Graal del P-value

Cerca nel sito

Altri risultati..

Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors
Il P-Value


Recentemente è comparso su Nature un articolo di Regina Nuzzo, professore associato di statistica alla Gallaudet University di Washington e divulgatore scientifico “free lance”, che mette in discussione l’utilizzo diffuso dei valori di P, l’indicatore comunemente usato nella definizione di significatività statistica . La posizione di Nuzzo è stata commentata da un editoriale della stessa rivista e da un altro editoriale e un articolo apparsi su una delle più importanti riviste di laboratorio . Anche una rivista scientifica di ambito non medico ha dedicato di recente un intero forum all’argomento.
La critica all’uso dei valori di P come discriminanti tra il “Santo Graal” della significatività statistica e l’opposta
condanna della non significatività rimane quindi attuale, anche se la discussione ha inizio più di vent’anni orsono .Nonostante ciò, la frase canonica “statisticamente significativo (P <0,05)” compare ancora con grande frequenza nella letteratura scientifica.
Ma da dove nasce il valore di P? Cos’è esattamente e cosa significa? Cosa invece non è?  Viene correttamente usato e interpretato? Esistono alternative al suo utilizzo?


Cos’è il valore di P

Il valore P fu proposto da sir Ronald Fisher negli anni ’20 per misurare la forza di un risultato scientifico. Fisher
lo propose come un indicatore della discrepanza tra i dati e l’ipotesi nulla.
Quando si formula un’ipotesi scientifica che asserisce, ad esempio, che il valore di colesterolemia è più basso nei soggetti trattati con una statina che nei soggetti trattati con placebo (per cui la differenza tra i due valori di colesterolemia non è nulla), la corrispondente ipotesi nulla è che il valore di colesterolemia sia uguale nei trattati con statina e nei trattati con placebo (cioè che la differenza sia nulla). Sui dati sperimentali viene calcolata una statistica test, che viene rapportata all’appropriata distribuzione statistica, e corrisponde a un valore di probabilità che è appunto denominato P. Il valore P è definito come la probabilità, sotto l’ipotesi nulla (cioè assumendo che l’ipotesi nulla sia vera), di ottenere un risultato uguale o più estremo di quello osservato.


Esempio
Supponiamo di confrontare due gruppi di 40 pazienti ciascuno, assegnati per randomizzazione a trattamento con statina o placebo; alla fine di un anno di trattamento, la colesterolemia media del primo gruppo è 194,4 (DS 15,6) mg/dL, mentre quella del gruppo di controllo è 202,1 (DS 14,8) mg/dL . Per il confronto di due medie calcolate su due campioni indipendenti, la statistica test appropriata è la t di Student. Dal calcolo emerge un valore di t di 2,265.
Confrontare questo valore con la distribuzione t di Student è semplice con gli strumenti di calcolo attuali; ciò può essere fatto anche senza ricorrere a un programma statistico, con un foglio di calcolo. Il valore di P che risulta è 0,026 (<0,05). Qualsiasi pubblicazione scientifica riporterebbe questo risultato come “statisticamente significativo”. Ma qual è il significato diquel valore di P? Sotto l’ipotesi nulla, cioè se non esistono differenze tra soggetti trattati e non trattati, la probabilità di un risultato come quello ottenuto o più estremo è pari a 26 su 1000, cioè piuttosto improbabile.
Il risultato della verifica statistica ci induce quindi a concludere che è poco probabile che la differenza riscontrata tra i due gruppi sia dovuta al caso. Questo significa che si tratta anche di un risultato clinicamente rilevante? Non è la dimensione di P = 0,026 che risponde a questa domanda. Per questo, occorre fissare l’attenzione sulla differenza tra le due medie: in altre parole, una differenza di 7,7 mg/dL è clinicamente rilevante? La risposta va chiesta all’esperto dello specifico settore clinico, non alla statistica. Molti di noi probabilmente riterrebbero che una differenza di 7,7
mg/dL di colesterolemia sia clinicamente poco rilevante.
Occorre poi tenere presente che il valore di P è fortemente condizionato dalla numerosità del campione.
Immaginiamo di aver ottenuto da uno studio i valori di colesterolemia precedentemente riportati, solo che la numerosità di ciascun gruppo era tripla, pari a 120 pazienti per campione. Il valore della statistica test t che si ottiene diviene 3,923, che corrisponde a una P = 0,0001 (Tabella 1, esempio 2). La probabilità del risultato, se l’ipotesi nulla è vera, diviene quindi notevolmente più bassa, ma la dimensione dell’effetto, che rappresenta l’informazione rilevante per il clinico, e cioè una differenza di 7,7 mg/dL, è sempre la stessa. Il valore di P molto più piccolo di quello precedentemente
ottenuto nel primo esempio significa che la differenza fra i valori di colesterolemia è più significativa?
Una domanda ulteriore poi è perché consideriamo un valore di 0,05 quale soglia della “significatività statistica”? Fu Fisher che suggerì come convenzione il 5% come livello standard, con 1% come alternativa più
stringente. Più piccolo è il valore di P, minore la probabilità di ottenere un valore più estremo di quello osservato se l’ipotesi nulla è vera. Ne deriva che più piccolo è il valore di P, più forte l’evidenza contro l’ipotesi nulla, che viene dichiarata non plausibile, cioè improbabile che si sia realizzata per effetto del caso, e viene quindi rifiutata. In caso di un P elevato (>0,05), l’ipotesi nulla non viene rifiutata, ma l’informazione che si ricava è che non vi sono dati  sperimentali sufficienti per una conclusione.
Un decennio più tardi, Jerzy Neyman, un matematico Un decennio più tardi, Jerzy Neyman, un matematico polacco, ed Egon Pearson, il figlio del più famoso statistico Karl Pearson svilupparono il metodo che da loro prende il nome per scegliere tra due ipotesi. Lo scopo era quello di sostituire l’interpretazione in parte soggettiva della significatività statistica con un processo decisionale applicato ai risultati dell’esperimento, che consentisse di sostenere che l’esperimento conferma o smentisce l’ipotesi sperimentale . Nel confronto tra l’ipotesi nulla, come precedentemente definita, e l’ipotesi alternativa, e precisamente che la differenza tra la colesterolemia nei trattati con statine e nei trattati con placebo non sia nulla, il risultato del test d’ipotesi (secondo Neyman e Pearson) è una decisione, non un’inferenza: rifiutare un’ipotesi e accettare l’altra, solo sulla base dei dati, e concludere che non si può asserire
che esista differenza tra la colesterolemia del gruppo dei trattati con statine e quella dei trattati con placebo (mancato rifiuto dell’ipotesi nulla) o asserire che la differenza esiste (rifiuto dell’ipotesi nulla). Questa decisione espone il ricercatore al rischio di due tipi di errore.  Comportarsi come se vi fosse una differenza tra le due terapie, quando di fatto non vi sono differenze, è un risultato falsamente positivo, o errore di tipo I o errore α (rifiutare l’ipotesi nulla quando essa sia vera).
Concludere invece che le due terapie non differiscono, quando di fatto sono diverse, è un risultato falsamente negativo, o errore di tipo II o errore β (non rifiutare l’ipotesi nulla quando l’ipotesi alternativa è vera). Più usato è il complemento a 1 dell’errore di tipo II (1-β), definito potenza.
Il test di ipotesi non era inteso fornire una misura dell’evidenza dei risultati, un numero che riconducesse dai dati all’ipotesi sottostante. Il risultato è semplicemente l’accettare o il rifiutare l’ipotesi nulla, a un livello di probabilità prefissato, senza alcun tentativo di produrre un valore di P per stimare la forza dell’evidenza contro l’ipotesi nulla in un singolo studio. Nelle parole degli Autori: “nessun test basato su una teoria probabilistica è in grado da solo di fornire una fondata evidenza sulla verità o falsità di una data ipotesi” e “senza sperare di poter conoscere se ogni singola ipotesi sia vera o falsa, possiamo cercare regole per indirizzare il nostro comportamento relativamente a esse e potremo essere confidenti sul fatto che, seguendole, nel lungo termine, non sbaglieremo molto spesso”.
Con queste affermazioni Neyman e Pearson dichiarano che non si è in grado di valutare lo stato di realtà basandosi su un singolo esperimento. Una esemplificazione efficace di questa logica è fornita da Goodman, che lo paragona a un processo in un sistema giudiziario che non centra la sua attenzione su quale accusato sia giudicato colpevole o innocente (“se ogni singola ipotesi sia vera o falsa”), ma cerca invece di controllare il numero totale di verdetti errati (“nel lungo termine, non sbaglieremo molto spesso”); questa è ovviamente per il ricercatore una conclusione altamente insoddisfacente.
E’ a questo punto che nello sviluppo della pratica statistica si è inserito l’uso del valore di P, come misura dell’evidenza derivante dal singolo esperimento, che intenderebbe non contraddire la logica di lungo termine del test d’ipotesi di Neyman e Pearson. Si è quindi generato una sorta di metodo combinato ibrido in cui

Ti potrebbe interessare anche:  Rete, rete delle mie brame chi è il più hater del reame?

1. prima dell’esperimento, si fissa il livello di errore di tipo I (praticamente sempre il 5%);
2. sempre prima dell’esperimento, si fissa la potenza (che è il complemento a 1 dell’errore di tipo II), praticamente sempre fissata all’80%;
3. si calcola quindi il valore P e si rifiuta l’ipotesi nulla se tale valore è inferiore al valore prefissato di errore di tipo I (punto 1).

Questo metodo combinato viene spesso presentato nei testi di statistica senza alcuna menzione della sua origine controversa. Importante sottolineare che il test di significatività può portare a rifiutare l’ipotesi nulla, ma non può mai dimostrarla o confermarla. Ciò implica la scorrettezza metodologica dei frequenti studi che, basandosi sull’assenza di una significatività statistica (cioè sul mancato rifiuto dell’ipotesi nulla), asseriscono l’equivalenza tra due (o più) gruppi studiati. Un esempio è rappresentato da uno studio recente che confronta 3 tecniche per l’elettroforesi delle proteine. Gli autori in particolare confrontano la specificità dei 3 metodi e, poiché non ottengono una significatività statistica (P >0,05), concludono che le caratteristiche analitiche sono equivalenti. In realtà, il mancato rifiuto dell’ipotesi nulla che deriva da questo risultato permette di affermare che i dati a disposizione non consentono di rifiutare l’ipotesi nulla (di equivalenza tra i 3 metodi), il che è diverso dal concludere che l’ipotesi nulla è vera e quindi che non ci sono differenze tra i metodi o, come riportato, che i 3 metodi possono essere considerati
equivalenti. Si tratta di un uso radicalmente scorretto nell’interpretazione del valore di P, purtroppo piuttosto diffuso.

Cosa non è il valore P

Il quesito che lo sperimentatore solitamente si pone è del tipo “Dati questi risultati sperimentali, qual è la probabilità che l’ipotesi nulla sia vera?”. Un valore di P pari a 0,026, come nell’esempio, a rigore ci dice che, se l’ipotesi nulla è vera, una differenza come quella che abbiamo osservato (o più estrema) si avrà con una probabilità del 2,6%. Il problema è che ci sembra abbastanza naturale invertire i termini della questione e concludere erroneamente che la probabilità dell’ipotesi nulla è 2,6%, dati i valori sperimentali osservati.
Fisher stesso aveva sottolineato come dal punto di vista della logica induttiva si cerchi di passare dal particolare (tipicamente un insieme di osservazioni sperimentali) a una regola generale (tipicamente una teoria applicabile all’esperienza futura). Ma il processo inferenziale della classica teoria delle probabilità è deduttivo per sua natura, essendo costituito da affermazioni sul comportamento di un campione, estratto da una popolazione di cui sono note le proprietà.
Il valore P è definito come la probabilità di ottenere un risultato uguale o più estremo di quello osservato; non può quindi costituire una misura diretta della probabilità che l’ipotesi nulla sia falsa. Risulta quindi erronea la definizione, sostenuta da molti ricercatori, che un valore P di 0,05 significhi che l’ipotesi nulla ha una probabilità solo del 5% o inferiore al 5%.
Perché questa soglia di 0,05? Nel 1914, Karl Pearson aveva pubblicato le “Tables for statisticians and biometricians”: per ciascuna distribuzione, Pearson riportava il valore di P per un’ampia serie di valori della variabile casuale. Quando invece nel 1925 Fisher pubblicò il libro “Statistical methods for research workers”,incluse tavole che presentavano i valori della variabile casuale solo per valori selezionati di P (0,05, 0,01, 0,001). Lo stesso approccio fu usato da questo Autore per la pubblicazione delle “Statistical tables for biological, agricultural, and medical research”, insieme a Frank Yates nel 1938 (14). L’impatto fu notevole e negli anni ’60 si diffuse come pratica standard l’indicare con un asterisco valori di P <0,05 e con due asterischi i valori di P <0,01. Occasionalmente, 3 asterischi erano usati per indicare P <0,001. Ancora oggi la maggior parte dei libri di statistica riproduce le tavole
di Fisher.

Ti potrebbe interessare anche:  Statistica: Correlazione fra variabili

 

(116)