Home » Come funziona?

Bugie, panzane e statistiche

Benvenuti nel regno della hard science. Qui su OMg!S! si fa divulgazione, ma ogni tanto è giusto ragionare su numeri e dettagli, anche se magari si parla di concetti che non sono ancora alla portata di tutti.
Armatevi dunque di carta, penna e pazienza, e seguite il ragionamento di Giuseppe: la vostra visione dei test diagnostici potrebbe non essere più la stessa.

[Giovanni]

Esistono tre tipi di menzogne: le bugie, le panzane e le statistiche
Mark Twain

Lo ammetto: l’idea che esista una “branca” della medicina chiamata “Evidence Based” mi irrita. Un fisico o un chimico non si sognerebbero mai di dire qualcosa che non sia suffragato da una sperimentazione che mostri evidenze chiare di quello che si afferma. I medici no, vanno ad intuito, come se fossero ancora prigionieri dell’archetipo stregonesco da cui derivano. Inutile chiedere: tocca a me andare a cercare notizie riguardo alla sensibilità e specificità dei test diagnostici per il carcinoma ovarico. Non mi fido mai di quello che dicono i produttori dei vari kit diagnostici: applico il teorema dell’acquaiolo. A Napoli, infatti, se domandate al gestore di un chioschetto se la sua acqua è fresca, immancabilmente vi risponderà che è più gelata della neve. Allo stesso modo, il produttore di un kit vi dirà che il suo è immancabilmente il migliore, che le sue caratteristiche ne fanno il “non plus ultra” nella lotta tra il bene ed il male…

Puntualmente mi trovo a ridimensionare, numeri e Bayes alla mano, dimostrando che le cose non stanno in quei termini, ma sono molto molto molto sopravvalutate. Giusto per entrare nello specifico, cercavo dati riguardo ai due marcatori sierici attualmente usati nella diagnosi di carcinoma ovarico: CA125 e HE4. Stando a delle review e meta-analisi che ho trovato, il primo ha una sensibilità del 69% ed una specificità del 93% (Eur J Radiology 2009), il secondo ha una sensibilità dell’83% ed una specificità del 90% (Int J Gynecol Cancer 2012). Ovviamente, il “sales specialist” (ma perché usano nomi inglesi? Non capisci mai che mestiere fanno in realtà!) vuole convincermi che siccome la specificità è praticamente la stessa ma la sensibilità è più alta, HE4 sia un marcatore migliore di CA125. Il “sales managertraspone la sensibilità (la probabilità che il test sia positivo nei soggetti malati) con il valore predittivo positivo (la probabilità che il soggetto sia malato poiché il test è positivo – VPP). Peccato che questa operazione sia matematicamente vietata (infatti si chiama errore del trasposto o errore dell’accusatore)… Facciamo due conti con la nostra testa, senza fidarci di quanto asserisce il novello acquaiolo.

Stando al Registro Tumori, la prevalenza del carcinoma ovarico nella popolazione italiana, senza tener conto dell’età del soggetto (molto raro nelle giovani, più frequenti nelle donne post-menopausa) e della geografia (più frequente al nord rispetto al sud), è di 133 donne ogni 100.000. Questo significa che ogni 100.000 donne ce ne sono 133 col carcinoma ovarico e 99.867 senza. Quindi, senza fare alcun test, la probabilità “a priori” di avere il carcinoma è 133/100.000=0,133% (…Elementare, Watson!).

Andiamo ad usare CA125: se la sensibilità è del 69%, delle 133 donne con carcinoma 92 saranno positive (vere) e 41 negative (false); se la specificità è del 93% delle 99.867 senza carcinoma 92.876 saranno negative (vere) e 6.991 saranno positive (false). La predittività positiva sarà data dal rapporto tra le vere positive e tutte le donne risultate positive, ossia: 92/(92+6.991)=1,3%. Parimenti, la predittività negativa sarà data dal rapporto tra le vere negative e tutte le donne negative, ossia: 92.876/(92.876+41)=99,96%. Come è facile notare, benché la probabilità di avere il tumore con un test positivo sia aumentata di 10 volte rispetto al rischio “a priori”, è un rischio talmente basso che non è possibile arrivare ad alcuna conclusione senza altri esami diagnostici (insomma, noi in laboratorio la palla di cristallo proprio non la possiamo usare).

Facciamo lo stesso ragionamento con HE4: se la sensibilità è dell’83%, delle 133 donne con carcinoma 110 saranno positive (vere) e 23 negative (false); se la specificità è del 90% delle 99.867 senza carcinoma 89.880 saranno negative (vere) e 9.987 saranno positive (false). La predittività positiva sarà: 110/(110+9.987)=1,1%. Parimenti, la predittività negativa sarà data dal rapporto tra le vere negative e tutte le donne negative, ossia: 89.880/(89.880+23)=99,97%. Ora, veramente mi volete far credere che questo HE4 sia meglio di CA125? Si vede che le loro prestazioni sono IDENTICHE. Quando una malattia è così rara, un piccolo cambio di specificità si traduce in una catastrofe in termini di falsi positivi. Provate a fare una piccola ricerca su PubMed e scoprirete che mentre noi ci abbiamo messo… 1 minuto per arrivare a questo risultato, esistono almeno una decina di lavori che giungono alla stessa conclusione, ma con evidente spreco di tempo, personale impiegato e soldi pubblici destinati alla ricerca: Hellstrom 2003; Scholler at al 2006; Palmer et al. 2008; Montagnana et al 2009; Andersen et al. 2010; Van Gorp et al. 2011; Karlsen et al 2012.

Altro errore. Esiste un algoritmo chiamato Risk of Ovarian Malignancy Algorithm (R.O.M.A.) che stratifica le donne in basso ed alto rischio di sviluppare un carcinoma ovarico. Nel manuale d’istruzioni del kit di HE4 scrivono che la specificità di ROMA è 75% e la sensibilità è del 94%. E poi eccola lì la bufala che ha scatenato l’Antonio de Curtis che è in me e mi ha fatto esclamare “ma mi faccia il piacere!“: la predittività positiva e negativa sono, rispettivamente, 58% e 97%. Amici di OMG!Science, ora vi renderete conto che un “vaffa” è il minimo che si possa dire e che 58% è un numero che non sta nè in cielo, nè in terra (vi lascio il compito a casa: calcolare il valore predittivo positivo e negativo). Inutile dire che i medici mi tempestano di domande per sapere se il ROMA Index è il rischio di avere il tumore… Non so quante volte ho spiegato che quello è un rischio di sviluppare, nel tempo, un tumore. Potrebbe pure non svilupparsi mai, ma a questo concetto proprio non ci arrivano. Hanno bisogno di certezze (ma chi le ha su questa terra?), di arrivare ad una diagnosi sicura. Mi metto alla ricerca dei valori di sensibilità e specificità di altri strumenti diagnostici (Ecografia, TAC, RMN…) per capire a quanto può arrivare il valore predittivo positivo se tutte le armi a nostra disposizione dovessero dare esito positivo. Sono approdato su una pagina del Ministero per la Salute dal titolo abbastanza presuntuoso e altisonante: “Basi scientifiche per linee guida in ambito clinico per le diverse patologie oncologiche. L’autrice, Rossella Silvestrini (che ben si guarda dal mettere un numero di telefono o un qualsiasi recapito), copiando i dati ripotati in Tsili 2008 asserisce che: “la TC è in grado di rilevare il 90% delle masse annessiali e ha evidenziato una sensibilità del 90%, una specificità del 88,76%, un VPP del 78,26%, un VPN del 95,18%“. Ormai siete abbastanza smaliziati con Bayes per capire che il VPP non può essere 78,26%, ma che a stento sarà intorno all’1%. Ma allora da dove vengono tutti questi numeri (che sono buoni solo per essere giocati al lotto)? Perché c’è una così smodata sovrastima dei valori predittivi? Non ho la possibilità di guardare i dati di Tsili perché posso accedere solo all’abstract (in realtà non so neanche se è lui che ricava un VPP così elevato o è la Silvestrini). Posso però leggere quello che è riportato nell’ormai famigerato manuale d’istruzione di HE4. La tabella che riporta i dati su R.O.M.A. è illegibile (nel senso che non si capisce che cosa vuole significare), per cui andiamo a vedere quella su HE4 che è più intellegibile. Sono stati studiati 1.147 campioni di cui 127 con carcinoma ovarico e 1020 senza (incominciate a capire l’inghippo?). Nei 127 campioni con carcinoma 100 hanno un test HE4>150pM (veri positivi) e 27 no (falsi positivi); dei 1020 senza carcinoma 131 hanno un test HE4>150pM (falsi positivi) e 889 no (veri negativi). Se a questo punto calcoliamo il VPP avremo 100/100+131 = 43,3%. Avete capito l’errore? Questi studi calcolano la prevalenza (e quindi i valori predittivi) non sulla popolazione generale (133:100.000) ma sul loro campione studiato (11.072:100.000). Chiaramente, se la prevalenza diventa 83 volte più grande l’effetto di sensibilità e specificità cambia! Il problema è che i medici non capiscono alcunché di numeri, iniziano ad usare un nuovo test perché “va di moda” (e non aggiungo altre ipotesi più truffaldine…) per poi accorgersi, dopo anni e decine di pubblicazioni inutili, che i risultati ottenuti non erano quelli sperati…. Le conoscenze che acquisiamo modificano le probabilità dell’evento, ma sembra che nessuno riesca a dar il giusto peso alle informazioni. Andiamo nello specifico usando i dati di sensibilità e specificità del Ministero. Una donna va dal ginecologo, questi esegue una ecografia trans-vaginale (TVUS) e trova una massa ovarica sospetta. La probabilità di carcinoma passa da 0,133% a 0.21%. Manda la paziente a fare una risonanza e anche questa mostra una “positività“. La probabilità di carcinoma sale da 0.21% a 1,3%. Chiede anche una TAC e anche questa è positiva. La probabilità di carcinoma sale da 1,3% a 9,7%… A questo punto si decide a mandarla in laboratorio e chiede CA125. Il dosaggio mostra un valore >35 U/mL e la nostra probabilità di carcinoma sale da 9,7% a 51,5%. Siamo arrivati a fare 4 esami per arrivare ad una probabilità di poco superiore a quella che si otterrebbe lanciando una monetina. Ora eseguiamo anche HE4; anch’esso positivo e la probabilità sale da a 51,5% a 89,8%. Alcune considerazioni:

  1. dopo 5 esami ed un bel po’ di soldi spesi abbiamo ancora un 10% di probabilità di non avere alcun tumore. Per pubblicare un lavoro scientifico ci imponiamo che questo valore sia inferiore al 5% (il famoso p<0.05). Se ne conclude che la vita umana vale meno di una pubblicazione.
  2. la positività a tutti e 5 i test si avrà solo nel 50% delle donne con carcinoma ovarico (moltiplicate tutte le sensibilità tra loro).
  3. la negatività a 1 solo dei 5 test fa crollare la probabilità in maniera drastica (in particolare la risonanza che sembra avere una sensibilità del 100%).
  4. Quanti medici saprebbero dire ad una donna quale è la probabilità di avere un carcinoma ovarico alla luce delle informazioni raccolte?

Tag:, , , , , , , ,

Scritto da Giuseppe Cardillo Pubblicato il 21 novembre 2012

 

Se ti é piaciuto questo articolo, rimani aggiornato:
seguici anche su Facebook!

6 Commenti »

  • nico dice:

    Ottimo articolo Giuseppe!

    Mi permetto solo di riportare la versione originale della citazione in alto (Esistono tre tipi di menzogne: le bugie, le panzane e le statistiche), perchè con la traduzione si perde una piccola interessante sfumatura.

    There are three kinds of lies: lies, damned lies, and statistics

    Notate la sfumatura?

    (tra l’altro Twain attribuiva la frase a Disraeli, anche se non è chiaro se questa attribuzione sia solo una panzana!)

  • Giuseppe Cardillo dice:

    Grazie, ma ora mi hai incuriosito: quale è la sfumatura?

  • Giovanni Argento dice:

    …e pensare che io l’avrei tradotta come
    “le bugie, le fottute bugie, e le statistiche” :)

    • Giuseppe Cardillo dice:

      In realtà anche io l’avrei tradotta come Giovanni, però ho pensato che c’erano già troppi vaffa….

  • Massimo dice:

    Sbagliano perchè ingenuamente e meccanicamente quando hanno i dati fanno la tabellina 2×2, da cui si può ottenere di tutto e di più.

    Basterebbe fargli capire il concetto di probabilità a priori e probabilità a posteriori.

    Così come sarebbe sufficiente fargli capire che Sensibilità e Specificità sono probabilità condizionali! E non semplici divisioni.

    Eviteremmo così anche quelli che pensano che Se e Sp sono dipendenti da prevalenza, da età, da gravità della malattia ecc..

    Complimenti intervento scritto bene!
    ciao
    max