Sannsynlighet og spredning
Den statistiske p-verdien og 95 % konfidensintervall angir usikkerheten til estimatet av utvalgets tyngdepunkt (1). Det blir feil når det anføres tre alternative mål på medianens usikkerhet, nemlig ekstremverdier (spredning), kvartiler og 95 % konfidensintervaller. 95 % konfidensintervall beskriver det intervallet som tyngdepunktet vil kunne forventes å befinne seg innenfor i 95 av 100 tilfeller. Tilsvarende gjelder for standardfeil (standard error of the mean, SEM). Konfidensintervallet og SEM minker med økt antall observasjoner. For normalfordelte målinger endres p-verdien 100 % lineært i forhold til konfidensintervallet. Hvis man måler alle aktuelle objekter, er tyngdepunktet målt – ikke estimert – og intervallet er da definisjonsmessig lik null. Spredning og kvartiler samt standardavvik (SD) og varians (SD²) har en helt annen funksjon. De fortsetter å øke med økt antall objekter som måles, og har maksimal størrelse når alle objekter er målt. Dette er spredningsparametere som beskriver variasjonen, ikke statistisk usikkerhet. Måleusikkerhet forårsaket av apparatinstabilitet eller definisjonspresisjon, ofte benevnt målefeil, skal beskrives med spredningsparametere, ikke med konfidensintervall eller SEM.
Å ikke skille mellom statistisk sannsynlighetsberegning og spredningsparametere kan ha katastrofale følger. Ofte ser vi målefeil underestimert ved at man har benyttet konfidensintervall eller SEM som et spredningsparameter. Det samme ser vi ved vurdering av behandlingseffekter hvor pasienter med målt respons nedenfor et konfidensintervall oppfattes som ikke å ha effekt av behandlingen. Dette er et gjentakende problem ved vurdering av individuell effekt av osteoporosebehandling. Analogt ser vi ofte den feiloppfatning at når målefeil er beskrevet med standardavvik, oppfattes avvik større enn 1 SD som sanne eller biologiske variasjoner, altså utenfor den angitte feilmargin. I sin ytterste konsekvens fører en overfladisk anvendelse av matematikk helt unødvendig til deprimerte pasienter som tror tingene bare forverrer seg. Konfidensintervall og p-verdier er som smør på flesk. Det bør anbefales kun å anvende p-verdien der det er legitimt. Da unngår man den type sammenblanding som er beskrevet over.
Som mål på effekt anfører Aamodt og medarbeidere at resultater fra regresjonsanalyser skal presenteres med regresjonskoeffisienten eller med en ratio (1). Regresjonskoeffisienten er ofte ubegripelig, fordi den ikke viser standardiserte eller direkte sammenliknbare helningsvinkler på regresjonslinjen, men kun tilnærmet følgende ratio:
Røyking har vanligvis ett intervall (ja/nei). Følgelig kan koeffisienten bli stor, selv ved lav effekt. Voksen alder vil kunne inndeles i fem intervaller (30 – 80 år) hvis man deler inn alder i tiår, eller 50 intervaller hvis man anvender år. Dette vil gi 10 ganger forskjell i regresjonskoeffisienten. At man ikke har tatt hensyn til ulikt antall intervaller ved risikofaktorer for brudd, forklarer hvorfor de kliniske faktorene for brudd gis ubegrunnet høy betydning. Hvorfor dropper Tidsskriftet r²?
Absolutt endring og ikke relativ endring anbefales av Aamodt og medarbeidere, fordi absolutt endring er mer tolkbar (1). Dette avviker fra praksis i internasjonale fagtidsskrifter. Absolutt og relativ risiko gir opplysning om to helt forskjellige forhold, og begge er nødvendig til hvert sitt bruk. Her må man beholde vitenskapeligheten og se bort fra helsepolitisk begrunnede synspunkter på slike parametere.
Det finnes ingen «kongelig vei» til matematikk. Snarere enn å lage en kokebokoppskrift som kan legitimere overfladisk bruk av matematikk, bør Tidsskriftet bidra til en forståelse av at statistikk dreier seg om nyttige, men komplekse hjelpemidler. Snarere enn å forenkle bør parolen være det motsatte. Men å forlange prinsipalkomponentanalyser og faktoranalyser ved visse problemstillinger, vil neppe bidra til bedret medisinsk praksis. Slike metoder viser ikke noe mer enn enkle og forståelige regnemetoder.