Variasjon mellom utvalg
Gjennomsnittsverdier, koeffisienter fra regresjonsmodeller eller estimater av risiko er typiske eksempler på statistiske estimater fra utvalg. Presisjonen til slike estimater uttrykker en annen nyanse av variasjon som er relatert til viktige statistiske begreper som p-verdier, signifikanstester og konfidensintervaller.
La oss tenke oss at vi beregnet gjennomsnittsverdien fra forskjellige uavhengige utvalg med samme antall individer. Hver enkelt gjennomsnittsverdi ble registrert i et nytt datasett. Standardavviket til disse enkelte gjennomsnittsverdiene ville bli det vi ofte kaller for standardfeilen til gjennomsnittet (standard error of the mean). Altså, standardfeilen til gjennomsnittet er egentlig et standardavvik, men da for gjennomsnittsverdiene og ikke de enkelte målingene i utvalget.
Vi kan bruke standardfeilen til estimatet for å beregne konfidensintervallet. En ikke uvanlig misforståelse er at nivået til konfidensintervallet – for eksempel 95 % – angir sannsynligheten for at populasjonens sanne verdi ligger innenfor det estimerte intervallet (3). En mer korrekt definisjon er at konfidensintervallet er et estimert intervall av en populasjonsparameter beregnet fra de observerte dataene. Hvis vi estimerte 95 % konfidensintervaller i et uendelig antall uavhengige eksperimenter, ville 95 % av disse intervallene inneholde den sanne populasjonsverdien.
Standardfeil og konfidensintervall gir oss viktig statistisk informasjon om presisjonen til estimater fra utvalg, men er ikke et mål for spredningen til enkeltmålingene. Utvalg med mye spredning og dermed et høyt standardavvik kan gi estimater med en liten standardfeil og et smalt konfidensintervall. For å få et smalt konfidensintervall (og dermed ofte en tilhørende lav p-verdi), gjelder det å ha mange observasjoner i utvalget. Jo flere observasjoner, desto lavere standardfeil og smalere konfidensintervall. Derimot blir standardavviket ikke påvirket av antall observasjoner i utvalget.
De mange nyansene av spredning og variasjon til data er essensielt i statistikk. Disse gir viktig informasjon om måleusikkerheten til en målemetode, spredningen i et utvalg eller presisjonen til et estimat.