Økt kompleksitet
Jobber man med større og mer komplekse datafiler, trengs mer sofistikerte kontroller. Slike kontroller må settes opp som automatiserte søk i datafilen, da manuelle kontroller blir for omfattende. Søkene vil være spesifikke for hvert datasett og basert på bl.a. typen variabler og formatet til settet. Det er derfor umulig å gi helt generelle råd til vasking av større datafiler, og her ligger også den største utfordringen: Datavaskingen må tilpasses hvert enkelt tilfelle. Noen av de vanligste feilene som opptrer, er det dog nyttig å diskutere.
Manglende data er ofte en utfordring. I vårt eksempel mangler person 1 sluttdato for sitt sykehusopphold. Liggetiden er dermed umulig å regne ut. Her må man velge om man kun skal bruke komplette data, eller om man skal gjøre en form for imputering, det vil si estimere den manglende verdien basert på observerte data.
Duplikater forekommer ofte. I tilfellet hvor duplikatene er rene kopier av hverandre (to linjer er identiske, se person 8 i eksempelet), kan den ene linjen enkelt slettes, men i mange tilfeller vil en registrering være gjort to (eller flere) ganger med små forskjeller, som f.eks. for person 9 i eksempelet – røyker vedkommende eller ikke?
I de fleste tilfeller er det også nødvendig å sjekke om dataene har logiske brister. F.eks. er det notert at person 5 i eksempelet ikke røyker, men også at vedkommende røyker fem sigaretter per dag. Slike feil kan være krevende å oppdage, men er viktige å behandle.
Om datamaterialet er samlet inn over tid, må man sjekke sekvenser – at hendelser er plassert logisk i tid. I eksempelet kan man finne en behandlingsslutt som ligger forut i tid for behandlingsstart (person 2) og to behandlingsepisoder som overlapper i tid (person 4).