Med process mining kommer man hurtigt til resultater. Men en af udfordringerne er, at fortolkningen af resultaterne og konklusionen af det man ser måske ikke kan underbygges af de data, der ligger til grund for resultaterne. Derfor er det vigtigt ikke at drage forhastede konklusioner, som der ikke er data underbygget belæg for.
En af faldgruberne er at forveksle statistisk bevis for en sammenhæng i tallene med en afledt årsagssammenhæng - der er forskel på korrelation i to talsæt og kausalitet (årsagssammenhæng).
Korrelation opstår, når der er sammenhæng mellem udviklingen af et talsæt og udviklingen af et andet talsæt. Det kunne for eksempel være, at der kan påvises en sammenhæng mellem fejl i behandlede sager og hvilket team, der har behandlet sagerne.
Men det betyder ikke, at der er årsagssammenhæng. Man kan for eksempel ikke konkludere, at personer der ansættes i team 1 eller team 2 vil komme til at performe dårligere. Det eneste vi kan se af ovenstående data er, at der tilsyneladende er dårligere performance i team 1 og 2, men årsagen kan vi ikke konkludere på ud fra data.
Team 1 og team 2 har lavet flest fejl. Så alt andet lige performer team 1 og 2 dårligere. Problemet er bare at "alt andet" aldrig er lige. Det kunne jo for eksempel være at team 1 og 2 behandler langt de fleste sager, og så er det jo ikke så mærkeligt at de også laver de fleste fejl. Spørgsmålet er om de relativt set laver flere fejl end de andre teams.
Det kræver lidt flere data:
Med lidt flere oplysninger kan vi nu se, at team 1 og 2 begge laver hver 5% af alle fejl. Til gengæld behandler de også langt de fleste sager, så relativt set klarer de sig ikke dårligere end de øvrige teams. Team 1 laver en fejl for hver 12 sag der behandles (svarende til 8%) men når vi ser på antallet af fejl relativt set, er team 1 det næstbedste team, og der er ikke længere en korrelation mellem teams og fejl relativt set.
Men hvorfor er der så nogle teams, der performer dårligere end andre? der kan være mange årsager. Måske har nogle teams mere erfarne folk end andre. Måske har nogle teams fået mere træning end andre. Måske har nogle teams oftere de svære sager under behandling. Der kan være mange årsager. Hvis en korrelation mellem teams og antallet af fejl skal underbygges af en konklusion om kausalitet, skal data beriges med de informationer, der kan underbygge det.
Det er en meget typisk faldgrube at forveksle korrelation (sammenhæng mellem datasæt) og kausalitet (årsagssammenhæng).
Karikerede sjove eksempler er for eksempel:
Det er farligt at spise is, for der er flere der drukner på de dage, hvor der sælges flest is.
Man får alvorlige sygdomme af at læse Familie Journalen (selvom der jo nok skyldes, at læserne typisk er lidt ældre og oftere får alvorlige sygdomme).
For der kan være tale om en kausal sammenhæng og altså en årsagssammenhæng, skal følgende kunne konstateres:
- Der skal være en logisk sammenhæng (sammenhængen mellem teams og fejl virker logisk, sammenhængen mellem alvorlige sygdomme og læsning af Familie Journalen gør ikke)
- Årsagen skal have været til stede før effekten (hvis folk fx først er begyndt at spise ost efter de har fået allergi, er det usandsynligt at allergien skyldes, at de spiser ost)
- Der er flere undersøgelser, der kan understøtte påstanden om kausalitet (er der andre undersøgelser, eller andre personer, der uafhængigt også peger på at der er den kausalitet som vi selv finder, så styrker det sandsynligheden for at der faktisk er kausalitet)
Hvorfor er kausalitet så farlig at forveksle med korrelation? det er det først og fremmest fordi, man kan komme til at konkludere en årsagssammenhæng, som der ikke er belæg for, og derved komme til at iværksætte initiativer som enten ikke har effekt, eller som i værste fald kan have den modsatte virkning.
For at imødekomme risikoen for at drage en forkert konklusion om kausalitet kan man dels teste kausalitetshypotesen op imod ovenstående 3 kriterier (udover selvfølgelig at underbygge den med data), dels kan man tænke på kausaliteten og hvor den måske kunne ligge i forhold til følgende tre grupperinger af kausalitet:
- Åbentlys-ikke-kausalitet (åbentlys-ikke-kausalitet hænger sammen med kriteriet om, at der skal være en logisk sammenhæng. Der er for eksempel ikke logisk sammenhæng mellem at spise is og drukne)
- Maskeret-ikke-kausalitet (Denne kategori er typisk svær, for der er korrelation til stede og en logisk sammenhæng. Ofte kræver det videnskabelige undersøgelser eller dybe analyser for at fjerne tanken om at der er kausalitet. Det kunne for eksempel være en kausalitetshypotese om, at det at have været på barsel medfører dårligere karriere muligheder)
- Falsk-kausalitet (Stavgang motionister får oftere slidgigt i knæene. Hvis der er en kausalitet her, kunne det måske være fordi motionisterne har tillært sig en forkert teknik, og at det ikke er stavgang motionen i sig selv, der er problemet).
Comments
You can follow this conversation by subscribing to the comment feed for this post.