Opruim Verwarring tussen korrelasie en Kousaliteit 

Hier is 'n historiese wenk wat jy dalk nie bewus is nie. Tussen die jare 1860 en 1940, soos die aantal Metodiste-ministers wat in Nieu-Engeland woon, toegeneem het, het ook die hoeveelheid Kubaanse rum in Boston ingevoer - en hulle het albei op 'n baie soortgelyke wyse toegeneem. Metodiste-ministers moes dus baie rum in daardie tydperk gekoop het!

Eintlik nee, dit is 'n dom gevolgtrekking om te teken. Wat regtig aan die gang is, is dat albei hoeveelhede - Metodiste-ministers en Kubaanse rum - opwaarts deur ander faktore, soos bevolkingsgroei, gedryf is.

Om die foutiewe gevolgtrekking te bereik, het ons die veel te veel fout gemaak verwarrend korrelasie met kousaliteit.

Wat is die verskil?

Twee hoeveelhede word gesê gekorreleer  as beide verhoog en verminder word ("positief gekorreleer"), of as een toeneem wanneer die ander afneem en omgekeerd ("negatief gekorreleer").

Korrelasie is geredelik opgespoor deur statistiese metings van die Pearson se korrelasiekoëffisiënt, wat aandui hoe styf gesluit die twee hoeveelhede is, wissel van -1 (perfek negatief gekorreleer) deur 0 (glad nie gekorreleer nie) en tot 1 (perfek positief gekorreleer).


innerself teken grafiese in


 causation1tylervigen.com

Maar net omdat twee hoeveelhede gekorreleer word, beteken dit nie noodwendig dat die een direk is nie veroorsaak die ander om te verander. Korrelasie impliseer nie oorsaak nie, net soos bewolkte weer impliseer nie reën nie, alhoewel die omgekeerde waar is.

As twee hoeveelhede gekorreleer is, is daar dalk 'n ware oorsaak-en-effek verhouding (soos reënvalvlakke en sambreelverkope), maar miskien is ander veranderlikes albei (soos seerowergetalle en aardverwarming), of miskien is dit net toeval (soos Amerikaanse kaasverbruik en verwurgings-by-beddens).

Selfs waar oorsaak teenwoordig is, moet ons versigtig wees om nie te meng die saak teen die effek wees, of anders kan ons aflei, byvoorbeeld, dat 'n toename in die gebruik van verwarmers veroorsaak kouer weer.

Ten einde oorsaak-en-effek te vestig, moet ons verder gaan as die statistieke en kyk vir afsonderlike bewyse (van 'n wetenskaplike of historiese aard) en logiese redenasie. Korrelasie kan ons aanspoor om te gaan soek na sulke getuienis in die eerste plek, maar dit is geensins 'n bewys in sy eie reg.

Subtiele probleme

Hoewel die bogenoemde voorbeelde is natuurlik dom, korrelasie is dikwels verkeerd vir kousaliteit op 'n manier wat nie onmiddellik voor die hand liggend in die werklike wêreld. Lees en vertolking van statistieke, moet 'n mens baie versigtig wees om te verstaan ​​presies wat die data en die statistieke is wat impliseer - en meer belangrik, wat hulle is nie impliseer.

 causation2

Een onlangse voorbeeld van die behoefte aan versigtigheid in die interpretasie van data is die opwinding vroeër vanjaar rondom die oënskynlike baanbrekerswerk opsporing van gravitasiegolwe - 'n aankondiging wat blyk te gewees het voortydig, voordat al die veranderlikes wat die data beïnvloed, verantwoord is.

Ongelukkig, die ontleding van statistieke, waarskynlikhede en risiko's is nie 'n vaardigheid stel bedraad in ons menslike intuïsie, en dit is ook te maklik om mislei te word. Hele boeke is geskryf op die subtiele maniere waarop statistieke verkeerd vertolk kan word (of mislei). Om u op te pas, is hier 'n paar algemene gladde statistiese probleme wat u moet bewus wees van:

1) Die Healthy Worker Effect, waar soms twee groepe nie direk op 'n gelyke speelveld vergelyk kan word nie.

Oorweeg 'n hipotetiese studie wat die gesondheid van 'n groep kantoorwerkers vergelyk met die gesondheid van 'n groep ruimtevaarders. As die studie geen beduidende verskil toon tussen die twee - nee korrelasie tussen gesondheid en werksomgewing nie - moet ons aflei dat lewende en werkende in die ruimte geen gesondheidsrisiko's op die langtermyn vir ruimtevaarders het nie?

Geen! Die groepe is nie op dieselfde voet nie: die ruimtevaarderkorps skerm aansoekers om gesonde kandidate te vind, wat dan 'n omvattende fiksheidsreëling handhaaf om die effekte van die lewe in "mikrogravity" proaktief te bestry.

Ons verwag dus dat hulle beduidend gesonder sal wees as kantoorwerkers, en moet terselfdertyd bekommerd wees as hulle nie.

2) Kategorisering en die stadium migrasie effek - skuifeling tussen groepe kan dramatiese gevolge hê vir statistiese uitkomste.

Dit staan ​​ook bekend as die Will Rogers effek, na die Amerikaanse komediant wat na bewering gevra het:

Wanneer die okies gelaat Oklahoma en verhuis na Kalifornië, het hulle die gemiddelde intelligensie vlak in beide lande.

Om te illustreer, stel jou voor om 'n groot groep vriende in 'n "kort" groep en 'n "lang" groep te verdeel (miskien om hulle vir 'n foto te reël). Dit is verrassend maklik om die gemiddelde hoogte van albei groepe gelyktydig te verhoog.

Vra net die kortste persoon in die "lang" groep om na die "kort" groep oor te skakel. Die "lang" -groep verloor hul kortste lid en stoot hul gemiddelde hoogte op, maar die "kort" groep kry hul hoogste lid en kry dus ook gemiddeld.

Dit het groot implikasies in mediese studies, waar pasiënte dikwels in "gesonde" of "ongesonde" groepe gesorteer word tydens die toets van 'n nuwe behandeling. As diagnostiese metodes verbeter, kan sommige baie effens ongesonde pasiënte herroep word - wat lei tot die verbetering van die gesondheidsuitkomste van albei groepe, ongeag hoe doeltreffend (of nie) die behandeling is.

 causation3Kies en kies onder die data kan lei tot die verkeerde gevolgtrekkings. Die skeptici sien die tydperk van verkoeling (blou) wanneer die data werklik langtermynverwarming (groen) toon. skepticalscience.com 

3) Data-ontginning - wanneer 'n oorvloed van data teenwoordig is, kan stukkies wees-kers opgetel om enige verlangde gevolgtrekking te ondersteun.

Dit is slegte statistiese praktyk, maar as dit doelbewus gedoen word kan moeilik wees om te spot sonder kennis van die oorspronklike, volledige datastel.

Oorweeg die bostaande grafiek, wat byvoorbeeld twee interpretasies van aardverwarmingsdata toon. Of fluoried - in klein hoeveelhede is dit een van die doeltreffendste voorkomende medisyne in die geskiedenis, maar die positiewe effek verdwyn heeltemal as mens slegs giftige hoeveelhede fluoried oorweeg.

Vir soortgelyke redes is dit belangrik dat die prosedures vir 'n gegewe statistiese eksperiment vasgestel word voordat die eksperiment begin en dan onveranderd bly totdat die eksperiment eindig.

4) Clustering - wat selfs in heeltemal ewekansige data verwag kan word.

Oorweeg 'n mediese studie wat ondersoek hoe 'n spesifieke siekte, soos kanker of veelvuldige sklerose, is geografies versprei. As die siekte ewekansig voorkom (en die omgewing het geen effek nie) sal ons verwag dat daar talle klusters pasiënte natuurlik sal wees. As pasiënte perfek eweredig versprei word, sal die verspreiding die meeste onwillekeurig wees!

Dus is die teenwoordigheid van 'n enkele groep, of 'n aantal klein groepe gevalle, heeltemal normaal. Gesofistikeerde statistiese metodes is nodig om vas te stel hoeveel clustering nodig is om af te lei dat iets in daardie area die siekte kan veroorsaak.

Ongelukkig maak enige groepe - selfs 'n nie-betekenisvolle een - 'n maklike (en met die eerste oogopslag, dwingende) nuusopskrif.

 causation4

Statistiese analise, soos enige ander kragtige instrument, moet baie versigtig gebruik word. In die besonder moet mens altyd versigtig wees wanneer gevolgtrekkings gemaak word, gebaseer op die feit dat twee hoeveelhede korreleer.

In plaas daarvan moet ons altyd aandring op afsonderlike bewyse om te argumenteer vir oorsaak-en-gevolg - en die bewyse sal nie in die vorm van 'n enkele statistiese nommer kom nie.

Sluimer dwingende korrelasies, sê tussen gegewe gene en skisofrenie of tussen 'n hoë vet dieet en hartsiektes, kan blyk te wees gebaseer op baie twyfelagtige metodologie.

Ons is dalk as 'n soort kognitief siek bereid om hierdie kwessies te hanteer. As Kanadese opvoeder Kieran Egan sit dit in sy boek Kry dit verkeerd vanaf die begin:

Die slegte nuus is dat ons evolusie ons toegerus het om in klein, stabiele, jagter-versamelaarsgemeenskappe te woon. Ons is Pleistoceen-mense, maar ons verstandige brein het massiewe, multikulturele, tegnologies gesofistikeerde en vinnig veranderende samelewings geskep om in te woon.

As gevolg hiervan moet ons voortdurend die versoeking weerstaan ​​om betekenis in toeval te sien en korrelasie en oorsaak te verwar.Die gesprek

Hierdie artikel is oorspronklik gepubliseer op Die gesprek
Lees die oorspronklike artikel.


Oor die outeurs

Borwein JonathanJonathan Borwein (Jon) is Laureaat Professor in Wiskunde aan die Universiteit van Newcastle. Hy is Laureaat Professor in Wiskunde aan die Universiteit van Newcastle en Direkteur van die Sentrum vir Rekenaargesteunde Navorsingswiskunde en Sy Toepassings (CARMA). Hy het gewerk by Carnegie-Melon, Dalhousie, Simon Fraser, en Waterloo Universiteite en het twee Kanada-navorsingsstoele in rekenaarwetenskap gehou.

rose MichaelMichael Rose is 'n PhD-kandidaat, Skool vir Wiskundige en Fisiese Wetenskappe aan die Universiteit van Newcastle.Mathematics PhD-student onder toesig van Laureaat Prof. Jon Borwein aan die Universiteit van Newcastle, Australië. Tans help met navorsing oor die toepassing van fraktale wiskunde op modellering van breinsynapsverdelings.

Openbaringsverklaring: Die skrywers werk nie vir, raadpleeg eie aandele in of ontvang befondsing van enige maatskappy of organisasie wat voordeel sou trek uit hierdie artikel nie. Hulle het ook geen relevante affiliasies nie.


Aanbevole boek:

Geld, seks, Oorlog, Karma: Notes vir 'n Boeddhistiese Revolusie
deur David R. Loy.

Geld, seks, Oorlog, Karma: Notes vir 'n Boeddhistiese Revolusie deur David R. Loy.David Loy het een van die sterkste voorstanders van die Boeddhistiese wêreldbeskouing geword, en verklaar dat niemand anders sy sosiopolitieke landskap van die moderne wêreld kan transformeer nie. in Geld, Seks, Oorlog, Karma, bied hy skerp en selfs skokkend duidelike aanbiedings van dikwels misverstaan ​​Boeddhistiese krammetjies - die werking van karma, die aard van self, die oorsake van moeilikheid op beide individuele en sosiale vlakke - en die werklike redes agter ons kollektiewe sin van "nooit genoeg nie , "of dit tyd, geld, seks, sekuriteit ... selfs oorlog. Dawid se "Boeddhistiese Revolusie" is niks minder as 'n radikale verandering in die manier waarop ons ons lewens, ons planeet, die kollektiewe waanwyses wat ons taal, kultuur en selfs ons spiritualiteit kan deurdring, benader nie.

Klik hier vir meer inligting en / of om hierdie boek op Amazon bestel.