Category Archives: Data Analysis

Manipulaation taito 2: Partalasten ankkurointi

Ellei perussuomalaisten puoluelehti Suomen Uutiset löytyisi ilmaiseksi verkosta, saattaisin tilata sen. Siinä määrin herkullisia esimerkkejä tilastomanipulaatiosta ja matemaattisesta propagandasta siitä löytyy.

Tässä viimeisin. “Ikätestin tulos: 60 prosenttia alaikäisistä turvapaikanhakijoista paljastui aikuisiksi“.

PS

Aika hurjaa. Ja näin lukuun on päästy:  “Yle kertoo uutisessaan, että Suomessa tehtiin viime vuonna ikäarviotutkimus 149:lle alaikäiselle turvapaikanhakijoille, joista 90 todettiin täysi-ikäisiksi. Iän arviointi tehtiin hampaista sekä käden ja ranteen luista.”

SU ei vääristele: 90/149 on tosiaan 60%.

Miksi tämä luku on silti rasistista vääristelyä?

Continue reading Manipulaation taito 2: Partalasten ankkurointi

Talvivaara 25: Juuri saatujen tilastojen mukaan….

 

Poikkeuksellisesti lähes puhtaasti graafinen blogi. Taustalla gallup-kysely, jonka Talvivaara teetättänyt (ks täältä). Talvivaaran kunniaksi (ilman mitään sarkasmia tällä kertaa) on sanottava, että he julkaisivat myös raakadatan (täällä). Tämän saman datasetin perusteella media on nyt julkaissut ainakin seuraavat otsikot:

Noin klo 10: Yhtiön oma versio:

Screen shot 2013-11-05 at 14.31.01

Klo 10:29 Kainuun Sanomat tulkitsee:

Screen shot 2013-11-05 at 14.19.20

Klo 10:31 Helsingin Sanomat perustelee:

Screen shot 2013-11-05 at 14.20.52

Klo 11:00 Talouselämä huomioi:

Screen shot 2013-11-05 at 14.22.12

Klo 11:27 Sotkamo-Lehti pohtii:

Screen shot 2013-11-05 at 14.23.04

Klo 12:04 Verkkouutiset epäilee:

Screen shot 2013-11-05 at 14.23.59

Klo 13:03 Yle arvioi:

Screen shot 2013-11-05 at 14.26.54

Klo 14:36 Kaleva analysoi:

Screen shot 2013-11-05 at 14.35.50

 

Ilmeisesti kyse todellakin on samasta kyselystä, niin vaikeaa kuin se onkin uskoa. Tilastojen tulkinta onkin tunnetusti enemmän taiteenlaji kuin tiede. Tämä median taiteellisen luovuuden riemukulku saattaa hyvinkin jatkua vielä pitkälle iltaan. Mutta tämän raporttini päätän tältä erää tähän.

 

 Lisäys klo 18:05

Tämän kirjoituksen pointti ei varsinaisesti ole pilkata mediaa (vaikka kyllä sekin mielessä käy). Pikemminkin pointti on se, että joskus “tutkimukset” eivät vain tarkoita yhtään mitään. Talvivaaran gallup ei ole vääristelty eikä huono eikä hyvä. Se on vain täysin vailla informaatiosisältöä, minkä nuo otsikot viimeistään osoittavat.

Muita Talvivaara-kirjoituksia: täällä.

Ilmastonmuutos 2: Väärän popularisoinnin turmio

Olen havahtunut siihen, että olen saattanut olla ylioptimistinen. Tunne on erikoinen.

Jottei tule epäselvyyttä: nykytiedoilla olen jämerästi “ilmastouskovainen”. Tiede ei tämän selvemmäksi voi tulla, ja olisi järjetöntä olla toimimatta vaikka epäselvyys olisi paljon suurempikin. Pidän kuitenkin samalla jämeryydellä kiinni siitä, että oma leirini ei saa käyttää huonoja argumentteja. Uskottavuutta ei saa menettää.

Aiemmassa kirjoituksessa avasin, miksi ilmastonmuutosta ei voi “ymmärtää”.  Se on yksinkertaisesti liian monimutkainen kasa sairaita matemaattisia yhtälöitä, jotka eivät maalaisjärjellä kerta kaikkiaan avaudu. Lisäksi probabilistiset ennusteet antavat tietoa sellaisessa muodossa, jota terveet ihmisaivot eivät kykene absorboimaan.

Pahin unohtui. Ilmastonmuutoksen olemassaolo voidaan todistaa ennen muuta tilastoilla. Valitettavasti tilastoilla ei varsinaisesti voi todistaa mitään.

Tilastotieteen perusajatuksia on hypoteesin testaus. Esitetään väite (nollahypoteesi), ja sen jälkeen testataan, voidaanko osoittaa että väite on melko varmasti epätosi. Viime kädellä tilastoilla osoitetaan väitteitä vääriksi; se ei silti tarkoita, että vastakkainen väite olisi automaattisesti oikea. Jos tätä ei ymmärrä, popularisoinneissa voi mennä pahasti metsään.

Liian kansantajuisten mallien esittäminen jopa lyö itseään vastaan. Niissä on aina oiottu ja yksinkertaistettu, ja milloinkaan ne eivät vastaa todellisuutta kunnolla. Kun sitten jokin tällainen kansantajuinen malli osoittautuu virheelliseksi, vastapuoli saa tilaisuuden lytätä koko tutkimuksen. Olkinukkeargumentti, mutta ilmastouskova on itse luonut olkinukkensa.

Ilmastouskovan olisi parempi nöyrästi myöntää, että tulkinnoissa on epävarmuutta.  Tapausesimerkkinä otan SkepticalSciencen sinällään mainion grafiikan.

(Lähde: http://www.skepticalscience.com/graphics.php?g=47)

Grafiikan perusteellla “skeptikot” ovat kiinnittäneet huomiota siihen, että viimeisten 15 vuoden aikana keskilämpötila on laskenut. On se. Vuoden 1970 jälkeen on ollut peräti viisi viilenemisjaksoa… jos unohtaa sen että näiden jaksojen välissä lämpötila on yhdessä yössä noussut kymmeniä kertoja enemmän. Mitään fysikaalista järkeä tuollaisessa tulkinnassa ei ole.

Vastaavasti “realistit” tulkitsevat datan tavalla, joka ei vaadi fysiikan lakien vastaisisia ihmekuumenemisia.  Sen tulkinnan mukaan lämpötilassa on paljon kohinaa, mutta koko ajan se on keskimäärin noussut.

Esitys on nokkela, kansainomainen ja näyttävä. Olen nähnyt sitä käytettävän myös suomalaisessa ympäristökeskustelussa. Valitettavasti on riski, että se voi kompastua omaan nokkeluuteensa.

Suoran viivan sovittaminen dataan nimittäin on helppoa mutta vaarallista — niin tehdään siksi että niin tehdään aina. Oikeasti lähes mihin tahansa dataan voi sovittaa lähes minkä tahansa käyrän. Ammattitaito syntyy siitä, että osaa poistaa ne käyrät jotka eivät kuvaa todellisuutta.

Yllä oleva kuvapari kyllä osoittaa sen, että “skeptikoiden” tulkinta on järjetön. Sen sijaan se ei kerro, onko “realistien” tulkinta oikea.  Käytännössä tähän dataan voisi hyvin sovittaa myös käyrän, jonka kasvu alkaa pysähtyä noin vuoden 2000 tienoilla. Jopa niin, että jos saisin nämä datat eteeni tietämättä niistä mitään, aloittaisin kokeilun jollakin sellaisella epälineaarisella sovituksella.

Olenkin yrittänyt löytää raakadataa johon tuo sovitus on tehty, mutta en löytänyt. Käytin kuitenkin yhtä datasettiä joka on ollut tuossa taustalla, NOAA GSTA. Data kertoo poikkeaman pitkän aikavälin keskiarvosta. (Raakadata csv-formaatissa: NOAA. R-skriptit: NOAA.R)

Dataan saa mukavasti sovitettua suoran Y=-0.11+0.027*X, missä X on vuosia alkaen vuodesta 1970. Sovituksen R2-arvo on 0.53, mikä on säämittauksissa kohtuullinen joskaan ei loistava arvo. (R2=1 tarkoittaisi että datapisteet ovat käytännössä kaikki punaisella viivalla, R2=0 tarkoittaa että ne ovat missä sattuu).

Toisaalta dataan voi aivan yhtä hyvin sovittaa myös vaikkapa kolmannen asteen polynomin. Sen arvoksi tulee Y= -0.02 + 0.0026*T + 0.0014*T^2 – 0.000022*T^3. Tässä sovituksessa kasvu tosiaankin pysähtyy. Sovituksen R2-arvo on lähes täsmälleen sama kuin lineaarisen, eli ei ole mitään varsinaista syytä pitää sitä huonompana.

Dataan voi myös sovittaa kosinifunktion (miksi ei voisi?). Sovitus ei ole aivan yhtä täydellinen kuin kahdessa edellisessä, mutta R2-arvo on silti 0.51 jos käytetään sovitusta Y= 0.41 – 0.45* cos(Y*π/36)). Tämä yksinkertaisesti tarkoittaisi, että lämpötilaa ajaa noin 144 vuoden pituinen sykli.

Olisi mukavaa sanoa, että nämä sovitukset ovat naurettavia, mutta tilastomielessä ne eivät ole. Jos kaksi sovitusta antaa käytännössä yhtä hyvän tuloksen, on vaikea mennä väittämään toista paremmaksi. (Jokainen näistä sovituksista muuttuu, jos mennään ajassa kauemmas taaksepäin. Mutta millä tahansa ajanjaksolla katsottuna suora viiva ei yleensä ole erityisen hyvä kuvaaja).

Itse asiassa nämä sovitukset eivät välttämättä edes ole naurettavia, ei edes tuo kosinisovitus. Epälineaarisuus voi jopa olla todellista, ja perustua oikean fysiikkaan. Se vaikuttaa hämärältä vain, jos ei ymmärrä eroa “lämpötilan” ja “energian” välillä.

Ilmakehään ei tällä hetkellä pumpata liikaa “lämpötilaa”; siihen pumpataan liika energiaa. Ero on merkittävä. Energia voi siirtyä moneen eri paikkaan: esimerkiksi syvälle mereen, tai jäätiköiden sulattamiseen, tai yläilmakehään. Silloin se ei lämmitä maanpintaa. Mutta jos “ylilämpö” voi siirtyä yllättävästi, se voi myös palata yllättävästi.

Yhden ainoan pintalämpötilan seuraaminen ei siis kerta kaikkiaan kerro koko totuutta. Tilastoja väärinkäyttämällä voidaan “todistaa” oikeastaan mitä vain. Toisaalta tiedetään, että malleissa on otettava huomioon muitakin muuttujia kuin pintalämpötila, eikä kaikkia ilmiöitä edelleenkään osata asteen tarkkuuudella mallintaa.

Tilastoja on syytä käyttää varovasti, ellei tiedä täsmälleen mitä on tekemässä.

Lisää kirjoituksia ympäristöstä: täällä

Juhannusten matematiikkaa

 

Tärkeää suomalaista juhannusperinnettä, sepalus auki hukkumista, on matemaattisesti tutkittu erittäin vähän. Tämä on sääli, sillä perinne tarjoaa hyvän esimerkin Bayeslaisesta analyysistä. Analyysin perusteella on myös mahdollista löytää konkreettisia ja rationaalisia menetelmiä hukkumisten vähentämiseen.

Kuinka todennäköistä on hukkua juhannuksena sepalus auki?  Muuttujat eivät ole riippumattomia, vaan niiiden yhteinen piilomuuttuja on tärkein suomalainen juhannusperinne: oluen juonti.

Aihe ei ole minullekaan aivan vieras. Vaikka elämänkaareni ei  tapahtumarikas tai mielenkiintoinen olekaan, olen kuitenkin itse elänyt aikana jolloin ikätoverini ovat olleet nuoria. Teorian lisäksi voin siis esittää heuristisia arvioita.

Mikäli hukkuminen ja sepalus auki oleminen olisivat riippumattomia muuttujia, saataisiin lopputulos kertomalla niiden todennäköisyydet yhteen.  Suomen uimaopetus- ja hengenpelastusliiton tilastojen mukaan juhannuksena hukkuu keskimäärin kahdeksan ihmistä. Sepalustilastoja ei kerätä, mutta (mahdollisesti teekkareita lukuunottamatta) harva kulkee koko juhannusta sepalus auki. Kertolaskun perusteella sepalushukkumisia olisi häviävän vähän. Tämä on ristiriidassa perinnetiedon kanssa.

Laskennassa tuleekin käyttää Bayesläisiä menetelmiä. Kirjoitetaan

P(huksep) = P(huk|sep) * P(sep),

eli todennäköisyys on kahden todennäköisyyden tulo: todennäköisyys olla sepalus auki, ja ehdollinen todennäköisyys hukkua jos sepalus on auki.

Olut muodostaa lineaarisen suodattimen: ajanhetkellä T1 juotu olutpullo pyrkii poistumaan viimeistään ajanhetkellä T2, missä aikaväli T2-T1 on noin tunti.

Tyypillinen juomistahti lienee noin kolme oluttölkkiä tunnissa, eli lähes litra. Virtsarakon koko on noin 500 millilitraa, mutta se voi venyä hyvinkin paljon. Heuristisesti voidaan arvioida, että juojan on kerran tunnissa helpotettava oloaan.  NIH:n mukaan tyypillinen virtsavuontiheys 14-45-vuotiaalle miehelle on noin 20 ml/sec. Tämän mukaan litran tyhjentämiseen kuluisi tehokasta työaikaa noin 50 sekuntia.

On kuitenkin huomioitava, että koordinaatiokyky heikentyy parin litran jälkeen. Sepaluksen aukioloaika on käytännössä helposti 2-3 minuuttia, teekkareilla huomattavasti pidempikin. Voidaan siis arvioida, että aktiivinen juhannusjuhlija joutuu olemaan sepalus auki jopa 2-3 minuuttia tunnissa, eli P(sep)=5%.

Toinen parametri, P(huk|sep), riippuu kontekstista. Kuivalla maalla hukkuminen on vaikeaa. Juhannusperinteeseen kuuluu kuitenkin läheisesti veden ääreen etsiytyminen. Jo laiturilta voi hukkua, mutta helpompaa se on veneestä. Käytännössä todennäköisyysketjua täytyy vielä laajentaa niin, että otetaan huomioon myös ehdollinen todennäköisyys olla veneessä kun sepaluksen on oltava auki P(ven|sep), ja ehdollinen todennäköisyys hukkua jos näin tapahtuu P(huk|vensep).

P(huksep) = P(huk|vensep) * P(ven|sep) * P(sep)

Veneitä on Suomessa noin 700,000, näistä 260,000 soutuveneitä. Soutuveneestä hukkuminen on klassisin perinne. Juhannuksena melkoinen osa venekannasta on käytössä, ehkä hyvinkin neljäsosa (noin 60,000). Ehkä kolmasosassa veneistä on vähintää yksi humalainen. Keskimääräinen souturetki ei liene pitkä, ehkä tunnin, mutta juhannushumallassasoutamissuoritteita olisi tällä arviolla kuitenkin 20,000 miestyötuntia.

Jos arvioidaan että vajaa neljä miljoonaa suomalaista juhlii juhannusta, ja juhlinta kestää kahdeksan tuntia, juhannuksena syntyy kaikkiaan noin 30 miljoonaa juhlintasuoritemiestyötuntia. Toisin sanoen noin 0.07% suomalaisista olisi sepalus auki soutuveneessä; P(ven|sep)=0.07%.

Suurin osa tästä 0.7 promillen joukosta ei toki huku, vaikka veneestä virtsaaminen onkin vaarallista. Varsinkin jos otetaan huomioon mahdollisuus käyttää esimerkiksi äyskäriä, ja hulluja ja humalaisia suojaava onni, P(huk|vensep) voi olla niinkin pieni kuin prosentin luokkaa.

Kun luvut kerrotaan yhteen, saadaan tulokseksi, että P(huksep) ~1E-6. Keskimääräisen suomalaisen todennäköisyys hukkua sepalus auki on siis hieman alle 1 miljoonasta, eli yksi micromort. Olen analysoinut micromortin käsitettä kirjoituksessa Möläytysten matematiikkaa, jossa arvioin poliitikolla olevan micromortin todennäköisyys tuhota uransa joka kerta, kun hän avaa suunsa.

Koska juhlivia suomalaisia on nelisen miljoonaa, todennäköistä olisi, että sepelusaukihukkumisia tapahtuisi joka vuosi vähintään yksi. Tämä on vahvasti samansuuntainen kuin arkikokemus. Ihmistieteissä tarkkuus on tunnetusti huonompi kuin kovilla tieteenaloilla, joten tulosta voidaan pitää sangen vahvana.

Juhannusjuhlija kannattaa siis mallintaa Bayeslaisena suodattimena. Tämä tarjoaa myös rationaalisia keinoja vähentää sepalus auki hukkumisia. Suuretta P(sep) pienentämällä päästään nopeimmin tuloksiin. Sitä voi pienentää ainakin kolmella tavalla: vähentämällä oluen juontia, kehittämmällä tehokkaampia sepalusratkaisuja (jolloin aukioloaika on lyhyempi), tai kasvattamalla juhlijoiden virtsarakkojen tilavuutta  kirurgian tai geenimanipulaation avulla. Näistä kaksi viimeksimainittua ovat käytännössä realistisia.

Muita epätavallisia laskelmia: täällä.

False_color_image_of_the_far_field_of_a_submerged_turbulent_jet

Tasa-arvon matematiikkaa

Tulosten mukaan kaikki ihmiset ovat samanlaisia, kunhan vain tajuaa mitata väärää asiaa väärällä laitteistolla. Sama metodologia antaa viitteitä myös kaiken olevaisen ykseydestä.

Englanniksi / in English: click here.  Lisää samantyppistä: WeirdMath.  

Derawi et al 2010 osoittivat, että ihminen voidaan tunnistaa lähes 80% varmuudella kävelytyylinsä perusteella, käyttäen ainoastaan yksinkertaista älypuhelimen kiihtyvyyssensoria. Puhelimen liikerata taskussa on jokaiselle yksilölle erilainen.

Tässä jatkokokeessa selvitettiin, voidaanko ihminen tunnistaa älypuhelimen kiihtyvyyssensorilla, jos hän ainoastaan tuijottaa puhelinta. Koehenkilöitä oli 34. Koe tehtiin osittain (14 henkilöä) klassisena kaksoissokkokokeena, jossa osallistujat tuijottivat puhelinta mutta eivät tienneet miksi. Osa kokeesta (20 henkilöä) tehtiin postmodernina kolmoissokkokeena, jossa osallistuja ei edes tiennyt osallistuvansa.

Koe suoritettiin asettamalla korallinpinkki Samsung Galaxy S2 pöydälle, ja tallettamalla sen kiihtyvyyssensoritietoa AndroSense-ohjelmalla. Tallennusväli oli 50 millisekuntia. Koehenkilöitä pyyydettiin tuojottamaan laitetta noin 20 sekuntia; kolmoissokkokeessa laitetta pidettiin päällä noin 20 sekuntia kertomatta koehenkilölle, että mitään oli tapahtumassa. Kaikista mittaussarjoista otettiin kahdeksan sekunnin näyte.

Koetta laajennettiin pilottiluonteisesti myös joukkoon eläimiä ja muita orgaanisia eliölajeja. On epäselvää oliko pilotti kaksois- vai kolmoissokkokoe, koska testattavat eivät ymmärtäneet saamiaan ohjeita.

Kuva 1: Kiihtyvyyssensorin x-akselin suuntainen komponentti. Systemaattiset virheet normalisoitiin vähentämällä mittaussarjan keskiarvo. Datalle suoritettiin ANOVA-testi.

All

 

Kuva 2: Neljä tyypillistä ihmisprofiilia. Iän ja sukupuolen perusteella ei ole mahdollista tunnistaa eroja.

People

 

Kuva 3: Neljä eläinprofiilia (koira, kissa, lehmä, kovakuoriainen). Mitään eläintä ei pysty tunnistamaan kiihtyyvyyssensorin datoista, eikä eläimiä voi erottaa ihmisistä.

Animals

 

Kuva 4: Muita orgaanisia koesubjekteja (omena, puu, villasukka, ja napanöyhtä). Koska villasukka oli likainen ja napanöyhtä tuoretta, voidaan kaikkia pitää elollisina olentoina. Profiilit ovat tilastollisesti yhteensopivia sekä eläinten että ihmisten kanssa.

Other

 

Kuva 5: ANOVA-testi osoittaa, että nollahypoteesia ei voi kumota millekään koeosallistujalle.

Anova2

Näin ollen matkapuhelimen kiihtyvyyssensorin avulla ei voi tunnistaa, kuka matkapuhelinta tuijottaa. Kolmoissokkokoe osoittaa vielä fundamentaalisemman puutteen: kiihtyvyyssensorilla ei voi päätellä, tietääkö koehenkilö, että hänen pitäisi tuijottaa matkapuhelinta. Tämän kokeen perusteella ihmisissä ei siis ole mitään  eroja.

Kokeen laajennus muihin elollisiin olentoihin vaatii vielä lisätulkintaa. Alustavasti näyttää kuitenkin siltä, että esimerkiksi insinööri, lehmä, ja tuore napanöyhtä ovat samanlaisia.

Tulosten mukaan kaikki ihmiset ovat samanlaisia, kunhan vain tajuaa mitata väärää asiaa väärällä laitteistolla. Sama metodologia antaa viitteitä myös kaiken olevaisen ykseydestä.