Tag Archives: tilasto

Suomalaiset pierutrendit

Pieru naurattaa aina, väitetään. Pitääkö väite paikkansa?  Trendianalyysi kyseenalaistaa tämän. Tarkempi penkominen kuitenkin paljastaa kiehtovia yhteiskunnallisia asioita.

Tein Google Trends-haun sanalle “pieru“. Kuvaajat normalisoidaan niin, että korkein aikajaksolle osuva luku on aina 100. Kuvaajien tulkinta ei ole täysin yksikäsitteistä, mutta periaatteessa ne kuvaavat sitä, miten suosittu hakusana on ollut kaikkiin hakuihin verrattuna.

Pieru

Continue reading Suomalaiset pierutrendit

Talvivaara 25: Juuri saatujen tilastojen mukaan….

 

Poikkeuksellisesti lähes puhtaasti graafinen blogi. Taustalla gallup-kysely, jonka Talvivaara teetättänyt (ks täältä). Talvivaaran kunniaksi (ilman mitään sarkasmia tällä kertaa) on sanottava, että he julkaisivat myös raakadatan (täällä). Tämän saman datasetin perusteella media on nyt julkaissut ainakin seuraavat otsikot:

Noin klo 10: Yhtiön oma versio:

Screen shot 2013-11-05 at 14.31.01

Klo 10:29 Kainuun Sanomat tulkitsee:

Screen shot 2013-11-05 at 14.19.20

Klo 10:31 Helsingin Sanomat perustelee:

Screen shot 2013-11-05 at 14.20.52

Klo 11:00 Talouselämä huomioi:

Screen shot 2013-11-05 at 14.22.12

Klo 11:27 Sotkamo-Lehti pohtii:

Screen shot 2013-11-05 at 14.23.04

Klo 12:04 Verkkouutiset epäilee:

Screen shot 2013-11-05 at 14.23.59

Klo 13:03 Yle arvioi:

Screen shot 2013-11-05 at 14.26.54

Klo 14:36 Kaleva analysoi:

Screen shot 2013-11-05 at 14.35.50

 

Ilmeisesti kyse todellakin on samasta kyselystä, niin vaikeaa kuin se onkin uskoa. Tilastojen tulkinta onkin tunnetusti enemmän taiteenlaji kuin tiede. Tämä median taiteellisen luovuuden riemukulku saattaa hyvinkin jatkua vielä pitkälle iltaan. Mutta tämän raporttini päätän tältä erää tähän.

 

 Lisäys klo 18:05

Tämän kirjoituksen pointti ei varsinaisesti ole pilkata mediaa (vaikka kyllä sekin mielessä käy). Pikemminkin pointti on se, että joskus “tutkimukset” eivät vain tarkoita yhtään mitään. Talvivaaran gallup ei ole vääristelty eikä huono eikä hyvä. Se on vain täysin vailla informaatiosisältöä, minkä nuo otsikot viimeistään osoittavat.

Muita Talvivaara-kirjoituksia: täällä.

Talvivaara 17: Numeroiden pöhinää

Talvivaara on 22.10. Paikanpäällä-blogissaan kertonut, että sen tuotanto on “hyvässä pöhinässä”. Hyvä niin. Blogissa kiinnitti kuitenkin huomiota pieni numeerinen pöhinä, jolla yhtiö yrittää todistaa prosessinsa olevan kunnossa.

Kaikki Talvivaara-kirjoitukset: täällä.

Blogista: “Kuinka ylös kiertoliuoksen metallipitoisuus voi nousta?  Kesällä ja alkusyksyllä 2011 kiertoliuoksen nikkelipitoisuus oli tasolla 3,0-3,5 g/l. Historiassa on siis näytetty, että kasaliuotus toimii. Nyt teemme toimenpiteitä, että kiertoliuoksen metallipitoisuudet saadaan kunnon nousukäyrälle.” Blogissa on lisäksi alla oleva graafi. Tarkempaa referenssiä ei noille luvuille annettu.

Kuitenkin vuoden 2012 vuosikertomus paljastaa tällaista (s 62):   “Biokasaliuotus kehittyi odotetusti vuoden aikana. Sekundääriliuos on käynnistynyt hyvin, ja primäärikasasta sekundäärikasaan siirrettävän malmin määrä on jatkuvasti kasvanut. Liuoksen nikkelipitoisuus vaihteli vajaasta 2 grammasta litrassa yli 3,5 grammaan litrassa riippuen kasan iästä ja vaihteluista talteenottolaitokselle otetun liouoksen määrässä. Vuoden lopussa metallien talteenottolaitokselle pumpatun liuoksen nikkelipitoisuus oli noin 2 grammaa litraa kohden.”

Selitys laittaa silti raapimaan päätä, koska blogin ja vuosikertomuksen tietoja yhdistelemällä tuotanto olisi alla olevan kuvan kaltaista (kahden ensimmäisen kvartaalin arvoksi on oletettu 3.25 g/l). Tapahtuiko loppuvuonna 2011 jokin romahdus, joka tiputti tuotannon yli kolmanneksella? Miksi sellaista romahdusta ei ole missään raportoitu?

Todennäköisemmin kyseessä on helppo silmänkääntötemppu, jonka huomaa helpolla simulaatiolla.  Oletetaan, että pitoisuudet mitataan kerran viikossa. Pitoisuus on keskimäärin 2 g/l, mutta viikoittainen vaihtelu on suurta (standardipoikkeama vaikkapa 0.5 g/l). Tämä voisi hyvin vastata vuosikertomuksen kuvaamaa tilannetta, joskin tarkka standardipoikkeama on vain arvaus.

Alla on yhden simulaation tulos. Vuoden keskiarvo on 1.9 g/l. Kvartaalien keskimääräiset tuotantoluvut ovat 1.8, 1.9, 1.9 ja 1.8 g/l. Maksimit sensijaan ovat 3.1, 2.4, 3.1, ja 2.8 g/l.

Voin ilmeenkään värähtämättä sanoa, että “vuoden aikana malmipitoisuus oli tasolla 2.8-3.1 g/l”. Tarkkaan ottaen voin jopa sanoa, että malmipitoisuus oli tasolla 3-3.5 g/l, koska sillä välillä se on todellakin ollut (tosin alarajalla). Todellinen pitoisuus on ollut alle 2 g/l, mutta siitä huolimatta en missään teknisessä mielessä valehtele.

Käytännössä tällä löydökselläni ei ole minkäänlaista käytännön merkitystä. Osoittaapahan vain, miten helppoa numeroilla on vääntää musta valkoiseksi, jos vain tahtotila on sopiva.

Kaikki Talvivaara-kirjoitukset: täällä.

 

Edit 2013-10-22 klo 19:45 ja 21:10

Sain käsiini vuoden 2013 esityksen josta (s 9) löytyy yhtiön tuottama alla oleva kuva. Käytännössä yhtiön väitteessä on jotain pohjaa: pitoisuus nousi kesällä 2011 joksikin aikaa. Talvivaaran väite ei siis ole niin harhaanjohtava kuin ensin oletin. Toisaalta yhtiön olisi ollut rehellisempää näyttää myös vuoden 2011 lukemat, jolloin lukijan olisi mahdollista tehdä omat arvionsa.

Screen shot 2013-10-22 at 19.42.32

 Vuoden 2013 esitys   (s 10) sisältää saman kuvaajan mutta hieman paremmalla resoluutiolla. Juuri tästä käyrästä näkee mielenkiintoisen ilmiön: pitoisuus nousee aina, jos tehtaassa on ollut toimintakatkos (esim 09/2011, 02/2012, 04/2012).
TLV-pitkä

Todennäköisimmin pitoisuus pääsee katkosten aikana nousemaan, kun metallia liukenee happoon mutta sitä ei kerätä talteen. Kesän 2011 piikki on kyllä merkittävästi suurempi kuin myöhemmät. Siitä huolimatta viikkokeskiarvoon tuijottaminen ei tässä tapauksessa ole järkevää. Käyrät pitäisi käytännössä siloittaa usean kuukauden ajalta. Silloinkin kesällä 2011 on selkeä maksimi, mutta sen korkeus tuskin nousee paljon yli 3 g/l.

Ei voi väittää että Talvivaara valehtelisi tai vääristelisi tietoa. Käytännössä se kuitenkin toimii äärirajoilla. Kyllä, vuosi 2011 oli paljon parempi kuin 2013. Mutta kuinka paljon parempi, ja oliko mitattu pitoisuus oikeasti kestävällä tasolla? Sitä emme voi tietää.

Muita Talvivaara-kirjoituksia: täälläKirjoittaja kuuluu Suomen Luonnonsuojeluliittoon, mutta spekulaatiot, mielipiteet, tulkinnat ja virheet ovat puhtaasti omia.

Skripti

week<-seq(1,52)
production<-rnorm(52,mean=2,sd=0.6)
q1<-1:13; q2<-14:26; q3<-27:39; q4<-40:52
q1.mean<-mean(production[q1]); q1.max<-max(production[q1])
q2.mean<-mean(production[q2]); q2.max<-max(production[q2])
q3.mean<-mean(production[q3]); q3.max<-max(production[q3])
q4.mean<-mean(production[q4]); q4.max<-max(production[q4])
maxvals<-c(rep(q1.max,13),rep(q2.max,13),rep(q3.max,13),rep(q4.max,13))
meanvals<-c(rep(q1.mean,13),rep(q2.mean,13),rep(q3.mean,13),rep(q4.mean,13))
plot(production,main=”Production”,xlab=”Week”,ylim=c(0,3.5),pch=3)
par(new=TRUE); plot(meanvals,type=”b”,ylim=c(0,3.5),col=”blue”)
par(new=TRUE); plot(maxvals,type=”b”,ylim=c(0,3.5),col=”red”)

 

Ilmastonmuutos 2: Väärän popularisoinnin turmio

Olen havahtunut siihen, että olen saattanut olla ylioptimistinen. Tunne on erikoinen.

Jottei tule epäselvyyttä: nykytiedoilla olen jämerästi “ilmastouskovainen”. Tiede ei tämän selvemmäksi voi tulla, ja olisi järjetöntä olla toimimatta vaikka epäselvyys olisi paljon suurempikin. Pidän kuitenkin samalla jämeryydellä kiinni siitä, että oma leirini ei saa käyttää huonoja argumentteja. Uskottavuutta ei saa menettää.

Aiemmassa kirjoituksessa avasin, miksi ilmastonmuutosta ei voi “ymmärtää”.  Se on yksinkertaisesti liian monimutkainen kasa sairaita matemaattisia yhtälöitä, jotka eivät maalaisjärjellä kerta kaikkiaan avaudu. Lisäksi probabilistiset ennusteet antavat tietoa sellaisessa muodossa, jota terveet ihmisaivot eivät kykene absorboimaan.

Pahin unohtui. Ilmastonmuutoksen olemassaolo voidaan todistaa ennen muuta tilastoilla. Valitettavasti tilastoilla ei varsinaisesti voi todistaa mitään.

Tilastotieteen perusajatuksia on hypoteesin testaus. Esitetään väite (nollahypoteesi), ja sen jälkeen testataan, voidaanko osoittaa että väite on melko varmasti epätosi. Viime kädellä tilastoilla osoitetaan väitteitä vääriksi; se ei silti tarkoita, että vastakkainen väite olisi automaattisesti oikea. Jos tätä ei ymmärrä, popularisoinneissa voi mennä pahasti metsään.

Liian kansantajuisten mallien esittäminen jopa lyö itseään vastaan. Niissä on aina oiottu ja yksinkertaistettu, ja milloinkaan ne eivät vastaa todellisuutta kunnolla. Kun sitten jokin tällainen kansantajuinen malli osoittautuu virheelliseksi, vastapuoli saa tilaisuuden lytätä koko tutkimuksen. Olkinukkeargumentti, mutta ilmastouskova on itse luonut olkinukkensa.

Ilmastouskovan olisi parempi nöyrästi myöntää, että tulkinnoissa on epävarmuutta.  Tapausesimerkkinä otan SkepticalSciencen sinällään mainion grafiikan.

(Lähde: http://www.skepticalscience.com/graphics.php?g=47)

Grafiikan perusteellla “skeptikot” ovat kiinnittäneet huomiota siihen, että viimeisten 15 vuoden aikana keskilämpötila on laskenut. On se. Vuoden 1970 jälkeen on ollut peräti viisi viilenemisjaksoa… jos unohtaa sen että näiden jaksojen välissä lämpötila on yhdessä yössä noussut kymmeniä kertoja enemmän. Mitään fysikaalista järkeä tuollaisessa tulkinnassa ei ole.

Vastaavasti “realistit” tulkitsevat datan tavalla, joka ei vaadi fysiikan lakien vastaisisia ihmekuumenemisia.  Sen tulkinnan mukaan lämpötilassa on paljon kohinaa, mutta koko ajan se on keskimäärin noussut.

Esitys on nokkela, kansainomainen ja näyttävä. Olen nähnyt sitä käytettävän myös suomalaisessa ympäristökeskustelussa. Valitettavasti on riski, että se voi kompastua omaan nokkeluuteensa.

Suoran viivan sovittaminen dataan nimittäin on helppoa mutta vaarallista — niin tehdään siksi että niin tehdään aina. Oikeasti lähes mihin tahansa dataan voi sovittaa lähes minkä tahansa käyrän. Ammattitaito syntyy siitä, että osaa poistaa ne käyrät jotka eivät kuvaa todellisuutta.

Yllä oleva kuvapari kyllä osoittaa sen, että “skeptikoiden” tulkinta on järjetön. Sen sijaan se ei kerro, onko “realistien” tulkinta oikea.  Käytännössä tähän dataan voisi hyvin sovittaa myös käyrän, jonka kasvu alkaa pysähtyä noin vuoden 2000 tienoilla. Jopa niin, että jos saisin nämä datat eteeni tietämättä niistä mitään, aloittaisin kokeilun jollakin sellaisella epälineaarisella sovituksella.

Olenkin yrittänyt löytää raakadataa johon tuo sovitus on tehty, mutta en löytänyt. Käytin kuitenkin yhtä datasettiä joka on ollut tuossa taustalla, NOAA GSTA. Data kertoo poikkeaman pitkän aikavälin keskiarvosta. (Raakadata csv-formaatissa: NOAA. R-skriptit: NOAA.R)

Dataan saa mukavasti sovitettua suoran Y=-0.11+0.027*X, missä X on vuosia alkaen vuodesta 1970. Sovituksen R2-arvo on 0.53, mikä on säämittauksissa kohtuullinen joskaan ei loistava arvo. (R2=1 tarkoittaisi että datapisteet ovat käytännössä kaikki punaisella viivalla, R2=0 tarkoittaa että ne ovat missä sattuu).

Toisaalta dataan voi aivan yhtä hyvin sovittaa myös vaikkapa kolmannen asteen polynomin. Sen arvoksi tulee Y= -0.02 + 0.0026*T + 0.0014*T^2 – 0.000022*T^3. Tässä sovituksessa kasvu tosiaankin pysähtyy. Sovituksen R2-arvo on lähes täsmälleen sama kuin lineaarisen, eli ei ole mitään varsinaista syytä pitää sitä huonompana.

Dataan voi myös sovittaa kosinifunktion (miksi ei voisi?). Sovitus ei ole aivan yhtä täydellinen kuin kahdessa edellisessä, mutta R2-arvo on silti 0.51 jos käytetään sovitusta Y= 0.41 – 0.45* cos(Y*π/36)). Tämä yksinkertaisesti tarkoittaisi, että lämpötilaa ajaa noin 144 vuoden pituinen sykli.

Olisi mukavaa sanoa, että nämä sovitukset ovat naurettavia, mutta tilastomielessä ne eivät ole. Jos kaksi sovitusta antaa käytännössä yhtä hyvän tuloksen, on vaikea mennä väittämään toista paremmaksi. (Jokainen näistä sovituksista muuttuu, jos mennään ajassa kauemmas taaksepäin. Mutta millä tahansa ajanjaksolla katsottuna suora viiva ei yleensä ole erityisen hyvä kuvaaja).

Itse asiassa nämä sovitukset eivät välttämättä edes ole naurettavia, ei edes tuo kosinisovitus. Epälineaarisuus voi jopa olla todellista, ja perustua oikean fysiikkaan. Se vaikuttaa hämärältä vain, jos ei ymmärrä eroa “lämpötilan” ja “energian” välillä.

Ilmakehään ei tällä hetkellä pumpata liikaa “lämpötilaa”; siihen pumpataan liika energiaa. Ero on merkittävä. Energia voi siirtyä moneen eri paikkaan: esimerkiksi syvälle mereen, tai jäätiköiden sulattamiseen, tai yläilmakehään. Silloin se ei lämmitä maanpintaa. Mutta jos “ylilämpö” voi siirtyä yllättävästi, se voi myös palata yllättävästi.

Yhden ainoan pintalämpötilan seuraaminen ei siis kerta kaikkiaan kerro koko totuutta. Tilastoja väärinkäyttämällä voidaan “todistaa” oikeastaan mitä vain. Toisaalta tiedetään, että malleissa on otettava huomioon muitakin muuttujia kuin pintalämpötila, eikä kaikkia ilmiöitä edelleenkään osata asteen tarkkuuudella mallintaa.

Tilastoja on syytä käyttää varovasti, ellei tiedä täsmälleen mitä on tekemässä.

Lisää kirjoituksia ympäristöstä: täällä

Juhannusten matematiikkaa

 

Tärkeää suomalaista juhannusperinnettä, sepalus auki hukkumista, on matemaattisesti tutkittu erittäin vähän. Tämä on sääli, sillä perinne tarjoaa hyvän esimerkin Bayeslaisesta analyysistä. Analyysin perusteella on myös mahdollista löytää konkreettisia ja rationaalisia menetelmiä hukkumisten vähentämiseen.

Kuinka todennäköistä on hukkua juhannuksena sepalus auki?  Muuttujat eivät ole riippumattomia, vaan niiiden yhteinen piilomuuttuja on tärkein suomalainen juhannusperinne: oluen juonti.

Aihe ei ole minullekaan aivan vieras. Vaikka elämänkaareni ei  tapahtumarikas tai mielenkiintoinen olekaan, olen kuitenkin itse elänyt aikana jolloin ikätoverini ovat olleet nuoria. Teorian lisäksi voin siis esittää heuristisia arvioita.

Mikäli hukkuminen ja sepalus auki oleminen olisivat riippumattomia muuttujia, saataisiin lopputulos kertomalla niiden todennäköisyydet yhteen.  Suomen uimaopetus- ja hengenpelastusliiton tilastojen mukaan juhannuksena hukkuu keskimäärin kahdeksan ihmistä. Sepalustilastoja ei kerätä, mutta (mahdollisesti teekkareita lukuunottamatta) harva kulkee koko juhannusta sepalus auki. Kertolaskun perusteella sepalushukkumisia olisi häviävän vähän. Tämä on ristiriidassa perinnetiedon kanssa.

Laskennassa tuleekin käyttää Bayesläisiä menetelmiä. Kirjoitetaan

P(huksep) = P(huk|sep) * P(sep),

eli todennäköisyys on kahden todennäköisyyden tulo: todennäköisyys olla sepalus auki, ja ehdollinen todennäköisyys hukkua jos sepalus on auki.

Olut muodostaa lineaarisen suodattimen: ajanhetkellä T1 juotu olutpullo pyrkii poistumaan viimeistään ajanhetkellä T2, missä aikaväli T2-T1 on noin tunti.

Tyypillinen juomistahti lienee noin kolme oluttölkkiä tunnissa, eli lähes litra. Virtsarakon koko on noin 500 millilitraa, mutta se voi venyä hyvinkin paljon. Heuristisesti voidaan arvioida, että juojan on kerran tunnissa helpotettava oloaan.  NIH:n mukaan tyypillinen virtsavuontiheys 14-45-vuotiaalle miehelle on noin 20 ml/sec. Tämän mukaan litran tyhjentämiseen kuluisi tehokasta työaikaa noin 50 sekuntia.

On kuitenkin huomioitava, että koordinaatiokyky heikentyy parin litran jälkeen. Sepaluksen aukioloaika on käytännössä helposti 2-3 minuuttia, teekkareilla huomattavasti pidempikin. Voidaan siis arvioida, että aktiivinen juhannusjuhlija joutuu olemaan sepalus auki jopa 2-3 minuuttia tunnissa, eli P(sep)=5%.

Toinen parametri, P(huk|sep), riippuu kontekstista. Kuivalla maalla hukkuminen on vaikeaa. Juhannusperinteeseen kuuluu kuitenkin läheisesti veden ääreen etsiytyminen. Jo laiturilta voi hukkua, mutta helpompaa se on veneestä. Käytännössä todennäköisyysketjua täytyy vielä laajentaa niin, että otetaan huomioon myös ehdollinen todennäköisyys olla veneessä kun sepaluksen on oltava auki P(ven|sep), ja ehdollinen todennäköisyys hukkua jos näin tapahtuu P(huk|vensep).

P(huksep) = P(huk|vensep) * P(ven|sep) * P(sep)

Veneitä on Suomessa noin 700,000, näistä 260,000 soutuveneitä. Soutuveneestä hukkuminen on klassisin perinne. Juhannuksena melkoinen osa venekannasta on käytössä, ehkä hyvinkin neljäsosa (noin 60,000). Ehkä kolmasosassa veneistä on vähintää yksi humalainen. Keskimääräinen souturetki ei liene pitkä, ehkä tunnin, mutta juhannushumallassasoutamissuoritteita olisi tällä arviolla kuitenkin 20,000 miestyötuntia.

Jos arvioidaan että vajaa neljä miljoonaa suomalaista juhlii juhannusta, ja juhlinta kestää kahdeksan tuntia, juhannuksena syntyy kaikkiaan noin 30 miljoonaa juhlintasuoritemiestyötuntia. Toisin sanoen noin 0.07% suomalaisista olisi sepalus auki soutuveneessä; P(ven|sep)=0.07%.

Suurin osa tästä 0.7 promillen joukosta ei toki huku, vaikka veneestä virtsaaminen onkin vaarallista. Varsinkin jos otetaan huomioon mahdollisuus käyttää esimerkiksi äyskäriä, ja hulluja ja humalaisia suojaava onni, P(huk|vensep) voi olla niinkin pieni kuin prosentin luokkaa.

Kun luvut kerrotaan yhteen, saadaan tulokseksi, että P(huksep) ~1E-6. Keskimääräisen suomalaisen todennäköisyys hukkua sepalus auki on siis hieman alle 1 miljoonasta, eli yksi micromort. Olen analysoinut micromortin käsitettä kirjoituksessa Möläytysten matematiikkaa, jossa arvioin poliitikolla olevan micromortin todennäköisyys tuhota uransa joka kerta, kun hän avaa suunsa.

Koska juhlivia suomalaisia on nelisen miljoonaa, todennäköistä olisi, että sepelusaukihukkumisia tapahtuisi joka vuosi vähintään yksi. Tämä on vahvasti samansuuntainen kuin arkikokemus. Ihmistieteissä tarkkuus on tunnetusti huonompi kuin kovilla tieteenaloilla, joten tulosta voidaan pitää sangen vahvana.

Juhannusjuhlija kannattaa siis mallintaa Bayeslaisena suodattimena. Tämä tarjoaa myös rationaalisia keinoja vähentää sepalus auki hukkumisia. Suuretta P(sep) pienentämällä päästään nopeimmin tuloksiin. Sitä voi pienentää ainakin kolmella tavalla: vähentämällä oluen juontia, kehittämmällä tehokkaampia sepalusratkaisuja (jolloin aukioloaika on lyhyempi), tai kasvattamalla juhlijoiden virtsarakkojen tilavuutta  kirurgian tai geenimanipulaation avulla. Näistä kaksi viimeksimainittua ovat käytännössä realistisia.

Muita epätavallisia laskelmia: täällä.

False_color_image_of_the_far_field_of_a_submerged_turbulent_jet