Tumpeloinnin matematiikkaa

Tunarointi ja tilastollinen merkitsevyys: kaksi kaunista asiaa, jotka yhdistettynä ovat vielä kauniimpia. Törmäsin hiljattain alla olevaan meemiin. Meemi on puutteellinen ja epäonnistunut matemaattisesti — mikä toki tekee siitä metatasolla vieläkin hienomman — mutta sen pohtiminen johtaa yllättävän monipuolisiin johtopäätöksiin.

Meemiin sisältyy kaksi erillistä kysymystä, joista toinen on periaatteessa suoraviivainen, toinen äärimmäisen monipolvinen.

Mitä tarkoittaa tilastollinen merkitsevyys?

Continue reading Tumpeloinnin matematiikkaa

Suomalaiset pierutrendit

Pieru naurattaa aina, väitetään. Pitääkö väite paikkansa?  Trendianalyysi kyseenalaistaa tämän. Tarkempi penkominen kuitenkin paljastaa kiehtovia yhteiskunnallisia asioita.

Tein Google Trends-haun sanalle “pieru“. Kuvaajat normalisoidaan niin, että korkein aikajaksolle osuva luku on aina 100. Kuvaajien tulkinta ei ole täysin yksikäsitteistä, mutta periaatteessa ne kuvaavat sitä, miten suosittu hakusana on ollut kaikkiin hakuihin verrattuna.

Pieru

Continue reading Suomalaiset pierutrendit

Talvivaara 25: Juuri saatujen tilastojen mukaan….

 

Poikkeuksellisesti lähes puhtaasti graafinen blogi. Taustalla gallup-kysely, jonka Talvivaara teetättänyt (ks täältä). Talvivaaran kunniaksi (ilman mitään sarkasmia tällä kertaa) on sanottava, että he julkaisivat myös raakadatan (täällä). Tämän saman datasetin perusteella media on nyt julkaissut ainakin seuraavat otsikot:

Noin klo 10: Yhtiön oma versio:

Screen shot 2013-11-05 at 14.31.01

Klo 10:29 Kainuun Sanomat tulkitsee:

Screen shot 2013-11-05 at 14.19.20

Klo 10:31 Helsingin Sanomat perustelee:

Screen shot 2013-11-05 at 14.20.52

Klo 11:00 Talouselämä huomioi:

Screen shot 2013-11-05 at 14.22.12

Klo 11:27 Sotkamo-Lehti pohtii:

Screen shot 2013-11-05 at 14.23.04

Klo 12:04 Verkkouutiset epäilee:

Screen shot 2013-11-05 at 14.23.59

Klo 13:03 Yle arvioi:

Screen shot 2013-11-05 at 14.26.54

Klo 14:36 Kaleva analysoi:

Screen shot 2013-11-05 at 14.35.50

 

Ilmeisesti kyse todellakin on samasta kyselystä, niin vaikeaa kuin se onkin uskoa. Tilastojen tulkinta onkin tunnetusti enemmän taiteenlaji kuin tiede. Tämä median taiteellisen luovuuden riemukulku saattaa hyvinkin jatkua vielä pitkälle iltaan. Mutta tämän raporttini päätän tältä erää tähän.

 

 Lisäys klo 18:05

Tämän kirjoituksen pointti ei varsinaisesti ole pilkata mediaa (vaikka kyllä sekin mielessä käy). Pikemminkin pointti on se, että joskus “tutkimukset” eivät vain tarkoita yhtään mitään. Talvivaaran gallup ei ole vääristelty eikä huono eikä hyvä. Se on vain täysin vailla informaatiosisältöä, minkä nuo otsikot viimeistään osoittavat.

Muita Talvivaara-kirjoituksia: täällä.

Talvivaara 17: Numeroiden pöhinää

Talvivaara on 22.10. Paikanpäällä-blogissaan kertonut, että sen tuotanto on “hyvässä pöhinässä”. Hyvä niin. Blogissa kiinnitti kuitenkin huomiota pieni numeerinen pöhinä, jolla yhtiö yrittää todistaa prosessinsa olevan kunnossa.

Kaikki Talvivaara-kirjoitukset: täällä.

Blogista: “Kuinka ylös kiertoliuoksen metallipitoisuus voi nousta?  Kesällä ja alkusyksyllä 2011 kiertoliuoksen nikkelipitoisuus oli tasolla 3,0-3,5 g/l. Historiassa on siis näytetty, että kasaliuotus toimii. Nyt teemme toimenpiteitä, että kiertoliuoksen metallipitoisuudet saadaan kunnon nousukäyrälle.” Blogissa on lisäksi alla oleva graafi. Tarkempaa referenssiä ei noille luvuille annettu.

Kuitenkin vuoden 2012 vuosikertomus paljastaa tällaista (s 62):   “Biokasaliuotus kehittyi odotetusti vuoden aikana. Sekundääriliuos on käynnistynyt hyvin, ja primäärikasasta sekundäärikasaan siirrettävän malmin määrä on jatkuvasti kasvanut. Liuoksen nikkelipitoisuus vaihteli vajaasta 2 grammasta litrassa yli 3,5 grammaan litrassa riippuen kasan iästä ja vaihteluista talteenottolaitokselle otetun liouoksen määrässä. Vuoden lopussa metallien talteenottolaitokselle pumpatun liuoksen nikkelipitoisuus oli noin 2 grammaa litraa kohden.”

Selitys laittaa silti raapimaan päätä, koska blogin ja vuosikertomuksen tietoja yhdistelemällä tuotanto olisi alla olevan kuvan kaltaista (kahden ensimmäisen kvartaalin arvoksi on oletettu 3.25 g/l). Tapahtuiko loppuvuonna 2011 jokin romahdus, joka tiputti tuotannon yli kolmanneksella? Miksi sellaista romahdusta ei ole missään raportoitu?

Todennäköisemmin kyseessä on helppo silmänkääntötemppu, jonka huomaa helpolla simulaatiolla.  Oletetaan, että pitoisuudet mitataan kerran viikossa. Pitoisuus on keskimäärin 2 g/l, mutta viikoittainen vaihtelu on suurta (standardipoikkeama vaikkapa 0.5 g/l). Tämä voisi hyvin vastata vuosikertomuksen kuvaamaa tilannetta, joskin tarkka standardipoikkeama on vain arvaus.

Alla on yhden simulaation tulos. Vuoden keskiarvo on 1.9 g/l. Kvartaalien keskimääräiset tuotantoluvut ovat 1.8, 1.9, 1.9 ja 1.8 g/l. Maksimit sensijaan ovat 3.1, 2.4, 3.1, ja 2.8 g/l.

Voin ilmeenkään värähtämättä sanoa, että “vuoden aikana malmipitoisuus oli tasolla 2.8-3.1 g/l”. Tarkkaan ottaen voin jopa sanoa, että malmipitoisuus oli tasolla 3-3.5 g/l, koska sillä välillä se on todellakin ollut (tosin alarajalla). Todellinen pitoisuus on ollut alle 2 g/l, mutta siitä huolimatta en missään teknisessä mielessä valehtele.

Käytännössä tällä löydökselläni ei ole minkäänlaista käytännön merkitystä. Osoittaapahan vain, miten helppoa numeroilla on vääntää musta valkoiseksi, jos vain tahtotila on sopiva.

Kaikki Talvivaara-kirjoitukset: täällä.

 

Edit 2013-10-22 klo 19:45 ja 21:10

Sain käsiini vuoden 2013 esityksen josta (s 9) löytyy yhtiön tuottama alla oleva kuva. Käytännössä yhtiön väitteessä on jotain pohjaa: pitoisuus nousi kesällä 2011 joksikin aikaa. Talvivaaran väite ei siis ole niin harhaanjohtava kuin ensin oletin. Toisaalta yhtiön olisi ollut rehellisempää näyttää myös vuoden 2011 lukemat, jolloin lukijan olisi mahdollista tehdä omat arvionsa.

Screen shot 2013-10-22 at 19.42.32

 Vuoden 2013 esitys   (s 10) sisältää saman kuvaajan mutta hieman paremmalla resoluutiolla. Juuri tästä käyrästä näkee mielenkiintoisen ilmiön: pitoisuus nousee aina, jos tehtaassa on ollut toimintakatkos (esim 09/2011, 02/2012, 04/2012).
TLV-pitkä

Todennäköisimmin pitoisuus pääsee katkosten aikana nousemaan, kun metallia liukenee happoon mutta sitä ei kerätä talteen. Kesän 2011 piikki on kyllä merkittävästi suurempi kuin myöhemmät. Siitä huolimatta viikkokeskiarvoon tuijottaminen ei tässä tapauksessa ole järkevää. Käyrät pitäisi käytännössä siloittaa usean kuukauden ajalta. Silloinkin kesällä 2011 on selkeä maksimi, mutta sen korkeus tuskin nousee paljon yli 3 g/l.

Ei voi väittää että Talvivaara valehtelisi tai vääristelisi tietoa. Käytännössä se kuitenkin toimii äärirajoilla. Kyllä, vuosi 2011 oli paljon parempi kuin 2013. Mutta kuinka paljon parempi, ja oliko mitattu pitoisuus oikeasti kestävällä tasolla? Sitä emme voi tietää.

Muita Talvivaara-kirjoituksia: täälläKirjoittaja kuuluu Suomen Luonnonsuojeluliittoon, mutta spekulaatiot, mielipiteet, tulkinnat ja virheet ovat puhtaasti omia.

Skripti

week<-seq(1,52)
production<-rnorm(52,mean=2,sd=0.6)
q1<-1:13; q2<-14:26; q3<-27:39; q4<-40:52
q1.mean<-mean(production[q1]); q1.max<-max(production[q1])
q2.mean<-mean(production[q2]); q2.max<-max(production[q2])
q3.mean<-mean(production[q3]); q3.max<-max(production[q3])
q4.mean<-mean(production[q4]); q4.max<-max(production[q4])
maxvals<-c(rep(q1.max,13),rep(q2.max,13),rep(q3.max,13),rep(q4.max,13))
meanvals<-c(rep(q1.mean,13),rep(q2.mean,13),rep(q3.mean,13),rep(q4.mean,13))
plot(production,main=”Production”,xlab=”Week”,ylim=c(0,3.5),pch=3)
par(new=TRUE); plot(meanvals,type=”b”,ylim=c(0,3.5),col=”blue”)
par(new=TRUE); plot(maxvals,type=”b”,ylim=c(0,3.5),col=”red”)

 

Ilmastonmuutos 2: Väärän popularisoinnin turmio

Olen havahtunut siihen, että olen saattanut olla ylioptimistinen. Tunne on erikoinen.

Jottei tule epäselvyyttä: nykytiedoilla olen jämerästi “ilmastouskovainen”. Tiede ei tämän selvemmäksi voi tulla, ja olisi järjetöntä olla toimimatta vaikka epäselvyys olisi paljon suurempikin. Pidän kuitenkin samalla jämeryydellä kiinni siitä, että oma leirini ei saa käyttää huonoja argumentteja. Uskottavuutta ei saa menettää.

Aiemmassa kirjoituksessa avasin, miksi ilmastonmuutosta ei voi “ymmärtää”.  Se on yksinkertaisesti liian monimutkainen kasa sairaita matemaattisia yhtälöitä, jotka eivät maalaisjärjellä kerta kaikkiaan avaudu. Lisäksi probabilistiset ennusteet antavat tietoa sellaisessa muodossa, jota terveet ihmisaivot eivät kykene absorboimaan.

Pahin unohtui. Ilmastonmuutoksen olemassaolo voidaan todistaa ennen muuta tilastoilla. Valitettavasti tilastoilla ei varsinaisesti voi todistaa mitään.

Tilastotieteen perusajatuksia on hypoteesin testaus. Esitetään väite (nollahypoteesi), ja sen jälkeen testataan, voidaanko osoittaa että väite on melko varmasti epätosi. Viime kädellä tilastoilla osoitetaan väitteitä vääriksi; se ei silti tarkoita, että vastakkainen väite olisi automaattisesti oikea. Jos tätä ei ymmärrä, popularisoinneissa voi mennä pahasti metsään.

Liian kansantajuisten mallien esittäminen jopa lyö itseään vastaan. Niissä on aina oiottu ja yksinkertaistettu, ja milloinkaan ne eivät vastaa todellisuutta kunnolla. Kun sitten jokin tällainen kansantajuinen malli osoittautuu virheelliseksi, vastapuoli saa tilaisuuden lytätä koko tutkimuksen. Olkinukkeargumentti, mutta ilmastouskova on itse luonut olkinukkensa.

Ilmastouskovan olisi parempi nöyrästi myöntää, että tulkinnoissa on epävarmuutta.  Tapausesimerkkinä otan SkepticalSciencen sinällään mainion grafiikan.

(Lähde: http://www.skepticalscience.com/graphics.php?g=47)

Grafiikan perusteellla “skeptikot” ovat kiinnittäneet huomiota siihen, että viimeisten 15 vuoden aikana keskilämpötila on laskenut. On se. Vuoden 1970 jälkeen on ollut peräti viisi viilenemisjaksoa… jos unohtaa sen että näiden jaksojen välissä lämpötila on yhdessä yössä noussut kymmeniä kertoja enemmän. Mitään fysikaalista järkeä tuollaisessa tulkinnassa ei ole.

Vastaavasti “realistit” tulkitsevat datan tavalla, joka ei vaadi fysiikan lakien vastaisisia ihmekuumenemisia.  Sen tulkinnan mukaan lämpötilassa on paljon kohinaa, mutta koko ajan se on keskimäärin noussut.

Esitys on nokkela, kansainomainen ja näyttävä. Olen nähnyt sitä käytettävän myös suomalaisessa ympäristökeskustelussa. Valitettavasti on riski, että se voi kompastua omaan nokkeluuteensa.

Suoran viivan sovittaminen dataan nimittäin on helppoa mutta vaarallista — niin tehdään siksi että niin tehdään aina. Oikeasti lähes mihin tahansa dataan voi sovittaa lähes minkä tahansa käyrän. Ammattitaito syntyy siitä, että osaa poistaa ne käyrät jotka eivät kuvaa todellisuutta.

Yllä oleva kuvapari kyllä osoittaa sen, että “skeptikoiden” tulkinta on järjetön. Sen sijaan se ei kerro, onko “realistien” tulkinta oikea.  Käytännössä tähän dataan voisi hyvin sovittaa myös käyrän, jonka kasvu alkaa pysähtyä noin vuoden 2000 tienoilla. Jopa niin, että jos saisin nämä datat eteeni tietämättä niistä mitään, aloittaisin kokeilun jollakin sellaisella epälineaarisella sovituksella.

Olenkin yrittänyt löytää raakadataa johon tuo sovitus on tehty, mutta en löytänyt. Käytin kuitenkin yhtä datasettiä joka on ollut tuossa taustalla, NOAA GSTA. Data kertoo poikkeaman pitkän aikavälin keskiarvosta. (Raakadata csv-formaatissa: NOAA. R-skriptit: NOAA.R)

Dataan saa mukavasti sovitettua suoran Y=-0.11+0.027*X, missä X on vuosia alkaen vuodesta 1970. Sovituksen R2-arvo on 0.53, mikä on säämittauksissa kohtuullinen joskaan ei loistava arvo. (R2=1 tarkoittaisi että datapisteet ovat käytännössä kaikki punaisella viivalla, R2=0 tarkoittaa että ne ovat missä sattuu).

Toisaalta dataan voi aivan yhtä hyvin sovittaa myös vaikkapa kolmannen asteen polynomin. Sen arvoksi tulee Y= -0.02 + 0.0026*T + 0.0014*T^2 – 0.000022*T^3. Tässä sovituksessa kasvu tosiaankin pysähtyy. Sovituksen R2-arvo on lähes täsmälleen sama kuin lineaarisen, eli ei ole mitään varsinaista syytä pitää sitä huonompana.

Dataan voi myös sovittaa kosinifunktion (miksi ei voisi?). Sovitus ei ole aivan yhtä täydellinen kuin kahdessa edellisessä, mutta R2-arvo on silti 0.51 jos käytetään sovitusta Y= 0.41 – 0.45* cos(Y*π/36)). Tämä yksinkertaisesti tarkoittaisi, että lämpötilaa ajaa noin 144 vuoden pituinen sykli.

Olisi mukavaa sanoa, että nämä sovitukset ovat naurettavia, mutta tilastomielessä ne eivät ole. Jos kaksi sovitusta antaa käytännössä yhtä hyvän tuloksen, on vaikea mennä väittämään toista paremmaksi. (Jokainen näistä sovituksista muuttuu, jos mennään ajassa kauemmas taaksepäin. Mutta millä tahansa ajanjaksolla katsottuna suora viiva ei yleensä ole erityisen hyvä kuvaaja).

Itse asiassa nämä sovitukset eivät välttämättä edes ole naurettavia, ei edes tuo kosinisovitus. Epälineaarisuus voi jopa olla todellista, ja perustua oikean fysiikkaan. Se vaikuttaa hämärältä vain, jos ei ymmärrä eroa “lämpötilan” ja “energian” välillä.

Ilmakehään ei tällä hetkellä pumpata liikaa “lämpötilaa”; siihen pumpataan liika energiaa. Ero on merkittävä. Energia voi siirtyä moneen eri paikkaan: esimerkiksi syvälle mereen, tai jäätiköiden sulattamiseen, tai yläilmakehään. Silloin se ei lämmitä maanpintaa. Mutta jos “ylilämpö” voi siirtyä yllättävästi, se voi myös palata yllättävästi.

Yhden ainoan pintalämpötilan seuraaminen ei siis kerta kaikkiaan kerro koko totuutta. Tilastoja väärinkäyttämällä voidaan “todistaa” oikeastaan mitä vain. Toisaalta tiedetään, että malleissa on otettava huomioon muitakin muuttujia kuin pintalämpötila, eikä kaikkia ilmiöitä edelleenkään osata asteen tarkkuuudella mallintaa.

Tilastoja on syytä käyttää varovasti, ellei tiedä täsmälleen mitä on tekemässä.

Lisää kirjoituksia ympäristöstä: täällä

Translate »