Tag Archives: matematiikka

Vaalikampanjoiden matematiikkaa

 

Tämä blogi on alunperin ollut jyrkän epäpoliittinen, mutta vain muutos on pyhää.  Olen jostain syystä päätynyt Turussa Vihreiden ehdokkaaksi ensi vuoden kunnallisvaaleissa.  Kun tuollaista luottamusta osoitetaan, niin tehtävä on pakko myös ottaa vakavissaan. Mutta tarkoittaako se, että olisi pakko ottaa myös itseni vakavasti? En tiedä vielä. Tästä voi tulla mielenkiintoinen sosiologinen eksperimentti.

Lähtökohtani on yksinkertainen, jopa naiivi. Yhteisiä asioita on hoidettava faktapohjaisesti ja analyyttisesti.  Mitä faktat eivät tue, sitä ei pidä ajaa.

(Kokemus luottamustoimissa ja ennen muuta perheenisänä on toki osoittanut, että todellisuudessa tuo filosofia ei ainakaan teletappimaailman ulkopuolella toimi. Ihminen on irrationaalinen psykofyysinen kokonaisuus, maailma on sumea ja sekava, ja oikeasti  sählätään summamutikassa ja läpiuupuneina arvojen pohjalta.  Mutta faktapohjainen analyyttisyys on ihanteena silti toimiva).

Hiukan matematiikkaa

Valitettavasti aloin samantien pohtia omaa kampanjaani “faktapohjaisesti ja analyyttisesti”.  Mikä on todennäköisyys, että tällä  juroustasolla ja tällä synkkyysasteella pääsisi politiikassa yhtään mihinkään?

Toisin kuin voisi kuvitella, todennäköisyys ei missään nimessä ole nolla!

Continue reading Vaalikampanjoiden matematiikkaa

EU-vaalien matematiikkaa 2

Koska olisi tärkeää saada ihmiset äänestämään EU-vaaleissa edes säälistä, edes jotakuta, tarkennan aikaisempaa kirjoitustani EU-vaalien matematiikkaa. Joskopa sitä kautta kansakunta innostuisi vaaliuurnille aivan uudella vyöryllä. Kirjoitus jätti auki kaksi kysymystä.

Analysoin kirjoituksessa seuraavaa väitettä:  Muista, että jos et äänestä, tuet sitä, jonka kanssa olet eniten eri mieltä. Ja se nyt vain on tyhmää“.  Väitteen esitti anonyymi tuttavani (Linkedin-profiili).  Pitääkö väite paikkaansa millään reunaehdoilla?

1. Voisiko kysymyksen muotoilla niin, että joku ymmärtääkin sen?

Analyysin voi selittää huomattavasti intuitiivisemmin kuin edellisessä kirjoituksessa. Jos itse jättää äänestämättä, se on (ensimmäisessä approksimaatiossa) ekvivalentti sille, että vastapuoli saa yhden lisä-äänen. Jos vastapuoli saisi tämän yhden lisä-äänen, kuinka radikaali se lisä-ääni oletusarvoisesti olisi?

Käytin varsin yksinkertaista mallia. Oletetaan, että radikaalisuus on normaalijakautunutta. Tällöin radikalisuusjakauman todennäköisyysfunktio on

Screen shot 2014-05-15 at 16.39.35missä σ on radikaalisuuskerroin. Voidaan katsoa, että yli  2σ päässä olevat ovat äärisiipeä Oletetaan nyt, että toinen puoli saa yhden lisä-äänen. Miten tämän äänen radikaalisuustodennäköisyys jakautuu? Odotusarvo saadaan laskettua, jos tehdään sijoitus

Screen shot 2014-05-15 at 16.41.40Tällöin lopputulos on

Screen shot 2014-05-15 at 16.40.11

Normalisoidaan yksinkertaisuuden vuoksi radikaalisuusaeste niin, että σ=1. Riippumatta siitä mikä äänestämättä jättävän radikaalisuusaste on, vastapuoli saa siis keskimäärin lisä-ääneen jonka radikaalisuusaste on 1/√2π, eli noin 0.4.

2. Pänniikö radikaalia enemmän kuin maltillista?

Asia näytää erilaiselta riippuen siitä, mikä oma radikaalisuusaste on. Ehdotin, että väite pitäisi muotoilla näin: “Muista, että jos et äänestä, tuet keskimäärin henkilöä jonka radikaalisuusaste on 0.4. Mikäli olet tätä maltillisempi, vastapuoli radikalisoituu. Ja se nyt vain on tyhmää. Jos taas olet sitä radikaalimpi, estät mahdollisuuden saada tavoitteitasi läpi kärijistämällä vastakkainasettelua. Ja se nyt vain on tyhmää.” Tämä on herättänyt debaattia.

Maltilliselle tämä pitää intuitiivisesti melko selkeästi paikkansa: maltillinen lähtökohtaisesti haluaa, että myös vastapuolella oltaisiin mukavia ja maltillisia. Radikaalit hirvittävät.

Entä radikaali? Yllä oleva päättely on puutteellista. Johtopäätös on kuitenkin uskoakseni oikein. Tarpeeksi radikaalilla on kaksi yhtä tärkeää vastustajaa: vastapuoli, ja oman puolueen maltilliset. Paras strategia on sellainen, jossa molemmat kärsivät.

Silloin pahin skenaario on ääni maltilliselle vastapuolelle. Se vahvistaa epäsuorasti myös oman puolen maltillisia, koska keskivoimat pystyvät helpommin löytämään ratkaisuja jotka kelpaavat kaikille, ja sitä kautta kahmimaan itselleen yhä enemmän ääniä. Vastapuolen radikaalit eivät vahvista omia maltillisia millään tavalla, ja siksi he ovat parempi vaihtoehto.

Jos siis jättää äänestämättä, tukee tasan vastakkaismielistä vain, jos oma radikaalisuusaste on 0.4. Harmituksen määrä on kuitenkin aina suunnilleen sama, riippumatta omasta radikaalisuusasteesta.  Siis äänestämättä jättäminen on aina tyhmää, jos ylipäätään on jostakin jotakin mieltä.

Lisää matematiikan toisinkäyttöä: WeirdMath

Screen shot 2014-05-15 at 17.02.26Lähde: Wikipedia

 

 

 

 

 

 

EU-vaalien matematiikkaa

Analyyttisyyden skalpelli leikkaa sentimentaalisuuden rasvakerrosta, kun dissektoin seuraavaa EU-vaaleihin liittyvää väitettä: Muista, että jos et äänestä, tuet sitä, jonka kanssa olet eniten eri mieltä. Ja se nyt vain on tyhmää“.  Koska sosiologiassa tulee suojata väitteen tekijän anonymiteettiä, ja koska kyseessä on (vielä) kaverini, käytän väitteen esittäjästä vain nimikirjaimia JK (Linkedin-profiili).  Pitääkö väite paikkaansa millään reunaehdoilla?

Tarvittava malli on tällä kertaa varsin yksinkertainen. Oletetaan, että radikaalisuus on normaalijakautunutta. Tällöin radikalisuusjakauman todennäköisyysfunktio on

Screen shot 2014-05-15 at 16.39.35missä σ on radikaalisuuskerroin. Tämä on toimiva määritelmä, jossa voidaan katsoa että yli  2σ päässä olevat ovat äärisiipeä.

Oletetaan nyt, että vasemmasta laidasta poistetaan yksi ääni. Tämä on ekvivalentti sen kanssa, että oikea laita saa yhden äänen lisää. Miten tämä ääni jakautuu? Odotusarvo saadaan laskettua, jos tehdään sijoitus

Screen shot 2014-05-15 at 16.41.40Tällöin lopputulos on

Screen shot 2014-05-15 at 16.40.11

Normalisoidaan yksinkertaisuuden vuoksi radikaalisuusaeste niin, että σ=1. Riippumatta siitä mikä äänestämättä jättävän radikaalisuusaste on, vastapuoli saa siis keskimäärin lisä-ääneen jonka radikaalisuusaste on 1/√2π, eli noin 0.4.

Väite pitäisi siis muotoilla suunnilleen näin:  “Muista, että jos et äänestä, tuet keskimäärin henkilöä jonka radikaalisuusaste on 0.4. Mikäli olet tätä maltillisempi, vastapuoli radikalisoituu. Ja se nyt vain on tyhmää. Jos taas olet sitä radikaalimpi, estät mahdollisuuden saada tavoitteitasi läpi kärijistämällä vastakkainasettelua. Ja se nyt vain on tyhmää.”

Myös politiikka vaatii tarkkuutta.

Lisää matematiikan toisinkäyttöä: WeirdMath

Screen shot 2014-05-15 at 17.02.26Lähde: Wikipedia

 

 

 

 

 

 

Datapisteiden synkeän elämän julmaa matematiikkaa

Joulun kunniaksi olen pohtinut, miten lannistavaa olisi olla datapiste. Yksinkertaisessakin tutkimuksessa voi tulla miljoonia datapisteitä. Lopuksi niistä survotaan kaava, joka on muotoa Y= A + B*X1. Jokainen piste haluaisi päästä A:ksi A:n paikalle; vain yksi pääsee, muut tuomitaan ikuiseen kadotukseen. Mitä elämää se sellainen oikein on?

Ajatus on tullut mieleen, kun olen murskannut tämänhetkisen projektini numeroita. Projektin päämäärä ja yksityiskohdat eivät ole tässä olennaisia (ovatko ne muuallakaan, on makukysymys).  Siinä ajelutettiin noin sata ihmistä ajosimulaattorin läpi. Jokainen ajo kesti lähes tunnin. Dataa on tallennettu kymmenen kertaa sekunnissa.

Koska simulaattoriaika on kallista, ajosuorituksista tallennettiinn kaikki mahdollinen. Ajajasta tallennettiin noin kolmekymmentä parametriä. Lisäksi pidettiin kirjaa siitä, missä muut simulaation objektit ovat. Objekteja on noin viisikymmentä, ja kaikista tallennettiin kahdeksan parametriä. Jokaisella rivillä oli siis yli 500 numeroa. Kymmenen kertaa sekunnissa tunnin ajan tarkoittaa, että jokaisesta kuskista tallennettiin lähes 20 miljoonaa numeroa.

Yhteensä projektin aikana kerättiin siis lähes 2 miljardia datapistettä.

Näiden miljardien tragedia on siinä, että melkein kaikki niistä tapettiin ennen kuin ne edes näkevät päivänvalon. Kuskin toimintaa mittaavat 30 parametriä sentään vaivauduttiin ottamaan talteen. Muista objekteista sen sijaan tallennettiin vain etäisyystieto; yhteensä 50 numeroa riviltä. Ensimmäisen teurastuksen läpäisi siis vain 10% luvuista, eli 90% joutui heti datapisteiden taivaaseen. 200 miljoonaa datapistettä jäljellä.

Käyttökelpoisia tienpätkiä oli lopulta noin neljäsosa: 50 miljoonaa datapistettä. Tässä vaiheessa alkoi selvitä, mitkä parametrit ylipäätään ovat analyysissä tärkeitä. Viisikymmentä tallannetua parametriä voitiin tiivistää hieman yli kymmeneen. Kymmenen miljoonaa datapistettä jäljellä. Näiden tallennusvälilä pystyttiin vielä harventamaan, pyöristämällä sijainnit lähimpään täyteen metriin. Varsinaiseen dataprässiin päätyi enää nelisen miljoonaa datapistettä (400,000 mittausta, jokaisessa 10 parametriä).

Prässissä kokeiltiin erilaisia menetelmiä, mm lineaarisia monimuuttujamalleja. Loppujen lopuksi kuitenkin yksinkertaisin oli parasta: kuskit keskiarvoistettiin, niin että sadasta koehenkilöstä saatiin survottua yksi “keskimääräinen” kuski. Noin 99% datapisteistä koki siis irvokkaan keskiarvoistuskuoleman, menettäen kaiken sen yksilöllisyyden joka tekee numerosta numeron.

Tässä vaiheessa jäljellä oli siis 4000 mittausta, jokaisessa kymmenen parametriä. Pyörittely osoitti, että näistä vain yksi oli lopulta tärkeä (riippuva muuttuja Y), ja sen pystyi parhaiten selittämään kaksi riippumatonta muuttujaa (X1 ja X2).

Koko tutkimustulos tiivistyi siis kaavaksi

  Y = A + B*X1 + C*X2.

Toisin sanoen, tehtäväksi jäi määritellä kolme vakiota (A,B,C). Tämä siis oli koko prosessin loppputulos: kolme numeroa. Alun kahdesta miljardista. Ja tämä kaikki vain siksi, että pari akateemista nörttiä saisi taas yhden julkaisun lisää.

Jotta nöyryytys olisi täydellinen, näissä vakioissa on vain kaksi merkitsevää desimaalia, kun alkuperäinen data kerättiin vähintään kuuden merkitsevän desimaalin tarkkuudella. Numero on onnellinen, kun se on tarkka; jokaisen desimaalin menetys on kuin kadottaisi raajan.

Voin verrata tätä suoraan omaan elämääni. Tilastojen perusteella maailmassa on noin 3.5 miljardia työikäistä ihmistä, eli vajaa kaksi miljardia miestä. Tässä kilpailussa meidät laitettaisiin toistuvasti valtavan tehosekoittimen läpi. Häviäjät valutettaisiin viemäriin, voittajia mössättäisiin taas uudelleen. Lopussa papukaijamerkin saisivat ne kolme, joista on vielä jotakin jäljellä.

(Teoriassa voisi toki ajatella, että palkinnoksi jäisivät ne lähes kaksi miljardia työikäistä naista jotka nyt olisivat vapailla markkinoilla. Mutta moniraaja-amputaatiohalvaantunelle se on lähinnä akateeminen ilo).

Oma elämä ei tunnukaan enää yhtä kurjalta, kun tätä miettii. Yhtä mitättömältä toki. Mutta on silti parempi olla yksi joskus osittain terve Ö monien joukossa kuin ainoa täysrampa A ei kenenkään joukossa.

Lisää outoa matematiikkaa: WeirdMath.

 

Talvivaara 17: Numeroiden pöhinää

Talvivaara on 22.10. Paikanpäällä-blogissaan kertonut, että sen tuotanto on “hyvässä pöhinässä”. Hyvä niin. Blogissa kiinnitti kuitenkin huomiota pieni numeerinen pöhinä, jolla yhtiö yrittää todistaa prosessinsa olevan kunnossa.

Kaikki Talvivaara-kirjoitukset: täällä.

Blogista: “Kuinka ylös kiertoliuoksen metallipitoisuus voi nousta?  Kesällä ja alkusyksyllä 2011 kiertoliuoksen nikkelipitoisuus oli tasolla 3,0-3,5 g/l. Historiassa on siis näytetty, että kasaliuotus toimii. Nyt teemme toimenpiteitä, että kiertoliuoksen metallipitoisuudet saadaan kunnon nousukäyrälle.” Blogissa on lisäksi alla oleva graafi. Tarkempaa referenssiä ei noille luvuille annettu.

Kuitenkin vuoden 2012 vuosikertomus paljastaa tällaista (s 62):   “Biokasaliuotus kehittyi odotetusti vuoden aikana. Sekundääriliuos on käynnistynyt hyvin, ja primäärikasasta sekundäärikasaan siirrettävän malmin määrä on jatkuvasti kasvanut. Liuoksen nikkelipitoisuus vaihteli vajaasta 2 grammasta litrassa yli 3,5 grammaan litrassa riippuen kasan iästä ja vaihteluista talteenottolaitokselle otetun liouoksen määrässä. Vuoden lopussa metallien talteenottolaitokselle pumpatun liuoksen nikkelipitoisuus oli noin 2 grammaa litraa kohden.”

Selitys laittaa silti raapimaan päätä, koska blogin ja vuosikertomuksen tietoja yhdistelemällä tuotanto olisi alla olevan kuvan kaltaista (kahden ensimmäisen kvartaalin arvoksi on oletettu 3.25 g/l). Tapahtuiko loppuvuonna 2011 jokin romahdus, joka tiputti tuotannon yli kolmanneksella? Miksi sellaista romahdusta ei ole missään raportoitu?

Todennäköisemmin kyseessä on helppo silmänkääntötemppu, jonka huomaa helpolla simulaatiolla.  Oletetaan, että pitoisuudet mitataan kerran viikossa. Pitoisuus on keskimäärin 2 g/l, mutta viikoittainen vaihtelu on suurta (standardipoikkeama vaikkapa 0.5 g/l). Tämä voisi hyvin vastata vuosikertomuksen kuvaamaa tilannetta, joskin tarkka standardipoikkeama on vain arvaus.

Alla on yhden simulaation tulos. Vuoden keskiarvo on 1.9 g/l. Kvartaalien keskimääräiset tuotantoluvut ovat 1.8, 1.9, 1.9 ja 1.8 g/l. Maksimit sensijaan ovat 3.1, 2.4, 3.1, ja 2.8 g/l.

Voin ilmeenkään värähtämättä sanoa, että “vuoden aikana malmipitoisuus oli tasolla 2.8-3.1 g/l”. Tarkkaan ottaen voin jopa sanoa, että malmipitoisuus oli tasolla 3-3.5 g/l, koska sillä välillä se on todellakin ollut (tosin alarajalla). Todellinen pitoisuus on ollut alle 2 g/l, mutta siitä huolimatta en missään teknisessä mielessä valehtele.

Käytännössä tällä löydökselläni ei ole minkäänlaista käytännön merkitystä. Osoittaapahan vain, miten helppoa numeroilla on vääntää musta valkoiseksi, jos vain tahtotila on sopiva.

Kaikki Talvivaara-kirjoitukset: täällä.

 

Edit 2013-10-22 klo 19:45 ja 21:10

Sain käsiini vuoden 2013 esityksen josta (s 9) löytyy yhtiön tuottama alla oleva kuva. Käytännössä yhtiön väitteessä on jotain pohjaa: pitoisuus nousi kesällä 2011 joksikin aikaa. Talvivaaran väite ei siis ole niin harhaanjohtava kuin ensin oletin. Toisaalta yhtiön olisi ollut rehellisempää näyttää myös vuoden 2011 lukemat, jolloin lukijan olisi mahdollista tehdä omat arvionsa.

Screen shot 2013-10-22 at 19.42.32

 Vuoden 2013 esitys   (s 10) sisältää saman kuvaajan mutta hieman paremmalla resoluutiolla. Juuri tästä käyrästä näkee mielenkiintoisen ilmiön: pitoisuus nousee aina, jos tehtaassa on ollut toimintakatkos (esim 09/2011, 02/2012, 04/2012).
TLV-pitkä

Todennäköisimmin pitoisuus pääsee katkosten aikana nousemaan, kun metallia liukenee happoon mutta sitä ei kerätä talteen. Kesän 2011 piikki on kyllä merkittävästi suurempi kuin myöhemmät. Siitä huolimatta viikkokeskiarvoon tuijottaminen ei tässä tapauksessa ole järkevää. Käyrät pitäisi käytännössä siloittaa usean kuukauden ajalta. Silloinkin kesällä 2011 on selkeä maksimi, mutta sen korkeus tuskin nousee paljon yli 3 g/l.

Ei voi väittää että Talvivaara valehtelisi tai vääristelisi tietoa. Käytännössä se kuitenkin toimii äärirajoilla. Kyllä, vuosi 2011 oli paljon parempi kuin 2013. Mutta kuinka paljon parempi, ja oliko mitattu pitoisuus oikeasti kestävällä tasolla? Sitä emme voi tietää.

Muita Talvivaara-kirjoituksia: täälläKirjoittaja kuuluu Suomen Luonnonsuojeluliittoon, mutta spekulaatiot, mielipiteet, tulkinnat ja virheet ovat puhtaasti omia.

Skripti

week<-seq(1,52)
production<-rnorm(52,mean=2,sd=0.6)
q1<-1:13; q2<-14:26; q3<-27:39; q4<-40:52
q1.mean<-mean(production[q1]); q1.max<-max(production[q1])
q2.mean<-mean(production[q2]); q2.max<-max(production[q2])
q3.mean<-mean(production[q3]); q3.max<-max(production[q3])
q4.mean<-mean(production[q4]); q4.max<-max(production[q4])
maxvals<-c(rep(q1.max,13),rep(q2.max,13),rep(q3.max,13),rep(q4.max,13))
meanvals<-c(rep(q1.mean,13),rep(q2.mean,13),rep(q3.mean,13),rep(q4.mean,13))
plot(production,main=”Production”,xlab=”Week”,ylim=c(0,3.5),pch=3)
par(new=TRUE); plot(meanvals,type=”b”,ylim=c(0,3.5),col=”blue”)
par(new=TRUE); plot(maxvals,type=”b”,ylim=c(0,3.5),col=”red”)