Category Archives: WeirdMath

Suomalaiset pierutrendit

Pieru naurattaa aina, väitetään. Pitääkö väite paikkansa?  Trendianalyysi kyseenalaistaa tämän. Tarkempi penkominen kuitenkin paljastaa kiehtovia yhteiskunnallisia asioita.

Tein Google Trends-haun sanalle “pieru“. Kuvaajat normalisoidaan niin, että korkein aikajaksolle osuva luku on aina 100. Kuvaajien tulkinta ei ole täysin yksikäsitteistä, mutta periaatteessa ne kuvaavat sitä, miten suosittu hakusana on ollut kaikkiin hakuihin verrattuna.

Pieru

Continue reading Suomalaiset pierutrendit

Työttömien mahduttamisesta (perjantaikirjoitus)

 

“Miten Suomen 368 100 työtöntä työnhakijaa saadaan tungettua niihin 16 878 avoimeen työpaikkaan?” parahti eräs tuttavani hiljattain.  Voin lohduttaa, että tämä näyttäisi olevan työttömyysongelmista pienin. Jokaiseen työpaikkaan pitäisi siis saada 22 työtöntä. Tämä onnistuu helposti.

Työikäisen suomalaisen miehen keskimääräinen painoindeksi on 27.1 kg/m² ja keskipituus 178 cm, jolloin painoksi tulee noin 86 kg. Ilmatäytteisen ihmisen tiheys on tunnetusti suunnilleen sama kun veden (1 Mg/m³), jolloin tilavuus olisi suunnilleen tuo sama 86 litraa.

Varsinainen lihasmassa on huomattavasti raskaampaa. Avoimen kirjallisuuden perusteella on kuitenkin vaikea päätellä, kuinka suuri ihmisen tilavuus on, jos ylimääräinen ilma poistetaan esimerkiksi oksasilppuria käyttäen. Kokemuspohjaisesti oletan, että tilavuus on jossakin 70 litran paikkeilla.  Joka tapauksessa 22 työttömän yhteistilavuus on reilusti alle 2 kuutiometriä.

Nämä 22 työtöntä saadaan siis helposti mahtumaan biotuubiin, jonka pinta-ala on neliömetri ja korkeus 1.5-2 metriä. Tehokkaassa flexi-officessa työntekijätiheys voi helposti nykyään olla 1 per neliömetri. Nuo 368,100 työtöntä mahtuvat siis aivan mainiosti 16,878 työntekijän vaatimaan tilaan.

Tämä on itse asiassa ällistyttävän pieni pinta-ala. Aikoinani olen työskennellyt Salossa teollisuuskompleksissa, jossa oli parhaimmillaan  3000-5000 työntekijää. Meillä oli kuitenkin kohtuuttoman väljät tilat — kubiklen koko oli enemmän kuin 2×2 metriä, ja mm WC:t olivat isot. Kaikki Suomen työttömät saisi aivan helposti mahdutettua tähän yhteen ainoaan kompleksiin — joka käsittääkseni on nykyään vieläpä tyhjillään.

Ongelmia ei pidä turhaan nähdä siellä, missä niitä ei ole. Tämä ratkeaa helposti.

(Kirjoittaja on ollut akateeminen pätkä- ja silpputyöläinen vuodesta 2012. Lisää vastaavia kirjoituksia: Perjantaikirjoitukset. Lisää asiaa työttömyydestä, osa vakavaa osa ei: Työttömyys. Lisää epämääräistä laskentaa: WeirdMath.)

Waring_forside2_product_large

 

 

EU-vaalien matematiikkaa

Analyyttisyyden skalpelli leikkaa sentimentaalisuuden rasvakerrosta, kun dissektoin seuraavaa EU-vaaleihin liittyvää väitettä: Muista, että jos et äänestä, tuet sitä, jonka kanssa olet eniten eri mieltä. Ja se nyt vain on tyhmää“.  Koska sosiologiassa tulee suojata väitteen tekijän anonymiteettiä, ja koska kyseessä on (vielä) kaverini, käytän väitteen esittäjästä vain nimikirjaimia JK (Linkedin-profiili).  Pitääkö väite paikkaansa millään reunaehdoilla?

Tarvittava malli on tällä kertaa varsin yksinkertainen. Oletetaan, että radikaalisuus on normaalijakautunutta. Tällöin radikalisuusjakauman todennäköisyysfunktio on

Screen shot 2014-05-15 at 16.39.35missä σ on radikaalisuuskerroin. Tämä on toimiva määritelmä, jossa voidaan katsoa että yli  2σ päässä olevat ovat äärisiipeä.

Oletetaan nyt, että vasemmasta laidasta poistetaan yksi ääni. Tämä on ekvivalentti sen kanssa, että oikea laita saa yhden äänen lisää. Miten tämä ääni jakautuu? Odotusarvo saadaan laskettua, jos tehdään sijoitus

Screen shot 2014-05-15 at 16.41.40Tällöin lopputulos on

Screen shot 2014-05-15 at 16.40.11

Normalisoidaan yksinkertaisuuden vuoksi radikaalisuusaeste niin, että σ=1. Riippumatta siitä mikä äänestämättä jättävän radikaalisuusaste on, vastapuoli saa siis keskimäärin lisä-ääneen jonka radikaalisuusaste on 1/√2π, eli noin 0.4.

Väite pitäisi siis muotoilla suunnilleen näin:  “Muista, että jos et äänestä, tuet keskimäärin henkilöä jonka radikaalisuusaste on 0.4. Mikäli olet tätä maltillisempi, vastapuoli radikalisoituu. Ja se nyt vain on tyhmää. Jos taas olet sitä radikaalimpi, estät mahdollisuuden saada tavoitteitasi läpi kärijistämällä vastakkainasettelua. Ja se nyt vain on tyhmää.”

Myös politiikka vaatii tarkkuutta.

Lisää matematiikan toisinkäyttöä: WeirdMath

Screen shot 2014-05-15 at 17.02.26Lähde: Wikipedia

 

 

 

 

 

 

Datapisteiden synkeän elämän julmaa matematiikkaa

Joulun kunniaksi olen pohtinut, miten lannistavaa olisi olla datapiste. Yksinkertaisessakin tutkimuksessa voi tulla miljoonia datapisteitä. Lopuksi niistä survotaan kaava, joka on muotoa Y= A + B*X1. Jokainen piste haluaisi päästä A:ksi A:n paikalle; vain yksi pääsee, muut tuomitaan ikuiseen kadotukseen. Mitä elämää se sellainen oikein on?

Ajatus on tullut mieleen, kun olen murskannut tämänhetkisen projektini numeroita. Projektin päämäärä ja yksityiskohdat eivät ole tässä olennaisia (ovatko ne muuallakaan, on makukysymys).  Siinä ajelutettiin noin sata ihmistä ajosimulaattorin läpi. Jokainen ajo kesti lähes tunnin. Dataa on tallennettu kymmenen kertaa sekunnissa.

Koska simulaattoriaika on kallista, ajosuorituksista tallennettiinn kaikki mahdollinen. Ajajasta tallennettiin noin kolmekymmentä parametriä. Lisäksi pidettiin kirjaa siitä, missä muut simulaation objektit ovat. Objekteja on noin viisikymmentä, ja kaikista tallennettiin kahdeksan parametriä. Jokaisella rivillä oli siis yli 500 numeroa. Kymmenen kertaa sekunnissa tunnin ajan tarkoittaa, että jokaisesta kuskista tallennettiin lähes 20 miljoonaa numeroa.

Yhteensä projektin aikana kerättiin siis lähes 2 miljardia datapistettä.

Näiden miljardien tragedia on siinä, että melkein kaikki niistä tapettiin ennen kuin ne edes näkevät päivänvalon. Kuskin toimintaa mittaavat 30 parametriä sentään vaivauduttiin ottamaan talteen. Muista objekteista sen sijaan tallennettiin vain etäisyystieto; yhteensä 50 numeroa riviltä. Ensimmäisen teurastuksen läpäisi siis vain 10% luvuista, eli 90% joutui heti datapisteiden taivaaseen. 200 miljoonaa datapistettä jäljellä.

Käyttökelpoisia tienpätkiä oli lopulta noin neljäsosa: 50 miljoonaa datapistettä. Tässä vaiheessa alkoi selvitä, mitkä parametrit ylipäätään ovat analyysissä tärkeitä. Viisikymmentä tallannetua parametriä voitiin tiivistää hieman yli kymmeneen. Kymmenen miljoonaa datapistettä jäljellä. Näiden tallennusvälilä pystyttiin vielä harventamaan, pyöristämällä sijainnit lähimpään täyteen metriin. Varsinaiseen dataprässiin päätyi enää nelisen miljoonaa datapistettä (400,000 mittausta, jokaisessa 10 parametriä).

Prässissä kokeiltiin erilaisia menetelmiä, mm lineaarisia monimuuttujamalleja. Loppujen lopuksi kuitenkin yksinkertaisin oli parasta: kuskit keskiarvoistettiin, niin että sadasta koehenkilöstä saatiin survottua yksi “keskimääräinen” kuski. Noin 99% datapisteistä koki siis irvokkaan keskiarvoistuskuoleman, menettäen kaiken sen yksilöllisyyden joka tekee numerosta numeron.

Tässä vaiheessa jäljellä oli siis 4000 mittausta, jokaisessa kymmenen parametriä. Pyörittely osoitti, että näistä vain yksi oli lopulta tärkeä (riippuva muuttuja Y), ja sen pystyi parhaiten selittämään kaksi riippumatonta muuttujaa (X1 ja X2).

Koko tutkimustulos tiivistyi siis kaavaksi

  Y = A + B*X1 + C*X2.

Toisin sanoen, tehtäväksi jäi määritellä kolme vakiota (A,B,C). Tämä siis oli koko prosessin loppputulos: kolme numeroa. Alun kahdesta miljardista. Ja tämä kaikki vain siksi, että pari akateemista nörttiä saisi taas yhden julkaisun lisää.

Jotta nöyryytys olisi täydellinen, näissä vakioissa on vain kaksi merkitsevää desimaalia, kun alkuperäinen data kerättiin vähintään kuuden merkitsevän desimaalin tarkkuudella. Numero on onnellinen, kun se on tarkka; jokaisen desimaalin menetys on kuin kadottaisi raajan.

Voin verrata tätä suoraan omaan elämääni. Tilastojen perusteella maailmassa on noin 3.5 miljardia työikäistä ihmistä, eli vajaa kaksi miljardia miestä. Tässä kilpailussa meidät laitettaisiin toistuvasti valtavan tehosekoittimen läpi. Häviäjät valutettaisiin viemäriin, voittajia mössättäisiin taas uudelleen. Lopussa papukaijamerkin saisivat ne kolme, joista on vielä jotakin jäljellä.

(Teoriassa voisi toki ajatella, että palkinnoksi jäisivät ne lähes kaksi miljardia työikäistä naista jotka nyt olisivat vapailla markkinoilla. Mutta moniraaja-amputaatiohalvaantunelle se on lähinnä akateeminen ilo).

Oma elämä ei tunnukaan enää yhtä kurjalta, kun tätä miettii. Yhtä mitättömältä toki. Mutta on silti parempi olla yksi joskus osittain terve Ö monien joukossa kuin ainoa täysrampa A ei kenenkään joukossa.

Lisää outoa matematiikkaa: WeirdMath.

 

Yhdistysdemokratian matematiikkaa

 

Vaikka Suomi on yhdistysten luvattu maa, se ei ole yhdistysten hallituksille aivan samanlainen Eldorado. Pienissä yhdistyksissä on usein vaikea saada kasaan hallitusta, ja vielä vaikeampaa saada hallituksen kokouksiin paikalle niin paljon väkeä, että ne olisivat päätösvaltaisia.

Tätä asiaa, kuten kaikkea muutakin, voi lähestyä matemaattisesti. Oletetaan, että normaalin hallintokäytännön mukaisesti hallituksesta on oltava vähintään puolet paikalla. Mitä pitäisi tehdä, että suurempi osa kokouksista olisi päätösvaltaisia? (Toisin kuin eräät tämän blogin “XX:n matematikkaa”-kirjoitukset, nämä laskut on tehty täysin oikein).

Asiasta voisi tehdä hyvinkin monimutkaisen Monte-Carlo-simulaation, mutta pikavastauksia saa yllättävänkin helposti karkea binomijakaumaa käyttämällä. Johtopäätökset ovat melko yksinkertaisia:

  • Jos osallistumisaktiivisuus pysyy vakiona, suuri hallitus on parempi kuin pieni.
  • Jos jäsenten osallistumisaktiivisuus laskee lähelle 50%:a, hallitus alkaa halvaantua (alle puolet kokouksista on päätösvaltaisia).
  • Jos aktiivisuus saadaan nousemaan tästä edes hiukan, tilanne paranee erittäin nopeasti. Jo hieman yli 60% aktiivisuus tarkoittaa, että hallitus toimii riittävän hyvin (se on päätösvaltainen ainakin 80% ajasta).
  • Hallituksen kannattaa siis panostaa nimenomaan siihen, että nimenomaan heikoimmin aktiiviset jäsenet osallistuisivat edes hiukan useammin.

Laskentamalli

Oletetaan, että jokainen jäsen pystyy osallistumaan kokoukseen todennäköisyydellä p (osallistumisaktiivisuus). Vapaaehtoisjärjestöissä p voi olla hyvinkin matala, luokkaa 50% tai allekin. Olkoon hallituksen koko n, ja hallitus päätösvaltainen vain, jos vähintään puolet jäsenistä on paikalla. Halutaan tietää, miten hallituksen koko ja aktiivisuus vaikuttavat päätösvaltaisuuteen.

Nopeasti huomaa, että hallituksen koon kannattaa olla parillinen luku. Verrataan tapauksia n=3 ja n=4. Molemmissa tapauksissa tarvitaan vähintään kaksi jäsentä. Oletetaan, että A on jo paikalla. Hänen lisäkseen tarvitaan enää yksi jäsen lisää. Jos jäseniä on kolme, on kolme skenaariota joissa ehto täyttyy: paikalle tulee B, C, tai molemmat (B+C). Neljän tapauksessa taas vaihtoehtoja on paljon enemmän: B,C,D, tai B+C, B+D, C+D, B+C+D.

Yleisessä tapauksessa, todennäköisyys että i jäsentä n:stä saapuu paikalle on binomifunktio

Kokous on päätösvaltainen silloin, kun X on vähintään n/2. Tällöin täytyy laskea binomifunktion kertymäfunktio, jolle ei ole yksinkertaista kaavaa. Se löytyy kuitenkin matematiikkaohjelmista. Esimerkiksi R-kielellä kertymäfunktio on muotoa P=pbinom(n/2,n,p). P on todennäköisyys, että kokous on päätösvaltainen.

Kuvassa 1 on laskettu P:n arvoja eri hallituksen koolle ja osallistumisaktiivisuuksille  (tietokonekoodi kirjoituksen lopussa). Todennäköisyydelle p on annettu arvot (0.1, 0.2,… , 0.9).  Punainen vaakasuora viiva on 50% kohdalla: toisin sanoen, se kertoo millä n:n ja p:n yhdistelmillä vähintään puolet kokouksista on päätösvaltaisia.

Kuva 1. [Edit: Nimen tulisi olla “Paatosvaltaisuus, p=0.1-0.9”]

Kuvasta näkee heti, että suurempi hallitus on parempi, kuinhan vain osallistumisaktiivisuus on yli 50%. 60% osallistumisaktiivisuudella neljän hengen hallitus on päätösvaltainen alle puolet ajasta, mutta 14 hengen hallitus jo melkein 70%.

Jos osallistumisaktiivisuus on 50%, kokoukset ovat pääsääntöisesti päätösvallattomia.  50% päätösvallattomuutta voikin alkaa pitää halvaantuneen yhdistyksen merkkinä: jos puolet ajasta kokoonnutaan ilman että voidaan virallisesti päättää mitään, se syö motivaatiota kaikilta.

Noin 80% päätösvaltaisuus (violetti viiva) lienee hyvä kuvaaja sille, milloin hallitus toimii hyvin. Jos kokouksia on kuukausittain, se tarkoittaa että vuodessa on 1-2  päätösvallatonta kokousta. Se on harmittavaa, mutta kestettävissä. Kahdeksan hengen hallitus pääsee tähän, jos osallistumisaktiivisuus on yli 70%.

Sininen viiva taas on 95% kohdalla: se kertoo, milloin hallitus käytännössä toimii kuin kone. Siihen pääseminen edellyttäisi periaatteessa yli 80% aktiivisuutta kaikilta jäseniltä.

Jos kuvaajat piirretään tiheämmin ja laajennetaan hallituksen koko sadaksi (puolieduskunta, kuva 2), vaikutus nähdään selvemmin. 50% osallistumisaktiivisuudella päätösvaltaisuus liikkuu hitaasti kohti 50%:a, mutta ei saavuta sitä. Jos aktiivisuus on hiukankaan yli 50%, päätösvaltaisuus kasvaa nopeasti. Jos se taas laskee hiukankin alle 50%:n, päätösvaltaisuus romahtaa.

Kuva 2 

 

Käytännön johtopäätösten kannalta kannattaa vielä tarkistella pienten hallitusten tapausta tarkemmin, 5% aktiivisuuserojen tarkkuudella (kuva 3).

Kuva 3

Halvaantumistilassa (alle 50% päätösvaltaisuus) ollaan, jos 12 hengen hallituksessa aktiivisuus on alle 55%. Toisaalta hyvään 80% tilaan päästään jo sillä, että aktiivisuus nouse hieman yli 65%:iin. Onkin ilahduttavaa, että juuri tässä välissä aktiivisuuden nostaminen vaikuttaa kaikkein nopeimmin. Pienikin parannus näkyy nopeasti.

Näissä laskelmissa on oletettu, että kaikilla jäsenillä on sama osallistumisaktiivisuus, vaikka käytännössä ihmisten välillä on suuriakin eroja. Lisäksi suureen hallitukseen ajautuu helpommin jäseniä, jotka ovat mukana lähinnä velvollisuudentunnosta ja ryhmäpaineesta. Todennäköiseti aktiivisuus kasvaa pienemmissä hallituksissa, ja erot siis pienenevät tästä.

Käytännössä arviot ovat siis pessimistisiä. Jos 12 hengen hallituksessa edes osa jäsenistä on aktiivisempia kuin 55%, päätösvaltaisuus voi kasvaa nopeastikin. Todellisuudessa kestää hyvin muutaman flegmaatikon, jos siinä on tarpeeksi monta yliaktiivia.Tämän tarkempi mallinnus täytyy kuitenkin jättää harjoitustehtäväksi.

Tämä yksinkertainenkin laskelma antaa joka tapauksessa yllättävän konkreettisia tuloksia. Jos päätösvaltaisuutta halutaan nostaa, kannattaa pyrkiä nostamaan nimenomaan vähiten aktiivisten jäsenten osallistumista. Pienikin parannus heidän aktiivisuudessaan vaikuttaa nopeasti. Jo alimman aktiivisuustason nostaminen kymmenellä prosenttiyksiköllä voi tehdä eron halvaantuneen ja hyvin toimivan yhdistyksen välillä.

 Muita erikoisia matematiikan sovelluksia: WeirdMath

Mielenkiintoinen sivujuonne

Jos menetelmää sovelletaan myös yhden hengen hallituksiin, 50% aktiiviisuudella päädytään siihen, että edes tämä diktaattori ei ole päätösvaltainen kuin puolet ajasta. Tähön voi etsiä erilaisia selitysmalleja: joko diktaattori tyypillisesti on aktiivisempi kuin 50%; yhden hengen hallitus ei ole parillinen; tyypillisellä diktaattorilla on kirkkaita hetkiä vain osan ajasta ja muu elämä menee sumussa; tai sitten matemaattista mallia ei ole järkeä laajentaa yhden hengen hallituksiin.

Käytetty koodi (R-kielellä)

  • KokoMax<-14
  • koko<-seq(2,KokoMax,2)
  • minimi<-seq(1,KokoMax/2)
  • todnak<-seq(0.05,0.95,0.05)
  • paatosvalta<-matrix(data=NA,nrow=length(koko),ncol=length(todnak))
  • for (p in 1:length(todnak)){
  •  for (j in 1:length(koko)){
  •    paatosvalta[j,p]<-pbinom(minimi[j],koko[j],todnak[p],lower.tail=FALSE)
  •  }
  •  plot(koko,paatosvalta[,p],type=”l”,xlim=c(1,KokoMax),ylim=c(0,1))
  •  par(new=TRUE)
  • }
  • title(“Paatosvaltaisuus, p=0.05-0.95”)
  • lines(c(0,KokoMax),c(0.5,0.5),col=”red”)
  • lines(c(0,KokoMax),c(0.8,0.8),col=”magenta”)
  • lines(c(0,KokoMax),c(0.95,0.95),col=”blue”)