Tumpeloinnin matematiikkaa

Tunarointi ja tilastollinen merkitsevyys: kaksi kaunista asiaa, jotka yhdistettynä ovat vielä kauniimpia. Törmäsin hiljattain alla olevaan meemiin. Meemi on puutteellinen ja epäonnistunut matemaattisesti — mikä toki tekee siitä metatasolla vieläkin hienomman — mutta sen pohtiminen johtaa yllättävän monipuolisiin johtopäätöksiin.

Meemiin sisältyy kaksi erillistä kysymystä, joista toinen on periaatteessa suoraviivainen, toinen äärimmäisen monipolvinen.

Mitä tarkoittaa tilastollinen merkitsevyys?

Continue reading Tumpeloinnin matematiikkaa

Suomalaiset pierutrendit

Pieru naurattaa aina, väitetään. Pitääkö väite paikkansa?  Trendianalyysi kyseenalaistaa tämän. Tarkempi penkominen kuitenkin paljastaa kiehtovia yhteiskunnallisia asioita.

Tein Google Trends-haun sanalle “pieru“. Kuvaajat normalisoidaan niin, että korkein aikajaksolle osuva luku on aina 100. Kuvaajien tulkinta ei ole täysin yksikäsitteistä, mutta periaatteessa ne kuvaavat sitä, miten suosittu hakusana on ollut kaikkiin hakuihin verrattuna.

Pieru

Continue reading Suomalaiset pierutrendit

Työttömien mahduttamisesta (perjantaikirjoitus)

 

“Miten Suomen 368 100 työtöntä työnhakijaa saadaan tungettua niihin 16 878 avoimeen työpaikkaan?” parahti eräs tuttavani hiljattain.  Voin lohduttaa, että tämä näyttäisi olevan työttömyysongelmista pienin. Jokaiseen työpaikkaan pitäisi siis saada 22 työtöntä. Tämä onnistuu helposti.

Työikäisen suomalaisen miehen keskimääräinen painoindeksi on 27.1 kg/m² ja keskipituus 178 cm, jolloin painoksi tulee noin 86 kg. Ilmatäytteisen ihmisen tiheys on tunnetusti suunnilleen sama kun veden (1 Mg/m³), jolloin tilavuus olisi suunnilleen tuo sama 86 litraa.

Varsinainen lihasmassa on huomattavasti raskaampaa. Avoimen kirjallisuuden perusteella on kuitenkin vaikea päätellä, kuinka suuri ihmisen tilavuus on, jos ylimääräinen ilma poistetaan esimerkiksi oksasilppuria käyttäen. Kokemuspohjaisesti oletan, että tilavuus on jossakin 70 litran paikkeilla.  Joka tapauksessa 22 työttömän yhteistilavuus on reilusti alle 2 kuutiometriä.

Nämä 22 työtöntä saadaan siis helposti mahtumaan biotuubiin, jonka pinta-ala on neliömetri ja korkeus 1.5-2 metriä. Tehokkaassa flexi-officessa työntekijätiheys voi helposti nykyään olla 1 per neliömetri. Nuo 368,100 työtöntä mahtuvat siis aivan mainiosti 16,878 työntekijän vaatimaan tilaan.

Tämä on itse asiassa ällistyttävän pieni pinta-ala. Aikoinani olen työskennellyt Salossa teollisuuskompleksissa, jossa oli parhaimmillaan  3000-5000 työntekijää. Meillä oli kuitenkin kohtuuttoman väljät tilat — kubiklen koko oli enemmän kuin 2×2 metriä, ja mm WC:t olivat isot. Kaikki Suomen työttömät saisi aivan helposti mahdutettua tähän yhteen ainoaan kompleksiin — joka käsittääkseni on nykyään vieläpä tyhjillään.

Ongelmia ei pidä turhaan nähdä siellä, missä niitä ei ole. Tämä ratkeaa helposti.

(Kirjoittaja on ollut akateeminen pätkä- ja silpputyöläinen vuodesta 2012. Lisää vastaavia kirjoituksia: Perjantaikirjoitukset. Lisää asiaa työttömyydestä, osa vakavaa osa ei: Työttömyys. Lisää epämääräistä laskentaa: WeirdMath.)

Waring_forside2_product_large

 

 

EU-vaalien matematiikkaa

Analyyttisyyden skalpelli leikkaa sentimentaalisuuden rasvakerrosta, kun dissektoin seuraavaa EU-vaaleihin liittyvää väitettä: Muista, että jos et äänestä, tuet sitä, jonka kanssa olet eniten eri mieltä. Ja se nyt vain on tyhmää“.  Koska sosiologiassa tulee suojata väitteen tekijän anonymiteettiä, ja koska kyseessä on (vielä) kaverini, käytän väitteen esittäjästä vain nimikirjaimia JK (Linkedin-profiili).  Pitääkö väite paikkaansa millään reunaehdoilla?

Tarvittava malli on tällä kertaa varsin yksinkertainen. Oletetaan, että radikaalisuus on normaalijakautunutta. Tällöin radikalisuusjakauman todennäköisyysfunktio on

Screen shot 2014-05-15 at 16.39.35missä σ on radikaalisuuskerroin. Tämä on toimiva määritelmä, jossa voidaan katsoa että yli  2σ päässä olevat ovat äärisiipeä.

Oletetaan nyt, että vasemmasta laidasta poistetaan yksi ääni. Tämä on ekvivalentti sen kanssa, että oikea laita saa yhden äänen lisää. Miten tämä ääni jakautuu? Odotusarvo saadaan laskettua, jos tehdään sijoitus

Screen shot 2014-05-15 at 16.41.40Tällöin lopputulos on

Screen shot 2014-05-15 at 16.40.11

Normalisoidaan yksinkertaisuuden vuoksi radikaalisuusaeste niin, että σ=1. Riippumatta siitä mikä äänestämättä jättävän radikaalisuusaste on, vastapuoli saa siis keskimäärin lisä-ääneen jonka radikaalisuusaste on 1/√2π, eli noin 0.4.

Väite pitäisi siis muotoilla suunnilleen näin:  “Muista, että jos et äänestä, tuet keskimäärin henkilöä jonka radikaalisuusaste on 0.4. Mikäli olet tätä maltillisempi, vastapuoli radikalisoituu. Ja se nyt vain on tyhmää. Jos taas olet sitä radikaalimpi, estät mahdollisuuden saada tavoitteitasi läpi kärijistämällä vastakkainasettelua. Ja se nyt vain on tyhmää.”

Myös politiikka vaatii tarkkuutta.

Lisää matematiikan toisinkäyttöä: WeirdMath

Screen shot 2014-05-15 at 17.02.26Lähde: Wikipedia

 

 

 

 

 

 

Datapisteiden synkeän elämän julmaa matematiikkaa

Joulun kunniaksi olen pohtinut, miten lannistavaa olisi olla datapiste. Yksinkertaisessakin tutkimuksessa voi tulla miljoonia datapisteitä. Lopuksi niistä survotaan kaava, joka on muotoa Y= A + B*X1. Jokainen piste haluaisi päästä A:ksi A:n paikalle; vain yksi pääsee, muut tuomitaan ikuiseen kadotukseen. Mitä elämää se sellainen oikein on?

Ajatus on tullut mieleen, kun olen murskannut tämänhetkisen projektini numeroita. Projektin päämäärä ja yksityiskohdat eivät ole tässä olennaisia (ovatko ne muuallakaan, on makukysymys).  Siinä ajelutettiin noin sata ihmistä ajosimulaattorin läpi. Jokainen ajo kesti lähes tunnin. Dataa on tallennettu kymmenen kertaa sekunnissa.

Koska simulaattoriaika on kallista, ajosuorituksista tallennettiinn kaikki mahdollinen. Ajajasta tallennettiin noin kolmekymmentä parametriä. Lisäksi pidettiin kirjaa siitä, missä muut simulaation objektit ovat. Objekteja on noin viisikymmentä, ja kaikista tallennettiin kahdeksan parametriä. Jokaisella rivillä oli siis yli 500 numeroa. Kymmenen kertaa sekunnissa tunnin ajan tarkoittaa, että jokaisesta kuskista tallennettiin lähes 20 miljoonaa numeroa.

Yhteensä projektin aikana kerättiin siis lähes 2 miljardia datapistettä.

Näiden miljardien tragedia on siinä, että melkein kaikki niistä tapettiin ennen kuin ne edes näkevät päivänvalon. Kuskin toimintaa mittaavat 30 parametriä sentään vaivauduttiin ottamaan talteen. Muista objekteista sen sijaan tallennettiin vain etäisyystieto; yhteensä 50 numeroa riviltä. Ensimmäisen teurastuksen läpäisi siis vain 10% luvuista, eli 90% joutui heti datapisteiden taivaaseen. 200 miljoonaa datapistettä jäljellä.

Käyttökelpoisia tienpätkiä oli lopulta noin neljäsosa: 50 miljoonaa datapistettä. Tässä vaiheessa alkoi selvitä, mitkä parametrit ylipäätään ovat analyysissä tärkeitä. Viisikymmentä tallannetua parametriä voitiin tiivistää hieman yli kymmeneen. Kymmenen miljoonaa datapistettä jäljellä. Näiden tallennusvälilä pystyttiin vielä harventamaan, pyöristämällä sijainnit lähimpään täyteen metriin. Varsinaiseen dataprässiin päätyi enää nelisen miljoonaa datapistettä (400,000 mittausta, jokaisessa 10 parametriä).

Prässissä kokeiltiin erilaisia menetelmiä, mm lineaarisia monimuuttujamalleja. Loppujen lopuksi kuitenkin yksinkertaisin oli parasta: kuskit keskiarvoistettiin, niin että sadasta koehenkilöstä saatiin survottua yksi “keskimääräinen” kuski. Noin 99% datapisteistä koki siis irvokkaan keskiarvoistuskuoleman, menettäen kaiken sen yksilöllisyyden joka tekee numerosta numeron.

Tässä vaiheessa jäljellä oli siis 4000 mittausta, jokaisessa kymmenen parametriä. Pyörittely osoitti, että näistä vain yksi oli lopulta tärkeä (riippuva muuttuja Y), ja sen pystyi parhaiten selittämään kaksi riippumatonta muuttujaa (X1 ja X2).

Koko tutkimustulos tiivistyi siis kaavaksi

  Y = A + B*X1 + C*X2.

Toisin sanoen, tehtäväksi jäi määritellä kolme vakiota (A,B,C). Tämä siis oli koko prosessin loppputulos: kolme numeroa. Alun kahdesta miljardista. Ja tämä kaikki vain siksi, että pari akateemista nörttiä saisi taas yhden julkaisun lisää.

Jotta nöyryytys olisi täydellinen, näissä vakioissa on vain kaksi merkitsevää desimaalia, kun alkuperäinen data kerättiin vähintään kuuden merkitsevän desimaalin tarkkuudella. Numero on onnellinen, kun se on tarkka; jokaisen desimaalin menetys on kuin kadottaisi raajan.

Voin verrata tätä suoraan omaan elämääni. Tilastojen perusteella maailmassa on noin 3.5 miljardia työikäistä ihmistä, eli vajaa kaksi miljardia miestä. Tässä kilpailussa meidät laitettaisiin toistuvasti valtavan tehosekoittimen läpi. Häviäjät valutettaisiin viemäriin, voittajia mössättäisiin taas uudelleen. Lopussa papukaijamerkin saisivat ne kolme, joista on vielä jotakin jäljellä.

(Teoriassa voisi toki ajatella, että palkinnoksi jäisivät ne lähes kaksi miljardia työikäistä naista jotka nyt olisivat vapailla markkinoilla. Mutta moniraaja-amputaatiohalvaantunelle se on lähinnä akateeminen ilo).

Oma elämä ei tunnukaan enää yhtä kurjalta, kun tätä miettii. Yhtä mitättömältä toki. Mutta on silti parempi olla yksi joskus osittain terve Ö monien joukossa kuin ainoa täysrampa A ei kenenkään joukossa.

Lisää outoa matematiikkaa: WeirdMath.

 

Translate »