Avoin data, Osa 1. Mitä se voisi olla?

Ihmisten välinen kanssakäyminen perustuu arvauksiin tulevasta käyttäytymisestä ja reagoinnista. Avoimen datan suuri mahdollisuus voisi olla juuri ennakoinnissa. Tahtotilan osoittava anonyymi järjestelmä ei oikein tehtynä vaaranna yksityisyyttä tai avaa takaportteja väärinkäytöksille. Päinvastoin, se antaa muille mahdollisuuden varautua ja suunnitella omaa toimintaansa, omien kykyjen ja tilanteen edellyttämällä tavalla.

Zygomatican muissa kirjoituksissa on mietitty avoimen datan mahdollistamia uusia ratkaisuja erilaisiin tilanteisiin. Ottamatta lopullista kantaa itse väitteeseen tuoko avoin data autuuden, en ole varma tietääkö kukaan täsmälleen mistä puhutaan. Seuraavassa pohdin aihetta esimerkkien kautta hieman syvemmälle, termin semantiikkaa ja filosofiaakin sivuten.Mietitään aluksi mitä data on. Normaalissa puhekielessä sanat data, informaatio ja tieto menevät sujuvasti sekaisin. Tietoa (toivottavasti) seuraavat ymmärrys ja viisaus, jotka jätän tässä kirjoituksessa vähemmälle huomiolle. Ymmärrys ja viisaus edellyttävät aikaa ja kokemusta ja voivat vaikuttaa huomattavasti miten yksilöt toimivat eri tilanteissa näennäisesti saman tiedon pohjalta. Normaalissa keskustelussa itse viestin välittyminen ei tavallisesti termien ristiinkäytöstä häiriinny. Tai korkeintaan näkyvät kielenhuollon harrastajien kasvojen punoituksena. Yleensä kuitenkin tarkoitetaan jotain yhteisesti tunnettua asiaa, joka selviää muusta yhteydestä.

Mitä on data?

Puhuttaessa datan avoimuuden puolesta on tärkeää tunnistaa mitä moinen “data” tarkoittaa sekä mitä kaikkea sen halutaan tarkoittavan. Datasta joskus käytetty muoto “raakadata” kuvaa termiä hyvin, joskin se avaa samalla uuden ulottuvuuden sillä raakadata on usein eri asia kuin data. Raakadata on numeroita tai arvoja siinä muodossa, missä ne saadaan mittalaitteelta tai sensorilta. Raakadatan numeerisia arvoja ei ole suodatettu millään tavalla ja voi yksinään olla jopa käyttökelvotonta. Silti se kuvaa puhtaimmillaan tarkastellun kohteen tai jopa sen mittaamiseksi tarkoitetun laitteen sisäistä käyttäytymistä. Tarkastelutaso määrää millä tavalla raakadataa tulee käsitellä, että saadaan käyttökelpoisia tuloksia, varsinaista dataa.

Data ja varsinkin raakadata on puolueetonta, kantaa ottamatonta, usein numeerisista merkeistä koostuvaa, jostain kerättyjä tai mitattuja arvoja. Pelkästään näitä lukusarjoja tarkastelemalla ei voi olla varmuutta mitä ne kuvaavat. Ilman muuta tietoa asiayhteydestä sama jono numeroita saattaa kuvata tietyn henkilöryhmän painoja tai koetuloksia. Raakadatan yhteydessä tulee aina tietää mitä ne edustavat, jotta niitä voidaan käyttää hyväksi. Joskus puhutaan metadatasta, mutta usein numerosarja tarvitsee tuekseen muuta dataa. Kärjistetty esimerkki on Douglas Adamsin kirjassa “Linnunradan käsikirja liftareille”, jossa tietokone antaa pitkän käsittelyn jälkeen vastauksen kysymyksen “mikä on elämän tarkoitus”. Vastaus on 42. Kyseinen vastaus taitaa jäädä koko ihmiskunnalle datan tasolle, sillä se ei anna suoraa vastausta yhtään mihinkään. Sen hyvä puoli kuitenkin on, että ihmiset saattavat pohtia mistä oikeasti on kyse.

Jättäen syrjään tekniset termit, kohina ja integrointi, katsotaan kahta eri esimerkkiä saman raakadatan käyttämisestä. Otetaan tarkastelun kohteeksi auto ja ohjauspyörän kääntäminen. Raakadatana voidaan kerätä ajoneuvon nopeus sekä ohjauspyörän kääntökulma ja kuinka kauan se on käännettynä. Erittäin lyhyellä aikavälillä tarkasteltuna tietoja voidaan käyttää esimerkiksi ajonvakautuksen toiminnan ohjaamiseen, jolloin ratin pienet kääntelyt ovat merkittävä tietolähde. Halutessa kuitenkin tietoa auton ajosuunnasta, moiset mikrokääntämiset eivät ole enää tärkeitä. Tässä  tapauksessa tulee keskittyä kuinka kauan ohjauspyörä on käännettynä tiettyyn suuntaan, jolloin auton kulkusuunta vaihtuu vaikkapa pohjoisesta länteen. Kummassakin tapauksessa voidaan käyttää samaa raakadataa, mutta vasta käsittelyn jälkeen se muuttuu käyttökelpoiseksi. Tässä tapauksessa data on joko auton vakaa eteneminen tai auton kulkusuunta. Etukäteen on mahdoton sanoa kummasta tiedosta joku yksittäinen tekijä saa tarvitsemansa informaation. Siis… Nytkin meni jo epäselväksi onko auton kulkusuunta DATAA jotain tulevaa käsittelyä varten vai jo TIETOA ja INFORMAATIOTA  vastauksena johonkin kysymykseen. Vastaus on, että se voi olla kumpaa tahansa ja selviää vasta käyttöyhteydestään.

Mitä hyötyä on datasta?

Katsotaan vastaavaa päätöksentekoketjua  ja samalla yksittäisen kansalaisen päätöstä mitä pukea päälle seuraavana päivänä. Aluksi pukeutumispäätös saattaa tuntua yksinkertaiselta, ennustettuun lämpötilaan perustuvalta päätökseltä. Meteorologi voi kertoa yhden numeron ja kehottaa valmistautumaan sen mukaisesti. Tuo numero ja kylmyys tai kuumuus ei kuitenkaan ole yksiselitteinen käsite. Suomessa +3 celsiusastetta heinäkuisena aamuna voi olla kylmä ja tammikuussa lämmin ajankohtaan nähden. Kummassakaan tapauksessa yksin jaottelu kylmään tai kuumaan ei kerro mitään  odotusarvosta miten lämpötila kehittyy saati lumi- tai vesisateesta ja kestosta. Sama numero höystettynä lisätiedoilla vuodenajasta ja koordinaateista voi vaihtaa T-paidan untuvatakiksi. Yksi numero kertoo harvoin kokonaisuudesta kaiken tarvittavan, poislukien ehkä jo aiemmin mainittu 42.

Aina johtopäätöksiä tehtäessä tilanteen tekee haastavammaksi kysymys, onko kaikki tarpeellinen data koossa haluttua tulkintaa varten. Esimerkiksi auton kulkusuuntaa määritettäessä kompassi tai kiihtyvyysanturi voisi antaa parempia tuloksia. Mutta jos niitä ei ole käytössä tai haluta asentaa, tulee data kerätä käytettävissä olevilla välineillä. Sama koskee kulkusuunnan vaihtelua mitattaessa ohjauspyörän kääntämistä. On oleellisen tärkeä tietää kuinka suuren muutoksen ratin kääntäminen aiheuttaa. Erityisesti viimeisen kymmenen vuoden aikana on rakennettu sähköisiä ja mekaanisia ohjausjärjestelmiä, joiden avulla ohjauspyörän liikkeiden vaikutus muuttuu eri nopeuksilla tai erilaiset ajo-ohjelmat valittuina. Talviohjelma voi painottaa rauhallista käyttäytymistä ja urheilullinen puolestaan kääntää autoa jo tiukkaankin mutkaan samalla kääntökulmalla. Keskeinen kysymys on siis mitä tietoa tarvitaan johtopäätöksen tekemiseksi, onko kaikki tieto saatu ja onko kaikki tieto varmasti relevanttia ja oikeaa.

Raakadatan pyhyys

Muutettaessa dataa informaation suuntaan varsinkin asiantuntijat ja tiedemiehet saavat tavallisen kansan hulluuden tai ainakin raivon partaalle. He eivät välttämättä keskity kertomaan datan selvästi osoittamaa asiaa, vaan haluavat kertoa ja varmistua että data on kerätty, käsitelty ja luokiteltu oikein ja mitä niiden puitteissa on turvallista sanoa. Jos ei voi olla varma miten numerot on saatu, ei voi olla täysin varma myöskään sen perusteella kerrotuista johtopäätöksistä. Esimerkiksi lämpötilaa mitattaessa on iso merkitys, onko mittari ikkunan sisä- tai ulkopuolella. GPS-koordinaattien mukainen ero saattaa olla vain viisi senttimetriä, mutta vaikutus lämpötilaan voi olla kymmeniä asteita säätilaa tarkasteltaessa.

Tieteellisen työn ja tutkimuksen periaatteisiin kuuluu avoimuus hyvässä ja pahassa. Tämä lause avaa kokonaan oman pohdiskeluketjunsa, johon palaamme myöhemmissä kirjoituksissa. Hyvin kirjoitetusta raportista tulee selvitä millä tavalla numerot tuottanut koe on järjestetty ja sen mittalaitteet asennettu. Samoin alkuperäinen data tulisi olla saatavilla muokkaamattomassa muodossa, ilman sille tehtyjä luokitteluita tai muita johtopäätöksiä. Periaatteena voidaan pitää alkuperäisen datan pyhyyttä ja mahdollisuutta aina palata siihen. Tarpeen voi aiheuttaa myöhemmin vialliseksi tai väärin kalibroiduksi havaittu sensori. Tällä tavalla koe on toistettavissa uudelleen pyrittäessä ymmärtämään itse ilmiötä.

Järjen käyttö on suotavaa

Mikä voisi olla sopiva avoimen datan taso menemättä liiallisuuksiin? Auton katolle tuskin tarvitsee laittaa näyttöä osoittamaan ohjauspyörän kääntökulmaa, se selviää lähes aina auton käyttäytymisestä ilman sensoreitakin. Tällainen mitattu data voitaisiin helposti laittaa avoimeen jakeluun, mutta olisiko siitä mitään todellista hyötyä? Sama kysymys tulee esille esimerkiksi laivaonnettomuuden analyysissä, minkä tason TIETO avoimen datan avulla olisi voinut auttaa joko onnettomuuden välttämisessä tai pelastusoperaatiossa. Tarkka sensoritieto voi toki olla tarpeen onnettomuuden syiden selvittämisessä, mutta ei aina etukäteen niiden välttämisessä.

Sensorit ja mittarit voivat antaa tietoa jo tapahtuneista asioista, ne eivät suoranaisesti ennusta. Ennustavia järjestelmiä on toki rakennettavissa, sellaisia ovat muun muassa auton käyntinopeusmittarin punainen alue tai vanhojen höyrykoneiden rajoittimet ja kielletyt alueet. Jos kyseiselle alueelle mennään, koneen rikkoutuminen on todennäköistä. Maa-, vesi- tai ilmaliikenteessä tällainen datan kertominen ei itsessään ole keskeistä. Kanssa-autoilijoilta puuttuu halu, aika ja mahdollisuudet analysoida mitä viereisessä kulkuneuvossa kohta ehkä tapahtuu. Pienten lasten vanhemmat ja isojen yritysten projektipäälliköt tietävät, että aina täytyy varautua yllättäviinkin asioihin. Onnettomuuksia kutsutaan onnettomuuksiksi ihan syystä ja siksi niistä ei pystytä ilmoittamaan etukäteen. Ja jos pystytään, ne eivät ole enää onnettomuuksia, koska ne eivät ole enää ennalta-arvaamattomia sillä niihin olisi voitu varautua tai jopa estää.

Kuka tekee, mitä aikoo?

Mikä olisi sitten oikeanlainen informaatio, mitä tiedottaa ympäristöön jos pelkkä data tai edes tieto nykytilasta ei riitä? Yksinkertaisin keino lienee pyrkiä antamaan tietoa kuljettajan tai aluksen kapteenin tulevista aikomuksista. Tämän perusteella muut voivat suhteuttaa oman toimensa seuraavaan todennäköiseen tapahtumaan. Jokapäiväisessä liikenteessä auton suuntavilkku on tulevasta suunnitelmasta kertovaa avointa dataa. Se pystyy kertomaan kuljettajansa aikomuksen ja sen näkevät tiedon vaikutus- ja tarvepiirissä olevat. Samalla suuntavilkku ei vaaranna kenenkään yksityisyyttä eikä turvallisuutta, minkä mikä tahansa avoimeksi julistettu data voi saada aikaiseksi. Käännyttäessä ei välity ympäristöön tietoa Möttösen perheen lomamatkasta ja tyhjillään olevasta kodista arvoesineineen. Se kertoo vain, että joku Toijota Korolla aikoo kääntyä seuraavasta risteyksestä oikealle. Oman yllätyksensä aiheuttavat kuljettajat, joiden mielestä reitinvalinta ei muille kuuluu. He, jotka jättävät vilkkunsa käyttämättä.

Omanlaista viestiä voidaan antaa myös hätävilkuilla. Se kertoo, että tarvitsee apua tai vähintään muiden tulee varoa jotain. Tämä viestii ympäristöönsä tarpeesta olla tarkkaavainen. Costa Concordian tapauksessa laiva olisi voinut laittaa “hätävilkut päälle” jo aiemmin viestimään, että kaikki ei ole enää täysin normaalia. Tällainen olisi tietenkin mahdollista rakentaa automaattiseksikin, jossa reitiltä poikkeaminen sytyttää hätävilkut, jotka kapteenin ja perämiehen täytyy kuitata merkkinä tietoisesti tehdystä toimenpiteestä. Käytännön esimerkkinä jälleen automaailmasta jarruvalojen tai hätävilkkujen nopea vilkuttaminen kovan jarrutuksen yhteydessä. Tällöin auton kuljettaja voi keskittyä omaan tehtäväänsä, mutta ympärillä olevat autoilijat saavat silti tietoa poikkeuksellisesta tapahtumasta ja pystyvät varautumaan siihen. Costa Concordian tapauksessa tietoa ongelmista pidätettiin, mutta pieniä vinkkejä voidaan silti antaa jääräpäisimmänkin kapteenin ylitse. Autollakin hätäjarrutus on hätäjarrutus kuljettajan kyvyistä ja tarkoitusperästä riippumatta.

Avoimuus ja ennakointi

Lähes kaikki ihmisten välinen kanssakäyminen perustuu oletukseen tulevasta käyttäytymisestä tai reagoinnista. Ehkä avoimen datan suuri mahdollisuus on juuri näissä anonyymeissä tulevan toiminnan tai tahtotilan osoittavissa järjestelmissä, jotka eivät vaaranna yksityisyyttä ja avaa takaportteja väärinkäytöksille. Painvastoin, ne antavat muille mahdollisuuden varautua ja suunnitella oma toimintansa omien kykyjen ja tilanteen edellyttämällä tavalla.

Muita aihetta sivuavia kirjoituksia: täällä.