Kuinka pitkiä sanoja saa ilmaiseksi?


Luen kohtuu ahkerasti sekä Turun Sanomien, että Helsingin Sanomien ilmaista verkkoversiota. En melkein koskaan lue urheilusivuja. Silloin, kun luen niin yleensä kyseessä on F1-uutisointi tai kiinnostuksen on herättänyt jonkun Suomalaisen toilailut maailmalla.

Minulle on jäänyt käsitys jonka mukaan ainakin englannin kielessä pelkästään lyhyiden sanojen käyttöä pidetään jonkinlaisena pöhlöyden merkkinä. Onko käsitykseni oikea ja, jos niin onko noin? En tiedä, eikä sen niin väliä. Halusin kuitenkin vertailla sanojen pituuksia joten kirjoitin skriptin jolla voi laskea mikä on keskimääräinen sanan pituus tekstissä.

Taulukko 1.

Taulukossa 1 lähteet ovat seuraavat: UM=Ulkoministeriö, TS=Turun Sanomat (ei urheilu), HS=Helsingin Sanomat (ei urheilu), IL=Iltalehti, TS_U=TS Urheilu, HS_U=HS Urheilu, WL=Lajitelma tieteellisiä tekstejä sanan pituudesta luonnollisissa kielissä ja pari muuta vastaavaa, UM_en=Ulkoministeriö Englanniksi osin samat aiheet kuin suomeksi, PH=lajitelma fysiikan alan tieteellisiä artikkeleita Englanniksi. *_c on merkkinä korjauskertoimen, c=UM/UM_en=1.56 käytöstä. Ajatus on tehdä englanninkielisten tekstien pituuksista vertailukelpoisia.

Jokaista taulukon riviä ja siten lähdettä varten etsin kymmenen tekstiä, kopioin verkkosivun tai pdf:n tekstiosan libreofficeen ja tallennin tekstinä jolloin mukaan tarttuneet kuvat html-tagit ym. hävisivät. Vaihdoin “‘“ ja “:” merkit merkkiin “a”, jottei tulisi Suomen kieleen paljon yhden kirjaimen pituisia sanoja. Tuloksena olevasta tekstistä laskin sanojen pituudet. Systeemi ei ole mitenkään täydellinen ja saattaa sisältää virheitä. Esimerkiksi fysiikan teksteissä vilisee välillä lyhennysmerkintöjä ja ne saattavat vaikuttaa tuloksia vääristävästi.

On ilahduttavaa huomata ulkoministeriön tuottavan verorahoilla kaikkein pisimpiä sanoja. Ilmaiseksi ei saa aivan samaa tavaraa: TS tarjoaa vähän pidempää kuin HS, mutta pieni ero saattaa olla sattumaa. Koko harjoituksen tarkoitus oli tietysti ilakoida urheilujournalismin kustannuksella ja se näyttää onnistuneen: TS:n urheilujuttujen sanojen keskimääräinen pituus on huimat 0.36 kirjainta lyhyempi kuin muiden haaviin tarttuneiden. HS tarjoaa muutenkin lyhyempiä sanoja, mutta urheilusta innostuneita ruokitaan hesarissa vielä melkein 0.8 kirjainta lyhyemmillä kuin muita juttuja lukevia.

Ennakkoluulojen ja edellisten tulosten perusteella  IL:n tulos ei yllätä, se on samaa tasoa TS:n urheilusivujen kanssa ja 0.64 merkkiä lyhyempi kuin UM:n tuotokset.

Englannin kielessä sanat ovat lyhyempiä mm. yhdyssanojen melkein täydellisen puuttumisen vuoksi. Käyttämällä brutaalisti ulkoministeriön kahdella kielellä kirjoitettuja juttuja kalibrointina nähdään tieteellisten tekstien olevan melko pitkäsanaisia. Fysiikka pitää perää, mutta korjaan tuloksen mieleisekseni väittämällä runsaan lyhenteiden käytön vääristävän lukuja.



Kuvio 1. Sanan pituus ja normalisoitu lukumäärä. Lähteen tietyn pituisten sanojen määrä on normalisoitu lähteen (UM, TS, ym.) sanojen kokonaismäärällä, jolloin jokaisen käyrän pinta-alaksi tulee yksi ja vertailu helpottuu.

Kuviosta 1 on selvästi nähtävillä puutos kolmikirjaimisissa Suomen kielen sanoissa. Suomenkielisten tekstien yhdyssanat näkyvät vastaavien käyrien paksuna häntänä. Lisäksi voidaan havaita urheilutoimittajien jostain syystä ihastuneen kuusimerkkisiin sanoihin selvästi muita toimittajia enemmän.

Vain hieman vakavammin voidaan todeta HS:n tarjoavan tässä otoksessa lähes 1.5 kertaa pidempiä uutisia ja melkein 1.4 kertaa pidempiä urheilujuttuja. Uutisissa IL on selvästi lyhyempi kuin TS ja HS.

Pienistä otoksista on voinut seurata esim STT:n sähkeiden yli edustus jossakin lehdessä, joten tuloksiin on syystä suhtautua jokseenkin epäillen.

Tämän kirjoituksen sanojen keskipituus on 6.89.

Translate »