Search engines & small languages

An old project from about 2012.

How to use small languages to study search engines / Millä tavoin pieniä kieliä voisi hyödyntää hakukonetutkimuksessa?

Search engines is are very opaque; it is difficult to know what to is happening, how to study it, and how to interpret the results. Even in a field field filled with more professional researchers, we feel there are some niches to be explored. We have currently focused on Finnish, as it provides an interesting “laboratory”: a small language with a unique grammar in a high-tech and highly networked country. The amount of raw material is huge.

Hakukoneet ovat käytännössä läpinäkymättömiä: on vaikea tietää mitä tapahtuu, miksi, miten sitä pitäisi tutkia, ja miten tulkita. Alue on täynnä tutkimusta, mutta uskomme löytävämme pieniä erikoisalueita itsellemme. Keskitymme tässä vaiheessa suomen kieleen, koska Suomi on loistava “laboratorio”: pieni ja kummallinen kieli kehittyneessä ja verkostoituneessa maassa. Raakamateriaalia on valtavasti. 

Aliprojekti: “Onko Google ainoa käyttökelpoinen hakukone suomen kielellä?”[Is Google the only usable search engine in Finnish?]

Täysi raportti / full report (Finnish):  Download the report (pdf)

Haluamme tutkia, onko totta että “Google on ainoa käyttökelpoinen hakukone suomen kielellä”. Tilastojen valossa näin todella on; Googlen osuus Suomessa on noin 98%.  Tämä on käytännössä monopoli, ja sille on syytä etsiä syitä. Lausetta e voitu tutkia analyyttisesti, joten kysymyksenasettelu rajattiin seuraavasti: “Google on merkittävästi parempi hakukone kuin Bing suomen kielellä haettaessa”. Tutkimuksessa vertailtiin osumamääriä, jotka saatiin kun tiettyjä hakusanoja laitettiin Googlen ja Bingin suomalaisversioihin. Todettiin, että Bing palauttaa merkittävästi vähemmän tuloksia kuin Google, keskimäärin alle 10% Googlen osumista. Lisäksi vaikuttaa siltä, että Google reagoi nopeammin nouseviin uutisaiheisiin. Suomen kielen erikoispiirteistä löytyy ainakin kaksi ilmiötä, jotka vaikuttavat hakuihin. Google korvaa skandinaaviset kirjaimet (ä,ö) systemaattisesti yleisesti käytetyillä vastineilla (a,o). Bing sen sijaan ei toimi yhtä systemaattisesti, ja tältä osin voidaan sanoa että Bingin haku ei toimi ainakaan niin kuin on totuttu. Suomen kielessä tavalliset yhdyssanat tuottavat molemmille hakukoneille lieviä ongelmia.Tulokset eivät suoraan kerro mitään hakukoneiden laadusta. Osumien määrä on kuitenkin se subjektiivinen mittari, jota uskomme useimpien käyttävän  määrittelemään kuinka “hyvä” hakukone on. Tällä mittarilla Bing jääkin dramaattisesti jälkeen Googlesta. Lisäksi skandien käsittely toimii Googlessa johdonmukaisemmin. Vaatisi tarkempaa sisältöanalyysiä jotta voitaisiin arvioida onko Google “oikeasti” parempi hakukone; näiden tulosten perusteella on kuitenkin helppo ymmärtää, miksi yleisö näin ajattelee.Googlen osuus maailmanlaajuisesti on noin 90%. Muutamaa poikkeusta lukuunottamatta se on kaikissa Euroopan maissa yli 90%, usein yli 96%. (Vertailun vuoksi USA:ssa osuus on 80%, Venäjällä n 60%, Kiinassa n 30%). Vastaava tutkimus olisi siis hyödyllistä tehdä myös muilla pienillä kielillä.

English summary: We studied the statement “Google is the only feasible search engine for searches in Finnish”. The claim is supported by the 98% market share Google has in Finland. To analyze the question, we studied results from searches made in Finnish by Google and Bing (which with Yahoo the only credible alternative). We found that in terms of number of hits, Google is crushingly dominant, with Bing finding typically less than 10% of the results. Bing seems especially “slow” in finding trending news, which is a serious drawback for a search engine. It is apparent that Google is reasonably well optimized for some quirks of the Finnish language, while Bing is not. The clearest difference is in the processing of Scandinavian characters (ä,ö), where Bing’s performance is unpredictable. Both search engines have some problems with another Finnish quirk, compound words, but neither is clearly superior. Other potential differences were found relating to the agglutinative character of Finnish grammar, but this could not be studied systematically so far. This study did not analyze the “true” quality of Bing vs Google searches at the content level. However, the statistical results alone are sufficient to explain why Bing is not generally considered a viable option in Finnish. Such dominance of a small language by a single search engine should be considered a national concern. The situation is very similar for other small European and other languages, and it is recommended that similar studies be performed in other countries.

 

One thought on “Search engines & small languages”

Leave a Reply

Ratkaisuihin ongelmia / Solutions in search of a problem

%d bloggers like this: