Joukahainen > Ohjeita > Oikolukusanaston kehittäminen

Tämä ohje antaa yleiskuvan siitä, millä periaatteilla Voikko-oikolukujärjestelmän sanastoa kehitetään. Tämä on ensisijassa näkemyksellinen opas, jonka tarkoitus on ohjata oikoluvun kehittäjiä samoihin päämääriin. Tässä ohjeessa sanalla oikoluku viitataan nimenomaan Voikon oikolukuun. Muiden oikolukujärjestelmien lähtökohdat voivat olla toisenlaiset.

Mikä on oikoluvun tarkoitus?

Oikoluvun ensisijainen tarkoitus on tunnistaa nykysuomen yleiskielisiä sanoja. Toiseksi oikoluku pyrkii parhaansa mukaan estämään käyttäjää tekemästä kielivirheitä. Oikoluvun kehittäminen kiteytyy periaatteessa vain näihin kahteen tavoitteeseen: oikein kirjoitetut sanat tunnistetaan, väärin kirjoitettuja ei. (Tarkkaan ottaen tietokonepohjainen oikolukujärjestelmä ei tiedä, onko sana kirjoitettu oikein. Oikoluku vain tarkistaa, löytyykö sana sen omasta sanastosta vai ei.)

Oikoluvun tarkoituksena ei ole tunnistaa mahdollisimman paljon sanoja. Nopeasti ajatellen saattaisi ehkä tuntua, että hyvä oikolukuohjelma tunnistaa kaikki oikein kirjoitetut sanat. Kirjoittajan näkökulmasta voi tuntua mukavalle, jos tekstinkäsittelyohjelmalla kirjoitetussa tekstissä ei näy lainkaan punaisella alleviivattuja sanoja. Se antaa kuitenkin virheellisen kuvan oikeinkirjoituksesta. Kaikki se, mitä voidaan kirjoittaa, ei ole suositusten mukaista yleiskieltä. Oikoluku, joka sallii kaiken, on yhtä hyödyllinen kuin ei oikolukua lainkaan. Ei siis kannata nähdä suurta vaivaa päästäkseen lähes nollatilanteeseen. Harkitulla sanaston kehittämisellä päästään parempiin tuloksiin.

Sanaston kehittämisen periaatteet

Maailma on täynnä sanoja. Joitakin sanoja käytetään hyvin usein, joitakin harvemmin ja joitakin tuskin koskaan. Oikoluvussa tarpeellisimpia ovat usein käytetyt sanat. Harvinaisemmat sanatkaan eivät välttämättä ole haitaksi mutta joskus ne voivat olla. Sanoja, joita ei juuri koskaan käytetä, ei tarvita oikoluvussa, ja ne ovatkin todennäköisesti enemmän haitaksi kuin hyödyksi.

Harvinaisten sanojen mahdollinen haitta oikoluvun kannalta liittyy siihen, että mitä enemmän sanastossa on sanoja, sitä todennäköisemmin joidenkin sanojen taivutukset tai yhdyssanatilanteet muistuttavat joitakin toisia sanoja. Tästä seuraa tilanteita, jossa vahingossa tehty kirjoitusvirhe tekeekin sanasta jonkin toisen sanan. Kirjoittajan näkökulmasta oikoluku siis tavallaan hyväksyy kirjoitusvirheen. Tältä ei voida kokonaan välttyä, koska on äärettömästi tilanteita, joissa jokin kirjoitusvirhe voi muodostaa oikean sanan. Asiaa kannattaa kuitenkin pohtia, jos sana on hyvin harvinainen. Kuvitellaan esimerkiksi, että on olemassa jokin kaakkoisaasialainen soitin, jonka nimi perusmuodossaan kirjoitetaan samalla tavalla kuin jokin suomen kielen sana mutta se taipuu eri tavalla (ilman astevaihtelua). Tällaista vieraskielistä sanaa ei kannata oikoluvun sanastoon lisätä, koska useimmat kirjoittajat eivät sanaa edes tunne ja se tuottaa väärän näköisiä taivutusmuotoja suomen kielen sanaan nähden.

Ei ole olemassa selvää ohjetta siihen, mikä sana on tärkeä, riittävän yleinen tai muulla tavalla sopiva oikolukuun lisättäväksi. Jos on käytössä laajoja, suomenkielistä tekstiä sisältäviä tietokantoja, niistä tehdyt sanojen yleisyyslaskelmat ja muut vertailut voivat antaa suuntaa valinnalle. Usein päätös kuitenkin perustuu omaan harkintaan. Tärkeää onkin muistaa, että oma (ja muiden) kielikorva kuulee silloin tällöin väärin. Kielenkäyttöön liittyy paljon yleisiä väärinkäsityksiä ja luuloja. Oikoluvun sanaston kehittäminen vaatii jatkuvaa sanojen oikeinkirjoitukseen ja taivutukseen liittyvää tutkimista.

Sanan tärkeyttä arvioidessa on kielikorvan ja tutkimisen lisäksi hyvä huomioida myös asia, jota kognitiivisessa psykologiassa kutsutaan saavutettavuusheuristiikaksi. Kyseessä on yleinen ja sinänsä luonnollinen päättelyvirhe, jossa valinta perustuu vain itselle ensiksi mieleen tuleviin asioihin. Oikoluvun sanaston kehittämiseen sovellettuna se voi tarkoittaa, että jos harrastat esimerkiksi tietotekniikkaa, saatat ajatella, että monet tietotekniikkaan liittyvät sanat ovat todella yleisiä ja että ne on tärkeää saada oikolukusanastoon. Alueellinen vääristymä voi tulla siten, että henkilö pitää oman kotiseutunsa sanastoa (paikannimiä tai aluepuhekieltä) muita tärkeämpänä. Sinänsä asiantuntemus on rikkaus; täytyy vain muistaa, että oikoluvun perussanastoa kehitetään yleiseen käyttöön.

Mitä oikolukusanastoon voi lisätä?

Ensisijaiset

Seuraavassa on listattu suurin piirtein tärkeysjärjestyksessä, minkä tyyppisiä sanoja oikolukuun lisätään ja mitä täytyy samalla huomioida. Näitä ohjeita noudattamalla sanastoon pääsee todennäköisesti lipsahtamaan vähemmän virheitä ja oikoluvun laatu saadaan pidettyä korkealla. Sanan oikeinkirjoituksessa ja taivutuksessa täytyy aina olla tarkkana. Sitä ei yleensä ole mainittu erikseen.

  1. Nykysuomen yleiskieliset sanat. Nykyaikana yleisesti käytössä olevia suomen yleiskielen sanoja voi lisätä vapaasti. Kotimaisten kielten tutkimuskeskuksen kielenhuolto-osasto, nk. kielitoimisto, antaa suosituksia kielen käytöstä. Voikon sanaston kehittämisessä pyritään noudattamaan niitä. (Vanha, lähes käytöstä poistunut sanasto on toissijaista.)

    Suomen kielen sanakirjoja voi käyttää apuna, jos haluaa varmistaa, kuuluuko sana yleiskieleen. Sanakirjoissa saattaa olla myös tietoa sanojen taipumisesta. Muista kuitenkin, että laaja sanakirja on luettelo- tai tietokantasuojan alainen, ks. tekijänoikeuslain 49. §. Se tarkoittaa, että sanakirjasta ei saa ilman lupaa järjestelmällisesti kopioida sanoja eikä niihin liittyviä lisätietoja. Yksittäisten sanojen tarkistaminen on tietenkin sallittua. Katso tekijänoikeuteen liittyviä ohjeita tämän dokumentin kohdasta ”Mitä ei saa tehdä?”.

  2. Lähes yleiskielisiksi vakiintuneet arkikielen sanat. Harkitusti voi lisätä yleisimpiä arkikielen sanoja, kuten lenkkari ’lenkkitossu’ tai tintti ’tiainen’. Huomioi kuitenkin edellä mainittu saavutettavuusheuristiikka. Omassa ja oman lähipiirin kielenkäytössä asiat voivat vaikuttaa yleisemmiltä ja vakiintuneemmilta kuin ne todellisuudessa ovatkaan. Yleisyys ei myöskään välttämättä tarkoita, että sanan käyttö olisi suositeltavaa. Sanojen lisäämisestä voi aina keskustella muiden kehittäjien kanssa.

  3. Yleisimmät suomalaiset paikannimet ja henkilöiden nimet. Suomen paikannimet ja henkilöiden nimet ovat melko pysyviä, ja tässä mielessä niiden lisääminen oikolukusanastoon on perusteltua. Jokaista niemeä ja notkoa ei sanastoon kuitenkaan lisätä, vaan perusteena käytetään harkintaa nimen yleisyydestä kielenkäytössä. Suomenkielisissä teksteissä esiintyvät pääasiassa kuntien ja henkilöiden nimet. Muut luonnon paikannimet ovat harvinaisempia.

  4. Muita yleisiä ja pitkäikäisiä suomalaisia erisnimiä. Harkitusti ja hyvin perustein myös muita erisnimiä voi sanastoon lisätä. Tällainen on esimerkiksi nimi Finlandia. Tärkeipänä perusteena oikoluvun kannalta lienee sen pitkäikäinen esiintyvyys monissa Suomen historiaan, yhteiskuntaan ja kulttuuriin liittyvissä nimissä.

    Yritysten ja yhteisöjen nimet, tuotemerkit tai muut kaupalliset erisnimet sen sijaan ovat kielen näkökulmasta usein varsin lyhytikäisiä. Sellaisia ei oikolukuun oteta mukaan muuten kuin hyvin perustein. Kysy ensin toisten kehittäjien mielipiteitä asiasta.

  5. Kaikkein yleisimmät ulkomaiset paikannimet. Tämä koskee lähinnä valtioita, niiden pääkaupunkeja ja mahdollisesti suurimpia kaupunkeja. Lisäksi mukaan voidaan ottaa suurimmat vesistöt ja muut luonnon muodot.

    Vieraskielisten nimien oikeinkirjoituksessa ja siirtämisessä suomen kielen taivutusjärjestelmään tulee olla erityisen tarkkana. Joidenkin ulkomaisten nimien suomenkielinen kirjoitusasu on muuttunut historian aikana. Huomioi myös oikeaa kirjoitusasua selvittäessäsi, että sama nimi voidaan kirjoittaa eri kielissä eri tavalla (esimerkiksi München ~ Munich). Oikoluvun sanastoon lisätään nykyisten normien mukainen suomenkielinen kirjoitusasu. Vanha karttakirja ei välttämättä ole nimistön suhteen enää ajan tasalla, eivätkä karttakirjat muutenkaan ole aina luotettavia nimistön oikeinkirjoituksessa.

    Periaatteessa vieraskielisten nimien taivutus perustuu sanan ääntämiseen alkukielessä. Ääntäminen on ainakin suurin piirtein tunnettava, jotta oikea taivutus suomen kielessä olisi ylipäätään mahdollista. Tämän lisäksi on tunnettava suomen kielen normit vieraskielisten sanojen taivutuksesta. Tämä voi vaatia melko lailla tutkimista, koska yleiseen kielenkäyttöön ei voi luottaa. Joidenkin nimien kohdalla on paljon tavallisempaa taivuttaa niitä väärin, joten esimerkiksi Google-haut paljastavat vain joukon enemmän tai vähemmän virheellisiä tapoja. Jos olet rohkea ja haluat yrittää, Jukka Korpelan kirjoittamassa Nykyajan kielenoppaassa on hyödyllinen luku erisnimien ja vieraiden sanojen taivutuksesta.

    (Internetissä oleviin oppaisiin tulee suhtautua kriittisesti. Edellä mainitun Nykyajan kielenoppaan vieraiden sanojen taivutusohjeet perustuvat kielitoimiston ohjeisiin, joten niitä voidaan pitää varsin luotettavina. Epävarmassa tilanteessa sana jätetään pois oikoluvusta.)

  6. Kaikkein merkittävimpiä kansainvälisiä nimiä. Jotkut sanat, yleensä erisnimet, ovat hyvin yleisesti kansainvälisessä käytössä, esimerkiksi poliittisesta tai historiallisesta syystä. Harkitusti sanastoon voi lisätä kaikkein merkittävimpiä, pysyvimpiä ja tunnetuimpia kansainvälisiä nimiä. Tällaisia ovat esimerkiksi nimi Aristoteles tai sotilasliitto Nato. Huomioi, että tiedotusvälineet saattavat antaa vääristyneen kuvan asioiden merkittävyydestä. Muista olla tarkkana vieraskielisten sanojen oikeinkirjoituksen ja taivutuksen kanssa. Samat nimet voidaan kirjoittaa eri kielissä eri tavalla (esimerkiksi Tšingis-kaani ~ Genghis Khan). Oikolukuun lisätään suomenkielinen kirjoitusasu.

Toissijaiset

Seuraava luettelo antaa vinkkejä sanoista, joiden lisääminen on mahdollista mutta ei välttämättä kovin tärkeää. Halutessasi voit vaikka jättää tällaisten sanojen lisäämisen kokonaan ja keskittyä edellä lueteltuihin, huomattavasti tärkeämpiin asioihin.

Mitä ei saa tehdä?

Tässä luetellaan asioita, jotka ovat kiellettyjä Voikon sanaston kehittämisen kannalta.

Sanastoon tulevat sanat

Voikon perussanastoon tulevat kaikki Joukahaisen sanat, paitsi seuraavat:

Apuvälineitä

Rekisteröityneillä käyttäjillä nämä apuvälineet ovat näkyivissä suoraan Joukahaisen etusivulla. Myös rekisteröitymättömät käyttäjät voivat tutustua näihin, jos haluavat perehtyä tarkemmin Joukahaisen käyttöön.


Creative Commons License Tämän sivun sisältö on käytettävissä GPL 2.0 -lisenssillä, tai vaihtoehtoisesti Creative Commons Attribution-ShareAlike 2.5 -lisenssillä. Käyttö ja levitys on sallittu myös molempien mainittujen lisenssien uudempien versioiden ehdoilla.