Tämä ohje antaa yleiskuvan siitä, millä periaatteilla Voikko-oikolukujärjestelmän sanastoa kehitetään. Tämä on ensisijassa näkemyksellinen opas, jonka tarkoitus on ohjata oikoluvun kehittäjiä samoihin päämääriin. Tässä ohjeessa sanalla oikoluku viitataan nimenomaan Voikon oikolukuun. Muiden oikolukujärjestelmien lähtökohdat voivat olla toisenlaiset.
Mikä on oikoluvun tarkoitus?
Oikoluvun ensisijainen tarkoitus on tunnistaa nykysuomen yleiskielisiä sanoja. Toiseksi oikoluku pyrkii parhaansa mukaan estämään käyttäjää tekemästä kielivirheitä. Oikoluvun kehittäminen kiteytyy periaatteessa vain näihin kahteen tavoitteeseen: oikein kirjoitetut sanat tunnistetaan, väärin kirjoitettuja ei. (Tarkkaan ottaen tietokonepohjainen oikolukujärjestelmä ei tiedä, onko sana kirjoitettu oikein. Oikoluku vain tarkistaa, löytyykö sana sen omasta sanastosta vai ei.)
Oikoluvun tarkoituksena ei ole tunnistaa mahdollisimman paljon sanoja. Nopeasti ajatellen saattaisi ehkä tuntua, että hyvä oikolukuohjelma tunnistaa kaikki oikein kirjoitetut sanat. Kirjoittajan näkökulmasta voi tuntua mukavalle, jos tekstinkäsittelyohjelmalla kirjoitetussa tekstissä ei näy lainkaan punaisella alleviivattuja sanoja. Se antaa kuitenkin virheellisen kuvan oikeinkirjoituksesta. Kaikki se, mitä voidaan kirjoittaa, ei ole suositusten mukaista yleiskieltä. Oikoluku, joka sallii kaiken, on yhtä hyödyllinen kuin ei oikolukua lainkaan. Ei siis kannata nähdä suurta vaivaa päästäkseen lähes nollatilanteeseen. Harkitulla sanaston kehittämisellä päästään parempiin tuloksiin.
Sanaston kehittämisen periaatteet
Maailma on täynnä sanoja. Joitakin sanoja käytetään hyvin usein, joitakin harvemmin ja joitakin tuskin koskaan. Oikoluvussa tarpeellisimpia ovat usein käytetyt sanat. Harvinaisemmat sanatkaan eivät välttämättä ole haitaksi mutta joskus ne voivat olla. Sanoja, joita ei juuri koskaan käytetä, ei tarvita oikoluvussa, ja ne ovatkin todennäköisesti enemmän haitaksi kuin hyödyksi.
Harvinaisten sanojen mahdollinen haitta oikoluvun kannalta liittyy siihen, että mitä enemmän sanastossa on sanoja, sitä todennäköisemmin joidenkin sanojen taivutukset tai yhdyssanatilanteet muistuttavat joitakin toisia sanoja. Tästä seuraa tilanteita, jossa vahingossa tehty kirjoitusvirhe tekeekin sanasta jonkin toisen sanan. Kirjoittajan näkökulmasta oikoluku siis tavallaan hyväksyy kirjoitusvirheen. Tältä ei voida kokonaan välttyä, koska on äärettömästi tilanteita, joissa jokin kirjoitusvirhe voi muodostaa oikean sanan. Asiaa kannattaa kuitenkin pohtia, jos sana on hyvin harvinainen. Kuvitellaan esimerkiksi, että on olemassa jokin kaakkoisaasialainen soitin, jonka nimi perusmuodossaan kirjoitetaan samalla tavalla kuin jokin suomen kielen sana mutta se taipuu eri tavalla (ilman astevaihtelua). Tällaista vieraskielistä sanaa ei kannata oikoluvun sanastoon lisätä, koska useimmat kirjoittajat eivät sanaa edes tunne ja se tuottaa väärän näköisiä taivutusmuotoja suomen kielen sanaan nähden.
Ei ole olemassa selvää ohjetta siihen, mikä sana on tärkeä, riittävän yleinen tai muulla tavalla sopiva oikolukuun lisättäväksi. Jos on käytössä laajoja, suomenkielistä tekstiä sisältäviä tietokantoja, niistä tehdyt sanojen yleisyyslaskelmat ja muut vertailut voivat antaa suuntaa valinnalle. Usein päätös kuitenkin perustuu omaan harkintaan. Tärkeää onkin muistaa, että oma (ja muiden) kielikorva kuulee silloin tällöin väärin. Kielenkäyttöön liittyy paljon yleisiä väärinkäsityksiä ja luuloja. Oikoluvun sanaston kehittäminen vaatii jatkuvaa sanojen oikeinkirjoitukseen ja taivutukseen liittyvää tutkimista.
Sanan tärkeyttä arvioidessa on kielikorvan ja tutkimisen lisäksi hyvä huomioida myös asia, jota kognitiivisessa psykologiassa kutsutaan saavutettavuusheuristiikaksi. Kyseessä on yleinen ja sinänsä luonnollinen päättelyvirhe, jossa valinta perustuu vain itselle ensiksi mieleen tuleviin asioihin. Oikoluvun sanaston kehittämiseen sovellettuna se voi tarkoittaa, että jos harrastat esimerkiksi tietotekniikkaa, saatat ajatella, että monet tietotekniikkaan liittyvät sanat ovat todella yleisiä ja että ne on tärkeää saada oikolukusanastoon. Alueellinen vääristymä voi tulla siten, että henkilö pitää oman kotiseutunsa sanastoa (paikannimiä tai aluepuhekieltä) muita tärkeämpänä. Sinänsä asiantuntemus on rikkaus; täytyy vain muistaa, että oikoluvun perussanastoa kehitetään yleiseen käyttöön.
Mitä oikolukusanastoon voi lisätä?
Ensisijaiset
Seuraavassa on listattu suurin piirtein tärkeysjärjestyksessä, minkä tyyppisiä sanoja oikolukuun lisätään ja mitä täytyy samalla huomioida. Näitä ohjeita noudattamalla sanastoon pääsee todennäköisesti lipsahtamaan vähemmän virheitä ja oikoluvun laatu saadaan pidettyä korkealla. Sanan oikeinkirjoituksessa ja taivutuksessa täytyy aina olla tarkkana. Sitä ei yleensä ole mainittu erikseen.
Nykysuomen yleiskieliset sanat. Nykyaikana yleisesti käytössä olevia suomen yleiskielen sanoja voi lisätä vapaasti. Kotimaisten kielten tutkimuskeskuksen kielenhuolto-osasto, nk. kielitoimisto, antaa suosituksia kielen käytöstä. Voikon sanaston kehittämisessä pyritään noudattamaan niitä. (Vanha, lähes käytöstä poistunut sanasto on toissijaista.)
Suomen kielen sanakirjoja voi käyttää apuna, jos haluaa varmistaa, kuuluuko sana yleiskieleen. Sanakirjoissa saattaa olla myös tietoa sanojen taipumisesta. Muista kuitenkin, että laaja sanakirja on luettelo- tai tietokantasuojan alainen, ks. tekijänoikeuslain 49. §. Se tarkoittaa, että sanakirjasta ei saa ilman lupaa järjestelmällisesti kopioida sanoja eikä niihin liittyviä lisätietoja. Yksittäisten sanojen tarkistaminen on tietenkin sallittua. Katso tekijänoikeuteen liittyviä ohjeita tämän dokumentin kohdasta ”Mitä ei saa tehdä?”.
Lähes yleiskielisiksi vakiintuneet arkikielen sanat. Harkitusti voi lisätä yleisimpiä arkikielen sanoja, kuten lenkkari ’lenkkitossu’ tai tintti ’tiainen’. Huomioi kuitenkin edellä mainittu saavutettavuusheuristiikka. Omassa ja oman lähipiirin kielenkäytössä asiat voivat vaikuttaa yleisemmiltä ja vakiintuneemmilta kuin ne todellisuudessa ovatkaan. Yleisyys ei myöskään välttämättä tarkoita, että sanan käyttö olisi suositeltavaa. Sanojen lisäämisestä voi aina keskustella muiden kehittäjien kanssa.
Yleisimmät suomalaiset paikannimet ja henkilöiden nimet. Suomen paikannimet ja henkilöiden nimet ovat melko pysyviä, ja tässä mielessä niiden lisääminen oikolukusanastoon on perusteltua. Jokaista niemeä ja notkoa ei sanastoon kuitenkaan lisätä, vaan perusteena käytetään harkintaa nimen yleisyydestä kielenkäytössä. Suomenkielisissä teksteissä esiintyvät pääasiassa kuntien ja henkilöiden nimet. Muut luonnon paikannimet ovat harvinaisempia.
Muita yleisiä ja pitkäikäisiä suomalaisia erisnimiä. Harkitusti ja hyvin perustein myös muita erisnimiä voi sanastoon lisätä. Tällainen on esimerkiksi nimi Finlandia. Tärkeipänä perusteena oikoluvun kannalta lienee sen pitkäikäinen esiintyvyys monissa Suomen historiaan, yhteiskuntaan ja kulttuuriin liittyvissä nimissä.
Yritysten ja yhteisöjen nimet, tuotemerkit tai muut kaupalliset erisnimet sen sijaan ovat kielen näkökulmasta usein varsin lyhytikäisiä. Sellaisia ei oikolukuun oteta mukaan muuten kuin hyvin perustein. Kysy ensin toisten kehittäjien mielipiteitä asiasta.
Kaikkein yleisimmät ulkomaiset paikannimet. Tämä koskee lähinnä valtioita, niiden pääkaupunkeja ja mahdollisesti suurimpia kaupunkeja. Lisäksi mukaan voidaan ottaa suurimmat vesistöt ja muut luonnon muodot.
Vieraskielisten nimien oikeinkirjoituksessa ja siirtämisessä suomen kielen taivutusjärjestelmään tulee olla erityisen tarkkana. Joidenkin ulkomaisten nimien suomenkielinen kirjoitusasu on muuttunut historian aikana. Huomioi myös oikeaa kirjoitusasua selvittäessäsi, että sama nimi voidaan kirjoittaa eri kielissä eri tavalla (esimerkiksi München ~ Munich). Oikoluvun sanastoon lisätään nykyisten normien mukainen suomenkielinen kirjoitusasu. Vanha karttakirja ei välttämättä ole nimistön suhteen enää ajan tasalla, eivätkä karttakirjat muutenkaan ole aina luotettavia nimistön oikeinkirjoituksessa.
Periaatteessa vieraskielisten nimien taivutus perustuu sanan ääntämiseen alkukielessä. Ääntäminen on ainakin suurin piirtein tunnettava, jotta oikea taivutus suomen kielessä olisi ylipäätään mahdollista. Tämän lisäksi on tunnettava suomen kielen normit vieraskielisten sanojen taivutuksesta. Tämä voi vaatia melko lailla tutkimista, koska yleiseen kielenkäyttöön ei voi luottaa. Joidenkin nimien kohdalla on paljon tavallisempaa taivuttaa niitä väärin, joten esimerkiksi Google-haut paljastavat vain joukon enemmän tai vähemmän virheellisiä tapoja. Jos olet rohkea ja haluat yrittää, Jukka Korpelan kirjoittamassa Nykyajan kielenoppaassa on hyödyllinen luku erisnimien ja vieraiden sanojen taivutuksesta.
(Internetissä oleviin oppaisiin tulee suhtautua kriittisesti. Edellä mainitun Nykyajan kielenoppaan vieraiden sanojen taivutusohjeet perustuvat kielitoimiston ohjeisiin, joten niitä voidaan pitää varsin luotettavina. Epävarmassa tilanteessa sana jätetään pois oikoluvusta.)
Kaikkein merkittävimpiä kansainvälisiä nimiä. Jotkut sanat, yleensä erisnimet, ovat hyvin yleisesti kansainvälisessä käytössä, esimerkiksi poliittisesta tai historiallisesta syystä. Harkitusti sanastoon voi lisätä kaikkein merkittävimpiä, pysyvimpiä ja tunnetuimpia kansainvälisiä nimiä. Tällaisia ovat esimerkiksi nimi Aristoteles tai sotilasliitto Nato. Huomioi, että tiedotusvälineet saattavat antaa vääristyneen kuvan asioiden merkittävyydestä. Muista olla tarkkana vieraskielisten sanojen oikeinkirjoituksen ja taivutuksen kanssa. Samat nimet voidaan kirjoittaa eri kielissä eri tavalla (esimerkiksi Tšingis-kaani ~ Genghis Khan). Oikolukuun lisätään suomenkielinen kirjoitusasu.
Toissijaiset
Seuraava luettelo antaa vinkkejä sanoista, joiden lisääminen on mahdollista mutta ei välttämättä kovin tärkeää. Halutessasi voit vaikka jättää tällaisten sanojen lisäämisen kokonaan ja keskittyä edellä lueteltuihin, huomattavasti tärkeämpiin asioihin.
Erityisalojen sanat. Erityisaloille syntyy usein omaa sanastoa, jota ei kovin paljon käytetä muualla. Usein on kyse vieraskielisten sanojen enemmän tai vähemmän onnistuneesta mukauttamisesta suomen kieleen. Erityisaloilla saatetaan käyttää myös ihan suoria sitaattilainoja vieraasta kielestä. Myös erisnimiä esiintyy, esimerkiksi merkittävien tutkijoiden nimiä.
Oikoluvun perussanastoon – sanastoon, joka tulee kaikkien käyttöön – lisätään vain erityisalojen pysyvimpiä peruskäsitteitä. Usein kunkin alan peruskäsitteet ovatkin jo yleistyneet osaksi yleiskieltä eivätkä ne enää ole ”erityisiä” käsitteitä. Sen sijaan harvinaisempia sanoja ei laiteta oikoluvun perussanastoon; niille ei ole käyttöä suurimmalle osalle oikoluvun käyttäjistä. Alakohtaisia erityissanoja voi kuitenkin sanastoon lisätä, mikäli niille asetetaan erityinen lippu, joka osoittaa sanan kuuluvan erityisalaan. Tällaiset sanat eivät automaattisesti tule osaksi perussanastoa, mutta ne voi halutessaan ottaa käyttöön. Jos haluat kerätä jonkin erityisalan sanoja, niitä on usein paras kerätä ensin itselle omaan listaan, ja vasta sitten lisätä oikoluvun sanastoon. Kysy asiasta neuvoa muilta Voikon kehittäjiltä.
Mitä ei saa tehdä?
Tässä luetellaan asioita, jotka ovat kiellettyjä Voikon sanaston kehittämisen kannalta.
Sanojen kopioiminen sanakirjasta tai muusta lähteestä, johon ei ole GPL-yhteensopivaa käyttöoikeutta. Laajat sanakirjat nauttivat tekijänoikeuslain tuomaa luettelo- tai tietokantasuojaa, ja niiden määrällisesti tai laadullisesti olennaisen osan kopioiminen ilman lupaa on Suomen lain mukaan kiellettyä, ks. tekijänoikeuslain 49. §.
Voikko-oikolukujärjestelmää ja sen sanastoa levitetään GPL-lisenssillä, ja siten sanaston kehittäjillä tulee itsellä olla joko tekijänoikeus tai GPL-yhteensopiva käyttöoikeus siihen materiaaliin, joka liitetään Voikon osaksi. Lakiasiat ovat monimutkaisia, ja siksi täytyy ensin keskustella muiden kehittäjien kanssa, jos suunnittelee hyödyntävänsä jotakin olemassa olevaa sanastoa. Emme aio rikkoa tekijänoikeuslakia, jottei Voikosta tulisi laitonta. Jos laki tuntuu rajoittavalta, kannattaa muistaa, että sama laki antaa myös Voikon tekijöille suojan, jonka turvin olemme määränneet Voikkoa levitettäväksi vapaalla GPL-lisenssillä.
Järjestelmällinen, kaikkien tiettyyn aiheeseen liittyvien sanojen lisääminen. Tällä tarkoitetaan harkitsematonta, täydellistä, johonkin tiettyyn laajaan aiheeseen liittyvän sanaston kokoamista, esimerkiksi ”kaikki Suomen katujen nimet” tai ”kaikki Suomen joet”. Tämän kaltainen järjestelmällisyys tuo sanastoon valtavan paljon turhia sanoja, joita kukaan ei koskaan tarvitse. Vain yleisimpien tapausten lisääminen on tarpeellista. Jos lisättävä sanajoukko on suhteellisen pieni ja kokonaisuudessaan jollain tapaa merkittävä, voidaan tällaista järjestelmällisyyttä toteuttaa. Esimerkiksi kaikki Suomen tasavallan presidenttien nimet on järkevää lisätä sanastoon.
Joidenkin virheellisten ilmaisujen poistaminen. Koska sanasto on alun perin kehitetty taivutettujen sanojen muuttamiseen perusmuotoon tiedostojen indeksointia varten, siinä on sanoja, jotka ovat väärin nykyisten oikeinkirjoitussääntöjen mukaan. Tällaisia sanoja ei saa poistaa sanastosta, mutta ne täytyy merkitä siten, että niitä ei käytetä oikoluvussa.
Tiedostojen indeksointi eroaa oikoluvusta muun muassa siten, että siinä ei oteta kantaa, mikä on oikein ja mikä väärin (esimerkiksi lukuunottamatta vai lukuun ottamatta). Indeksoinnissa sanat on hyväksyttävä sellaisina kuin niitä on käytetty. Oikoluvussa sen sijaan pyritään oikeakielisyyteen, ja tämän vuoksi sanaston virheelliset tai muuten tarpeettomat sanat merkitään lipulla, joka estää sanojen tulemisen oikolukusanastoon. Jos sanan lisäämisen yhteydessä sattui kirjoitusvirhe, sellaisen sanan saa poistaa. Indeksoinnissa on tarkoitus ottaa huomioon lähinnä yleiset kielivirheet, kuten sanoissa *kirjottaa tai *lukuunottamatta.
Sanastoon tulevat sanat
Voikon perussanastoon tulevat kaikki Joukahaisen sanat, paitsi seuraavat:
- Sanat, joissa on jokin seuraavista lipuista:
- ala: atk
- ala: kasvatustiede
- ala: lääketiede
- ala: matematiikka, fysiikka ja kemia
- ala: puhekieltä tai murretta
- ala: vieraskielinen sana
- siirretty
- virheellinen sana
- ei kuulu oikolukusanastoon
- tyypillinen kielivirhe
- Sanat, joiden yleisyysluokka on 9 ja joilla on lippu ”sekoittuu helposti yleisempään sanaan”.
- Sanat, joiden yleisyysluokka on 10.
Apuvälineitä
Rekisteröityneillä käyttäjillä nämä apuvälineet ovat näkyivissä suoraan Joukahaisen etusivulla. Myös rekisteröitymättömät käyttäjät voivat tutustua näihin, jos haluavat perehtyä tarkemmin Joukahaisen käyttöön.
Tämän sivun sisältö on käytettävissä GPL 2.0 -lisenssillä, tai vaihtoehtoisesti Creative Commons Attribution-ShareAlike 2.5 -lisenssillä. Käyttö ja levitys on sallittu myös molempien mainittujen lisenssien uudempien versioiden ehdoilla.