Jokaiseen perussanaan liittyy yksi tai useampi kirjoitusasu. Jos ja vain jos perussanalle ei ole määritelty yhtään kirjoitusasua, otetaan sen kirjoitusasuksi perussana itse.
Kirjoitusasuilla on kolme käyttötarkoitusta:
- Alkuperäinen käyttötarkoitus, eli liittää sanatietueeseen vaihtoehtoisia kirjoitusasuja, kuten sanan pikkolo vaihtoehtoinen kirjoitusasu piccolo.
- Yhdistää perusosaltaan ja muilta tiedoiltaan samoja yhdyssanoja yhteen tietueeseen. Tällöin sanan osat on erotettava toisistaan merkillä =. Esimerkiksi sanalla kakku voi olla kirjoitusasut kakku ja toska=kakku.
- Liittää sanaan sen rakenteeseen liittyvää lisäinformaatiota. Ainakin kaikille sanastoon lisättäville yhdyssanoille pitäisi merkitä sanarajat kirjoitusasun avulla.
Rakennemerkinnät kirjoitusasuissa
Kirjoitusasuissa voidaan käyttää seuraavia ohjausmerkkejä sanan rakenteen kuvaamiseksi:
- =
- Vahvan morfeemirajan merkki. Tätä käytetään erottamaan yhdyssanan osat toisistaan, sekä
erottamaan selkeät etuliitteet muusta sanasta. Vahvalla morfeemirajalla on seuraavat ominaisuudet:
- Automaattinen taivutuspäätteiden vokaalityypin tunnistus ei huomioi rajaa edeltäviä merkkejä.
- Voikossa sanan tavutuksessa vahva morfeemiraja käsitellään kuten yhdyssanan sanaraja: se on aina sallittu tavutuskohta, ja jos optio VOIKKO_OPT_NO_UGLY_HYPHENATION on käytössä, lyhyitä tavuja ei eroteta rajan kummaltakaan puolelta.
- Voikossa oikoluvun korjausehdotuksissa näillä sanoilla on sama prioriteetti kuin yhdyssanoilla.
- |
- Heikon morfeemirajan merkki. Tätä käytetään sellaisilla kohdissa, joissa morfeemirajan olemassaolo
on kyseenalaista tai sanaa ei yleensä hahmoteta moniosaiseksi, vaikka se sitä loogisesti ehkä olisikin.
Esimerkiksi sanan estrogeeni kirjoitusasu on estro|geeni. Heikolla morfeemirajalla
on seuraavat ominaisuudet:
- Automaattinen taivutuspäätteiden vokaalityypin tunnistus tutkii sanan vokaalityypin sekä rajan kanssa että ilman, ja vokaalityypiksi tulee näiden tulosten yhdiste.
- Voikon tavutuksessa ja korjausehdotuksissa heikolla morfeemirajalla ei ole toistaiseksi merkitystä.
- [ ]
- Merkitsee alueen, jonka sisällä olevien merkkien välissä automaattitavutus on kielletty. Tätä aluetta ei kannata ulottaa taipuvien sanojen loppuun saakka, sillä Voikossa tavutusvihjeet käsitellään niiden paikan perusteella. Tällöin sanan lopussa olevat vihjeet voivat leikkautua pois, tai niiden välissä olevat kirjaimet voivat vaihtua sanaa taivutettaessa. Vihjeiden pois leikkaantuminen on mahdollista myös silloin, kun tavutettava sana on perusmuodossaan! Alueen sisällä Voikon tavutusta ohjaavia optioita ei huomioida, joten kaikkia käyttäjiä miellyttävän tuloksen saamiseksi ainakin vokaalilla alkavan sanan (tai yhdyssanan osan) ensimmäinen kirjain sekä vokaaliin päättyvän sanan (tai yhdyssanan osan) viimeinen kirjain olisi hyvä jättää alueen ulkopuolelle.
- +n
- Tavurajan merkki. n kertoo tavurajan käyttökelpoisuuden sanan jakokohtana
tekstin rivityksessä. Se voi saada seuraavat arvot:
- Jako vahvan morfeemirajan kohdalta. Jakomerkkiä +1 ei käytännössä tarvita koskaan, sillä sen sijasta pitää käyttää merkkiä =.
- Normaali jako konsonantti-vokaaliyhdistelmän edestä. Esimerkiksi ravin+2tola.
- Jako konsonantti-vokaaliyhdistelmän edestä yhden tavun etäisyydellä yhdyssanan sanarajasta. Esimerkiksi kerrosta+3lo.
- Jako jako konsonantti-vokaaliyhdistelmän edestä sanahahmon ensimmäisen tavun jälkeen. Esimerkiksi ta+4lo.
- Normaali jako kahden vokaalin välistä. Esimerkiksi huomi+5oida.
- Jako kahden vokaalin välistä siten, että kaksi samaa vokaalia erotetaan sanan alusta tai lopusta. Esimerkiksi uho+6aa.
- Yhden vokaalin sanan (tai yhdyssanan osan) alusta tai lopusta erottava jako. Esimerkiksi o+7letus.
Kirjoitusasujen rakennemerkintöjen on oltava yksikäsitteisiä, toisin sanoen mikäli kaikista perussanan kirjoitusasuista poistetaan niiden rakennemerkinnät, jäljelle jäävässä merkkijonolistassa ei saa olla kahta samaa merkkijonoa.
Tavutuksen periaatteet Voikossa
On tilanteita, joissa Voikko (tai sen kehittäjät) joutuvat valitsemaan kahden pahan väliltä: hyväksytäänkö tavutus mahdollisesti kyseenalaisesta paikasta vai ollaanko varovaisia, vaikka tämä joskus johtaisikin Voikkoa käyttävässä sovelluksessa ongelmiin tekstin tasauksen kanssa. Ongelmaan on monia ratkaisuja, joiden keskinäinen paremmuus on lähinnä makuasia. Voikon oletusarvoisesti käyttämät periaatteet on lueteltu alla. On kuitenkin tärkeää muistaa, että Voikon ohjelmointirajapintaan kuuluu optioita, joilla oletuskäyttäytymistä voi muuttaa, ja näitä optioita tarjotaan todennäköisesti lisää tulevissa versioissa. Jo nyt osa Voikkoa käyttävistä sovelluksista hyödyntää olemassa olevia lisäoptioita, joten esimerkiksi LibreOfficen Voikko-tavutus ei toimi täysin kuvatun kaltaisella tavalla.
- Automaattisesti muodostetut yhdyssanat, sekä vahvan morfeemirajan sisältävät yhdistetyt sanat tavutetaan osa kerrallaan. Monikäsitteiset yhdyssanat tavutetaan (tietyin poikkeuksin) niin, että sanan monikäsitteisyys säilyy. Tällä vältetään se, että automaattitavutuksen tekemä sanajako muuttaisi tavutettavan sanan merkitystä.
- Lyhenteitä ei tavuteta, mutta muuten sanan osat tavutetaan suomen kielen yleisten tavutussääntöjen mukaan. Automaattitavutus tosin osaa huomioida muutaman vierasperäisen kirjainyhdistelmänkin.
- Epäselvissä tapauksissa toimitaan siten, että mikä tahansa tavutus, joka ei ole selvästi väärin, on oikein. Siispä Voikon tulisi tavuttaa myös tavutukseltaan kyseenalaiset sanat, ellei kyseessä ole niin patologinen tapaus että kaikki sanajaot näyttäisivät suomalaisen lukijan silmissä hirveiltä. Erillisten tavutusvihjeiden (ks. yllä) avulla voidaan tarvittaessa ohjata tavutusta, jos tiedetään automaattitavutuksen johtavan huonoon tulokseen ja parempi sanajako tunnetaan. Kahden yhtä hyvän ratkaisun välillä on syytä valita se, joka lähimmin noudattaa sääntöpohjaisen tavutuksen antamaa tulosta.
Tämän sivun sisältö on käytettävissä GPL 2.0 -lisenssillä, tai vaihtoehtoisesti Creative Commons Attribution-ShareAlike 2.5 -lisenssillä. Käyttö ja levitys on sallittu myös molempien mainittujen lisenssien uudempien versioiden ehdoilla.