Skip to content

nifgraup/hunspell-is

Repository files navigation

Ritvilluleit, málfræðigreining og samheitaorðabók

Hunspell-is er hugbúnaður sem les inn gagnabanka íslensku Wikiorðabókarinnar og útbýr:

  • orðabók fyrir villuleitarforritið Hunspell sem hægt er að nota m.a. með LibreOffice, Firefox, Thunderbird og Google Chrome. Hvert orð hefur skráðan orðflokk og beygingarlýsingu ef við á.
  • samheitaorðabók fyrir LibreOffice.

Hunspell-is er samvinnuverkefni og samskipti fara fram á póstlista (sjá einnig á vefnum).

Sækja orðabækur

Orðabækurnar fylgja með LibreOffice. Þær má einnig finna stakar í kóðasafni LibreOffice eða í pakkasafni Debian stýrikerfisins.

Málfræðigreining

Yfir 300 beygingarreglur nafnorða, sagnorða og lýsingarorða eru skráðar í íslensku Wikiorðabókinni og eru þær allar fluttar inn í hunspell-is ásamt þeim orðum sem nota reglurnar. Sem dæmi er hægt að greina orðið „á“ með skipuninni

echo á | hunspell -m -d dicts/is

sem skilar

á  st:á po:fs
á  st:eiga po:so
á  st:ær po:no is:2eó
á  st:ær po:no is:3eó
á  st:á po:no
á  st:á po:no is:3eó
á  st:á po:no is:2eó

og sjá að það tilheyrir þremur orðflokkum. Orðið er í þolfalli eða þágufalli þegar það þýðir kind en ef átt er við fljót koma þrjú eintöluföll til greina. Nefnimyndin (e. lemma) er einnig sýnd.

Forritið chmorph má nota til að umbreyta texta, t.d. setja sögn í þátíð:

echo "Strákurinn kallar á mömmu sína." > setning.txt
chmorph dicts/is.aff dicts/is.dic setning.txt "germynd-framsöguháttur-nútíð:hann" "germynd-framsöguháttur-þátíð:hann"

og útkoman verður

Strákurinn kallaði á mömmu sína.

„Hvað ef ég finn villu?“

Ef orðið er rangt skráð í íslensku Wikiorðabókinni skal lagfæra orðið þar. Orð getur einnig verið rangt skráð í orðalistanum sem notaður er til uppfyllingar. Ef svo er má hafa samband og láta fjarlægja orðið.

Þróun

Eftirfarandi skipanir sýna hvernig orðabækurnar eru útbúnar á Debian og Ubuntu stýrikerfum.

# install dependencies
sudo apt-get install bzip2 gawk bash ed coreutils make wget hunspell libmythes-dev git python3 python3-pip
sudo locale-gen is_IS.UTF-8
sudo LC_ALL=is_IS.utf8 pip3 install git+https://github.com/earwig/mwparserfromhell@87e0079512f3d85813541dc97a240713fc0b33c9

# fetch hunspell-is
git clone https://github.com/nifgraup/hunspell-is
cd hunspell-is

# generate the dictionary & thesaurus
make

# run correctness test on generated files
make check

# generate LibreOffice & Firefox extensions
make packages

Notkunarleyfi

Orðabækurnar, líkt og íslenska Wikiorðabókin, eru gefnar út skv. CC BY-SA 3.0 leyfinu. Hunspell-is hugbúnaðurinn er gefinn í almenning. Orðabækurnar notast við orðalista til uppfyllingar sem var unninn af Orðabók Háskóla Íslands ásamt Reiknistofnun Háskóla Íslands á ofanverðum tíunda áratug síðustu aldar. Sá orðalisti var gefinn út í almenningseigu (e. public domain).