SEARCH
NEW RPMS
DIRECTORIES
ABOUT
FAQ
VARIOUS
BLOG
DONATE


YUM REPOSITORY

 
 

MAN page from Fedora 13 hunspell-1.2.8-17.fc13.x86_64.rpm

hunspell

Section: Devices and Network Interfaces (4)
Updated: 2008. április 11.
Index 

NÉV

hunspell - a Hunspell állományainak formátuma 

LEÍRÁS

AHunspell(1)két állományt igényel egy adott nyelven történő helyesírás-ellenőrzéshez.Az első állomány egy szótárállomány, ami az adott nyelv szavait, ésezek kapcsolóit (attribútumait) tartalmazza. A második állományegy ragozási (affixum) állomány, ami meghatározza az említettkapcsolók jelentését.

 

SZÓTÁRÁLLOMÁNY

Egy hunspellszótárállomány(*.dic) első sora a szótárállománybanlévő szavak közelítő számát tartalmazza (az optimális méretűmemóriaterület lefoglalásához). A többi sor soronként egyszót tartalmaz. Minden szó után nem kötelezően egyperjel, és egy, vagy több kapcsoló következhet. Akapcsolók egybetűsek, és meghatározzák, hogy milyentoldalékokat kaphat a tőszó, illetve milyen egyéb speciálistulajdonságokkal rendelkezik. Például a

1hunspellezik/EeX

szótár egy szót tartalmaz (hunspell), ami a magyar ragozásiállomány alapján alanyi és tárgyas igeragozást isvonz (E és e kapcsolók), valamint igekötő prefixumokat iskaphat. A példa szótárállomány és a magyar ragozásiállomány alapján a meghunspelleztétek helyes szókéntkerülne felismerésre.

A szótári szavak perjelet is tartalmazhatnak, haaz fordított perjellel van bevezetve: "/". A kapcsolókalapértelmezésként egy karakteresek, de ha több ragozásiosztályt szeretnénk használni, ez több karakteresre vagy számra ismódosítható.

A Hunspell szótárállományok sorai kiegészítő adatmezőket is tartalmazhatnak,amelyek szóközökkel vagy tabulátorokkal vannak elválasztva (l. kiegészítőadatmezők).

A személyes szótárak egyszerű szólisták. Megadhatunkperjellel elválasztott példaszavakat is a toldalékolás engedélyezésére:

Obama/Tamara

A példában a Tamara szó toldalékolását a személyes szótárObama szavára is alkalmazza az ellenőrző, elfogadva az Obamáról,Obamáékat stb. alakokat is.

 

RAGOZÁSI ÁLLOMÁNY

Aragozási állományrendszerint kisebb méretű. Különféle definíciókat ésragozási szabályokat ad meg meghatározott kulcsszóival. Például aSETa karakterkódolás, aTRYjavaslattevésnél módosítot betűk, aREPa javaslattevésnél módosított szórészletek, aPFXés azSFXpedig a szó elejére és végére illesztendő toldalékok megadására szolgál.

A következő példa egy UTF-8-as kódolású szótár affixumállományánakdefiníciója. A TRY felsorolja a magyar betűket gyakorisági sorrendjükben,a LANG beállítja a magyar nyelvet, a WORDCHARS megadja azokat a karaktereket,amelyeket a parancssori Hunspell a szavak részeként fog kezelni.

SET UTF-8TRY íóúÍÓÚtaeslzánorhgkiédmyőpvöbucfjüűxwqTAESLZÁNORHGKIÉDMYŐPVÖBUCFJÜŰXWQ-.LANG hu_HUWORDCHARS -.§%‰°0123456789REP 2REP j lyREP ly jPFX X Y 3PFX X   0    meg          .PFX X   0    rá           .PFX X   0    össze        .SFX e Y 6SFX e   ik   tük          e[dz]ikSFX e   ik   tétek        e[dz]ikSFX e   ik   ték          e[dz]ikSFX e   0    tük          e[dzt]SFX e   0    tétek        e[dzt]SFX e   0    ték          e[dzt]SFX f Y 2SFX f   ik   het/e        e[dz]ikSFX f   ik   tet/e        e[dz]ik

A REP a j és ly felcserélése esetén ad jó és elöl rangsoroltjavaslatokat. A PFX-ek pár igekötőt definiálnak, az SFX-ekpedig pár igeragot. Ezek nagyobb részénél a szó végi ik is levágásrakerül a toldalék illesztése előtt. Itt az illesztés feltétele, hogy azigék -edik vagy -ezik karaktersorozatra végződjenek, különben pedigaz -ed, -ez vagy -et betűkre. Az f jelű toldalékolási osztályérdekessége, hogy a -het és -tet illesztése után még folytatódhata toldalékolás az e jelű toldalékolási osztállyal (ezt a het/els tet/e határozza meg), így kaphat -hettük, -hettétek, -hették,-tettük, -tettétek, -tették toldalékokat a szótárban szereplőlevelezik szó:

1levelezik/e

 

ÁLTALÁNOS PARAMÉTEREK

A Hunspell forrás több mint 80 példát tartalmaz aparaméterek használatára vonatkozóan. A következő leírásnem teljes, l. még az angol kézikönyvoldalt is.
SET karakterkód
A szótár és affixumállomány karakterkódolásának beállítása.A lehetséges értékek: UTF-8, ISO8859-1-től ISO8859-10-ig, ISO8859-13-ISO8859-15, KOI8-R, KOI8-U, microsoft-cp1251, ISCII-DEVANAGARI.
FLAG érték
A kapcsolók 1 karakteres alapbeállításának módosítása.(A ragozási osztályokat és egyéb tulajdonságokat jelölik a kapcsolók,amelyek alapértelmezés szerint 1 karakteresek, a pékdákbanlegtöbbször nagybetűvel szerepelnek). Az `UTF-8' értékkelUnicode karaktereket használhatunk kapcsolóként (UTF-8 kódolással ésmaximum 65 ezres karakterkódig), a `long' értékkel két karaktereskapcsolókat (több kapcsoló esetén sincs elválasztójel, a `num'értékkel vesszővel elválasztott decimális számokat 1-től65 ezerig.
COMPLEXPREFIXES
Kétszeres prefixumillesztést állít be (de csak egyszeres szuffixumokataz alapértelmezett kettő helyett.) Jobbról balra író ragasztó nyelveknél hasznos.
LANG nyelvkód
Nyelv megadása (nyelvfüggő programrészek bekapcsolásához) azISO nyelv- és régiókóddal (pl. hu_HU).
IGNORE karakterek
A felsorolt karaktereket törli a szótári szavakból és toldalékokból,valamint a bemeneti szavakból. Hasznos az opcionális írásjelek, mintaz arab vagy a héber mellékjelek kezelésére.
AF a_következő_AF_sorok_száma
AF kapcsolók
A Hunspell program képes a kapcsolóhalmazokat egy természetesszámmal helyettesíteni a szótárállományban és a többszörös toldalékásnál az affixumállományban (alias tömörítés),felgyorsítva ezzel a szótár betöltődését és csökkentve a programmemóriaigényét. Egy rövid példa:

3hellotry/1work/2

És a kapcsolódó AF definíciók az affixumállományban:

SET UTF-8TRY esianrtolcdugmphbyfvkwzESIANRTOLCDUGMPHBYFVKWZ'AF 2AF AAF AB

Ami megfelel a következő szótárállománynak:

3hellotry/Awork/AB

Lásd még a tests/alias* példát a forrásban.

Megjegyzés: az AF sorok nem előzhetik meg a FLAG paramétert.Alias tömörítésre szolgál a Hunspell makealias segédprogramja.

AM a_következő_AM_sorok_száma
AM morfológiai_és_egyéb_adatmezők
A Hunspell program képes a kiegészítő adatmezőketegy természetes számmal helyettesíteni, az AF paraméterhez hasonlóan.Lásd még a tests/alias* példát a forrásban.

 

JAVÍTÁSI PARAMÉTEREK

Az alapértelmezett n-gram, illetve betűcserén és -törlésenalapuló javaslatokat kiegészíthetjük a javítási paraméterekkel.A REP segít a tipikus hibák és javításuk megadásában.A PHONE a kiejtést kevésbé követő írásrendszereknél nyújt segítséget.
KEY szomszédos_karakterek_opcionálisan_függőleges_vonallal_elválasztva
A nyelv alapértelmezett billentyűzetkiosztását adhatjuk meg a KEYparaméterrel, hogy a javaslatoknál a szomszédos betűk elütésétfelismerje a program. A nem szomszédos betűket függőleges vonallalválaszthatjuk el:

KEY öüó|qwertzuiopőú|asdfghjkléáű|íyxcvbnm

TRY karakterek
A javaslattevésnél az 1 karakteres próbálkozásoknál az itt felsoroltkarakterekre cserél, illetve bővít. A paraméternél a kis- és nagybetűketkülön kell megadni.
NOSUGGEST kapcsoló
Az itt definiált kapcsolóval jelölt szavakat a program nem javasoljaa hibajavításnál. Vulgáris és obszcén szavak esetében hasznos.
MAXNGRAMSUGS
Az n-gram (n hosszú szórészletek megegyezősége alapján súlyozott)javaslatok maximális számának beállítása. Alapértelmezetten5. A 0 érték kikapcsolja az n-gram javaslatokat.
NOSPLITSUGS
Nem javasol szófelbontást a Hunspell ezzel a beállítással.Hiányzó összetettszó-kezelés esetén hasznos a hibás különírásijavaslatok tiltására.
SUGSWITHDOTS
Ha a hibás szó pont(ok)ra végződik, ezeket a javaslatok esetében isfeltünteti. Az OpenOffice.org szótárak számára nem szükséges ez abeállítás.
REP szám
REP mit mire
A javítási cseretáblázat megadására szolgáló definíciók.Az első REP után adjuk meg a többi REP sor számát.Ezek a sorok már két paramétert várnak: előszörmegadjuk a felismerendő mintát (hibás szórészletet),utána pedig azt a karaktersorozatot, amire a felismertmintát javítani szeretnénk. A helyesírás-ellenőrzőa cseretáblázat révén tud helyes javaslatot tennitöbbkarakteres eltérés (pl. j-ly) esetén.

A szóköz aláhúzásjellel helyettesítendő a javaslatokban:

REP 1REP végülis végül_is

A szervíz, szintű és a hasonló hibás összetett szavakletiltásában szintén a REP táblázat segít a CHECKCOMPOUNDREPmegadásával (l. ott).

MAP a_MAP_definíciók_száma
MAP karakterek
Rokon karaktereket adhatunk meg több sorban. A javaslattevésnéltöbb rokon karakter cseréje is lehetséges, így például ékezetnélküli szavakat is képes ékezetesíteni a Hunspell a következődefiníció mellett:

MAP 5        MAP aá        MAP eé        MAP ií        MAP oóöő        MAP uúüű        

PHONE a_PHONE_definíciók_száma
PHONE karakterek
A PHONE egy táblázattal megadható fonetikus átírási algoritmusthasznál a kiejtési hasonlóság kiszámítására. Különösenhasznos azoknál a nyelveknél, ahol az írás nem tükrözi a kiejtést.A részletes dokumentáció az Aspell helyesírás-ellenőrző oldalánérhető el angol nyelven: http://aspell.net/man-html/Phonetic-Code.html.

Megjegyzés: a szabályokban szereplő kapcsos zárójelek nemtartalmazhatnak még több byte-os UTF-8 karaktereket, ahogya kötőjeles kifejezések is byte-ot jelölnek, nem karaktert Unicodeszótár esetén is.

 

SZÓ-ÖSSZETÉTELEZÉSI PARAMÉTEREK

BREAK a_BREAK_definíciók_száma
BREAK karakter_vagy_karaktersorozat
Ha a keresett szó nincs a szótárban, a felsorolt karaktereknél vagykaraktersorozatoknál felbontja és részenként ellenőrzi. Hasznospéldául a kis- és nagykötőjeles szavaknál a magyarban.
COMPOUNDRULE
Reguláris kifejezésekhez hasonló összetételi szabályok megadása.
COMPOUNDMIN szám
A legkisebb szóhossz, ami még összetett szóban szerepelhet.Alapértelmezés szerint 3 karakter.
COMPOUNDFLAG kapcsoló
Itt adható meg a szóösszetételben való szereplést engedélyezőkapcsoló.
COMPOUNDBEGIN kapcsoló
A kapcsoló az összetett szavak első tagjaként engedélyezia megjelölt szavakat.
COMPOUNDLAST kapcsoló
A kapcsoló az összetett szavak utolsó tagjaként engedélyezia megjelölt szavakat. Kombinálható az előző kapcsolóval.
COMPOUNDMIDDLE kapcsoló
A kapcsoló az összetett szavak közbenső tagjaként engedélyezia megjelölt szavakat. Kombinálható a két előző kapcsolóval.
ONLYINCOMPOUND kapcsoló
Csak az összetett szavakban megjelenő ragozás jelölésére szolgálókapcsoló (germán nyelvek esetében tipikus).
CIRCUMFIX kapcsoló
Ezzel a kapcsolóval jelölt szuffixum csak ugyanilyen kapcsolóvaljelölt prefixummal jelenhet meg egy tövön. (Pl. leg-édes-ebb).
COMPOUNDPERMITFLAG kapcsoló
Alapértelmezés szerint a prefixumok és szuffixumok nem fordulhatnakelő az összetett szavak belsejében. A COMPOUNDPERMITFLAGkapcsolóval rendelkező affixumok viszont itt is megjelenhetnek.
COMPOUNDFORBIDFLAG kapcsoló
Toldalékolt szavak szóösszetételben való szereplését tiltókapcsoló. A tiltáshoz az adott SFX szabály folytatásiosztályaként (l. később) adjuk meg ezt a kapcsolót.
COMPOUNDROOT kapcsoló
A szótárba közvetlenül felvett összetett szavakatjelölő kapcsoló. A COMPOUNDWORDMAX, és így a magyar esetébena 6–3-as szabály működését befolyásolja azzal, hogy a COMPOUNDROOTkapcsolóval összetettnek jelöltszavak két szónak számítanak.
COMPOUNDWORDMAX szám
A szóösszetételekben szereplő egyszerű tövek maximális száma.A magyar esetében 2 az érték, e fölötti szószámnál már életbe lépa 6–3-as szabály.
COMPOUNDSYLLABLE szám karakterek
Két paramétert vár. Az első megadja az összetett szavak tövénekmaximális szótagszámát, ami a magyar helyesírás 6–3-as szabálya szerint 6.A második mező felsorolja a magánhangzókat,ami a szótagszám megállapításához szükséges.Ha hiányzik ez a definíció, akkor nincsenkorlátozás az összetett szavak tövének szótagszámáravonatkozóan.
SYLLABLENUM kapcsolók
Egy paramétert vár. A paraméterben megadhatóak azok a ragozásiosztályok, amelyek ragozás esetén eggyel növelik az összetettszavak tövénél kiszámított szótagszámot. A magyarban ezeka melléknévképzők: kerékpárjavításainkról, de kerékpár-javítási.A
FORBIDDENWORD kapcsoló
A tiltott szavakat jelölő kapcsoló. A tiltott szótövektoldalékolt alakjai is letiltásra kerülnek. A tiltottszavak akár toldalékolási, vagy szóösszetételi szinonimakéntsem kerülnek elfogadásra.
PSEUDOROOT kapcsoló
A kapcsolóval jelölt szavak toldalékolt alakjai kerülnekcsak elfogadásra. Fiktív tövek megadására szolgálókapcsoló. A tő lehet még helyes szó, haérvényes szinonimaként előáll vagy szerepel a szótárban.
WORDCHARS karakterek
Paramétere azok a karakterek, amelyek a beállított kódolás (pl.a magyar esetében az ISO-8859-2) betűi mellett még az adottnyelv szavaiban előfordulhatnak. Ilyen például a magyarbana kötőjel, pont, százalékjel, fokjel, paragrafusjel és anagykötőjel. Az utóbbi csak UTF-8, vagy microsoft-cp1250karakterkészlet mellett lesz használható a magyar szótárban.
PFX kapcsoló keresztkombinálódás szám
PFX kapcsoló levágás prefixum feltétel morfológia
Prefixum megadására szolgáló definíciók.A prefixumok egykarakteres névvel jelölt osztályokbavannak sorolva. A példában az X osztálydefiníciója látható. Az egyes osztályokravonatkozó PFX fejléc tartalmazza a következőket:

(1) az osztály betűjelét (a példában X)

(2) a keresztbe való kombinálás engedélyezése, illetvetiltása (Y/N). Engedélyezés esetén az adott prefixum akkor isalkalmazható, ha a tőszó toldalékolt alakban fordul elő.Ehhez az is szükséges, hogy a toldalék (affixum) ragozásiosztályában is legyen engedélyezve a kombinálás.

(3) az osztályba tartozó bejegyzések számát

A PFX fejlécet követő sorokban a PFX paraméterek jelentésea következő:

(1) az osztály betűjele

(2) a ragozásnál a szó elejéről leválasztandó karaktersorozat.Ha nem kell leválasztani, akkor 0.

(3) a prefixum (például igekötő, vagy a leg-, legesleg-a mellékneveknél). Perjellel elválasztva kapcsolókatis megadhatunk (l. többszörös toldalékolás).

(4) a minta, ami ha illeszkedik, alkalmazható a szabály.Például ha itt kutya szerepelne, akkor csak a kutyakezdetű szavak elé lehetne tenni az ebben a sorbanmegadott prefixumot. A minta megadásánál a pont (.)speciális jelentéssel bír: minden karakterre illeszkedik.Megadhatunk csak bizonyos karakterekre illeszkedő mintátis szögletes zárójelek segítségével. Például az [abcd] illeszkedikaz a, b, c, illetve d karakterekre is.Ellentétben az Ispell-lel, a kötőjelszerepe a szögletes zárójelek között nem speciális,vagyis kötőjelet jelent, és nem karaktertartományt.Ha a nyitó szögletes zárójel után kalap (^) karaktertalálható, a karaktertartomány komplementeréreilleszkedik a minta, hasonlóan a reguláriskifejezésekhez (l.regex(7)).

(5) Morfológiai leírás. Szóközzel vagy tabulátorralelválasztott mezők. A mezőnevek és használatuk azangol kézikönyvoldalon található.

SFX kapcsoló keresztkombinálódás szám
SFX kapcsoló szuffixum feltétel mofológiai_leírás
A PFX-szel megegyező paramétereket kap, csak nema szó eleji, hanem a szó végi toldalékok leírásáraszolgál. A példában szereplő definíciók jelentése:az -edik, vagy -ezik végű szavakra alkalmazhatóa három szabály. A rag illesztésénél levesszüka szó végi -ik karaktersorozatot, és szabálytól függőenillesztjük a -tük, -tétek, -ték toldalékokat,végeredményben -edtük, -edtétek, -edték, illetve-eztük, -eztétek, -ezték végű szavakat kapva.
Többszörös toldalékolás
A PFX és az SFX szabályokban a toldalék perjellel elválasztva kapcsolókat iskaphat, hasonlóan a szótárállomány töveihez. A kapcsolók akövetkezőek lehetnek:

(1) SFX szabályban az SFX folytatás jelentése, hogy a toldalék még továbbragozódhat a megadott kapcsolókkal (többszörös affixumleválasztás).A Hunspell esetében csak a kétszeres affixumleválasztás lett megvalósítva,tehát a folytatási osztály folytatását már nem veszi figyelembe a program.

(2) SFX szabályban a PFX folytatás jelentése, hogy az adott prefixum ishozzájárulhat a tőhöz, feltéve, ha az SFX szabály is él.

(3) PFX szabályban az SFX szabály jelentése, hogy a megjelölt SFXszabály a tőhöz járulhat, ha a PFX szabály is él.

(4) ONLYINCOMPOUND kapcsoló megadásával az adott PFX vagy SFX toldalék csakszóösszetételben jelentkezhet.

(5) CIRCUMFIX kapcsoló megadásával az adott SFX csak az ugyanilyentoldalékot kapó PFX-szel együtt fordulhat csak elő.

(6) Az összetételi kapcsolók megadásával engedélyezhetjükvagy letilthatjuk (COMPOUNDFORBIDFLAG) az összetételben valószereplést. A összetett szavak utolsó tagja alapértelmezés szerintminden affixumot felvehet. A közbenső szavaknál viszontexplixit módon engedélyezni kell ezt.

A ragozási állomány ezeken kívül még megjegyzéseket is tartalmazhat, ezért az adottszótár változatát, szerzőjét, felhasználási engedélyeit ittkeressük. 

SAJÁT SZÓTÁR

A saját szótár formátuma közel megegyezik a szótárállományformátumával. A különbségek a következőek:

(1) Nem kell megadni az első sorban az állományban lévő szavakméretét.

(2) A szóhoz nem kapcsolókat, hanem egy mintaszótadhatunk meg, ami alapján az ellenőrző a szó toldalékoltalakjait is felismeri. Például a Patyomkin/Ádám azt jelenti, hogya Patyomkin szót az Ádáméval megegyezőragozással is el kell fogadni.

(3) A csillag tiltást jelent: a csillaggal jelölt szavakat az ellenőrzőakkor sem ismeri fel, ha az alapszótárban szerepelnek, pl. *kóricál.

(4) Az állomány kézzel módosítható, és ezt időnkéntjavasolt is megtenni, ha esetleg hibásan vettünk fel szavakat. 

LÁSD MÉG

angol nyelvű hunspell (4),hunspell (1),ispell (1),ispell (4),Magyar Ispell dokumentáció. 

TÖRTÉNET

A MySpell szótár-, illetve ragozási állományának formátumátKevin Hendricks készítette olyan céllal, hogy lehetővétegye ezen állományok gyors, futás idejű feldolgozását.

A COMPOUNDFLAG és a Hunspell formátumbővítést, valaminta REP többkarakteres cseretáblázatot Németh Lászlókészítette elsősorban a jobb magyarnyelvű helyesírás-ellenőrzés céljából. A minimálisösszetettszó-kezelést lehetővé tevő COMPOUNDMIN, COMPOUNDFLAG,és a REP többkarakteres cseretáblázat része a hivatalosMySpell függvénykönyvtárnak is.

A Hunspell szótárállományának formátuma megegyezika MySpell függvénykönyvtáréval, a ragozási táblázat pediga fentiekben felsorolt bővítéseket tartalmazza.A bővített formátumú affixum állomány gond nélkülegyüttműködik az eredeti MySpell függvénykönyvtárral is,de a bővítések nem fognak működni. Sőt, mivel ahivatalos MySpell egy megengedőbb összetettszó-kezeléstvalósít meg, mint a magyar változat, azösszetett szavakon belüli toldalékolt alakok is elfogadásrakerülnek (ez különösen sok hibás összetételelfogadását eredményezi a magyar nyelv esetében).

Ebből fakad, hogy a hivatalos MagyarOpenOffice.org (http://office.fsf.hu) - mivel a MagyarMySpell függvénykönyvtárat tartalmazza - jobban támogatjaa magyar nyelvet, mint más változatok. Egyszerűenmeggyőződhetünk arról, hogy melyik változattal van dolgunk:írjuk be, hogyhelyesírásellenőrzőaz OOo szövegszerkesztőjébe.Ha hibásnak jelzi, éshelyesírás-ellenőrzőtjavasol helyette,a Hunspell-lel van dolgunk. Ha helyesnek fogadjael, akkor pedig az eredeti MySpell-lel.


 

Index

NÉV
LEÍRÁS
SZÓTÁRÁLLOMÁNY
RAGOZÁSI ÁLLOMÁNY
ÁLTALÁNOS PARAMÉTEREK
JAVÍTÁSI PARAMÉTEREK
SZÓ-ÖSSZETÉTELEZÉSI PARAMÉTEREK
SAJÁT SZÓTÁR
LÁSD MÉG
TÖRTÉNET

This document was created byman2html,using the manual pages.