UIT The arctic university of Norway > Giellatekno
 

170428

Møte om omsetjing 28.4.2017

Til stades: Børre, Sjur, Tomi, Trond, Lene (på bidix-saka)

Sakser:

  • termwiki som input til Apertium-bidix
  • status
  • neste steg

TermWiki som input til Apertium-bidix

Utgangspunkt: arbeidet som Tomi har gjort i det siste.

Nye bidix-filer:

  • kor mykje overlapp med eksisterande bidix?
<e><p><l>oahppostoffa<s n="n"/><s n="sg"/><s n="acc"/></l><r>opetusaineisto<s n="n"/><s n="sg"/><s n="nom"/></r></p></e>
<e><p><l>oahppostoffa<s n="n"/><s n="sg"/><s n="nom"/></l><r>opetusaineisto<s n="n"/><s n="sg"/><s n="nom"/></r></p></e>
<e><p><l>oahppostoffa<s n="n"/><s n="sg"/><s n="gen"/></l><r>opetusaineisto<s n="n"/><s n="sg"/><s n="nom"/></r></p></e>

apertium-sme-fin.sme-fin.dix

    <e><p><l>oahpahus<s n="n"/></l><r>opetus<s n="n"/></r></p></e>

    <e><p><l>oahpponeavvu<s n="n"/><s n="g3"/></l><r>opetusmateriaali<s n="n"/></r></p></e>

    <e><p><l>goappašagat<s n="prn"/><s n="ind"/><s n="pl"/><s n="nom"/></l><r>molemmat<s n="prn"/><s n="nom"/></r></p></e>
    <e><p><l>goappašagat<s n="prn"/><s n="ind"/><s n="pl"/></l><r>molemmat<s n="prn"/><s n="pl"/></r></p></e>
    <e><p><l>goappašat<s n="prn"/><s n="ind"/><s n="pl"/><s n="nom"/></l><r>molemmat<s n="prn"/><s n="nom"/></r></p></e>
    <e><p><l>goappašat<s n="prn"/><s n="ind"/><s n="pl"/></l><r>molemmat<s n="prn"/><s n="pl"/></r></p></e>

    <e><p><l>ánsikta<s n="n"/><s n="sg"/></l><r>kasvot<s n="n"/><s n="pl"/></r></p></e>
    <e><p><l>ámadadju<s n="n"/></l><r>ansikt<s n="n"/><s n="nt"/></r></p><par n="maydetind__n"/></e>

TODO

termwiki lemma + POS:

  • sjekke om lemma + pos finst i bidix frå før
  • deretter lage kandidatpar for dei som ikkje finst
  • evaluere, teste, nytt møte, legge til

... for kvart språkpar: sme-nob, sme-fin, sme-smn, sme-smj, sme-sma

OmegaT

https://github.com/divvun/OmegaT-hfst-tokenizer http://divvun.no/doc/mt/omegat/OmegaT.html#HFST+Tokenizer

Dokumentasjonen på wiki er oppdatert.

Fst-fila i speller/-katalogen skal slutte på *-<lang>.hfstol (analyser-gt-norm-se.hfstol).

Alle oppslag i glossary-lista skal ha standardisert lemmaform, ingen variantar. Variantane blir fanga opp av fst-en.

TODO

  • fjerna variantar av lemma frå glossary
  • fjerna kategoriinfo heilt
apertium/trunk/

cat se-nb.dix |grep '<e>'|cut -d">" -f4|cut -d"<" -f1|sort|uniq|hfst-proc ~/apertium/trunk/apertium-sme-nob/sme-nob.automorf.hfst |grep '\*'|wc -l

Originalreferat her: http://pad.spline.de/dkPs1svMtO