prefix ii- fungerer ikke som det skal Her får vi flere typer Err-tagger, men hovedproblemet er former som +Err/Orthstáhta. Årsaka er compunding.lexc: ii-+Err/Orth+Use/Circ:ii- Noun ; ii-+Err/Orth+Use/Circ:ii- Adjective ; ! ii-biologalaš Men det går flere stier. usme ii-stáhtalaš ii-stáhtalaš ii-+N+Err/HyphSub+Cmp/SgNom+Cmp/Hyph+Cmp#stáhta+Err/Orth+N+Der/lasj+A+Attr ii-stáhtalaš ii-+N+Err/HyphSub+Cmp/SgNom+Cmp/Hyph+Cmp#stáhta+Err/Orth+N+Der/lasj+A+Sg+Nom ii-stáhtalaš ii-+N+Err/HyphSub+Cmp/SgNom+Cmp/Hyph+Cmp#stáhta+v1+N+Der/lasj+A+Attr ii-stáhtalaš ii-+N+Err/HyphSub+Cmp/SgNom+Cmp/Hyph+Cmp#stáhta+v1+N+Der/lasj+A+Sg+Nom ii-stáhtalaš ii-+N+Err/HyphSub+Cmp/SgNom+Cmp/Hyph+Cmp#stáhta+Err/Orth+N+Der/lasj+A+Attr ii-stáhtalaš ii-+N+Err/HyphSub+Cmp/SgNom+Cmp/Hyph+Cmp#stáhta+Err/Orth+N+Der/lasj+A+Sg+Nom ii-stáhtalaš ii-+N+Err/HyphSub+Cmp/SgNom+Cmp/Hyph+Cmp#stáhta+v1+N+Der/lasj+A+Attr ii-stáhtalaš ii-+N+Err/HyphSub+Cmp/SgNom+Cmp/Hyph+Cmp#stáhta+v1+N+Der/lasj+A+Sg+Nom ii-stáhtalaš ii-+Err/Orthstáhta+Err/Orth+N+Der/lasj+A+Attr ii-stáhtalaš ii-+Err/Orthstáhta+Err/Orth+N+Der/lasj+A+Sg+Nom ii-stáhtalaš ii-+Err/Orthstáhta+v1+N+Der/lasj+A+Attr ii-stáhtalaš ii-+Err/Orthstáhta+v1+N+Der/lasj+A+Sg+Nom ii-stáhtalaš ii-+Err/Orthstáhtalaš+A+Attr ii-stáhtalaš ii-+Err/Orthstáhtalaš+A+Sg+Nom
Setter Ciprian som CC fordi dette har konsekvenser for korpus
Dette er det eg får med den nye tokeniseringa: $ echo "ii-stáhtalaš" |hfst-tokenise --giella-cg tools/preprocess/tokeniser-disamb-gt-desc.pmhfst "<ii-stáhtalaš>" "ii-" Err/Orth "stáhta" Err/Orth NN Sem/Org Der/lasj A Attr <W:0> "ii-" Err/Orth "stáhta" Err/Orth NN Sem/Org Der/lasj A Sg Nom <W:0> "ii-" Err/Orth "stáhta" NN Sem/Org Der/lasj A Attr <W:0> "ii-" Err/Orth "stáhta" NN Sem/Org Der/lasj A Sg Nom <W:0> "ii-" Err/Orth "stáhtalaš" A Sem/Dummytag Attr <W:0> "ii-" Err/Orth "stáhtalaš" A Sem/Dummytag Sg Nom <W:0> "stáhta" Err/Orth NN Sem/Org Der/lasj A Attr <W:10> "ii-" N Err/HyphSub Sem/Dummytag Cmp/SgNom Cmp/Hyph Cmp <W:10> "stáhta" Err/Orth NN Sem/Org Der/lasj A Sg Nom <W:10> "ii-" N Err/HyphSub Sem/Dummytag Cmp/SgNom Cmp/Hyph Cmp <W:10> "stáhta" NN Sem/Org Der/lasj A Attr <W:10> "ii-" N Err/HyphSub Sem/Dummytag Cmp/SgNom Cmp/Hyph Cmp <W:10> "stáhta" NN Sem/Org Der/lasj A Sg Nom <W:10> "ii-" N Err/HyphSub Sem/Dummytag Cmp/SgNom Cmp/Hyph Cmp <W:10> :\n Og det ser jo ikkje bra ut. Men eg forstår ikkje heilt på kva slags måte vi kan unngå å få Err/Orth midt i lemma-strengen, fordi det nettopp er bruken av ii- som er problematisk.
Kan vi ikkje bruke taggen +Err/Orth+ for prefiks? Altså + til slutt, jf. echo "ii-stáhtalaš ii-+Err/Orth+stáhtalaš+A+Sg+Nom"|lookup2cg "<ii-stáhtalaš>" "ii-" Err/Orth stáhtalaš A Sg Nom
Jeg kommenterte ut stien fra compounds-fila, og no har vi denne stien fra nouns: ii-stáhtalaš ii-+N+Err/Lex+Cmp/SgNom+Cmp/Hyph+Cmp#stáhta+v1+N+Der/lasj+A+Attr Jeg foreslår å endre +N til +V sme$ echo ii-stáhtalaš | usmedis | lookup2cg "<ii-stáhtalaš>" "ii-#stáhta" NN Sem/Org Der/lasj A Attr "ii-#stáhta" NN Sem/Org Der/lasj A Sg Nom
Det er det for så vidt eit godt argument for (ii = +V)
it is good to do that? to: endre +N til +V