Bug 2231 - prefix ii- fungerer ikke som det skal
Summary: prefix ii- fungerer ikke som det skal
Status: ASSIGNED
Alias: None
Product: sme lexicon
Classification: Unclassified
Component: Stem lexica (show other bugs)
Version: unspecified
Hardware: Macintosh Other
: P3 - Within a week normal
Assignee: Thomas Omma
URL:
Keywords:
Depends on:
Blocks:
 
Reported: 2016-10-17 12:59 CEST by Lene Antonsen
Modified: 2016-12-19 08:43 CET (History)
6 users (show)

See Also:


Attachments

Note You need to log in before you can comment on or make changes to this bug.
Description Lene Antonsen 2016-10-17 12:59:53 CEST
prefix ii- fungerer ikke som det skal

Her får vi flere typer Err-tagger, men hovedproblemet er former som +Err/Orthstáhta.
Årsaka er compunding.lexc:
 ii-+Err/Orth+Use/Circ:ii-       Noun    ;
 ii-+Err/Orth+Use/Circ:ii-       Adjective ; ! ii-biologalaš 

Men det går flere stier.


usme
ii-stáhtalaš
ii-stáhtalaš	ii-+N+Err/HyphSub+Cmp/SgNom+Cmp/Hyph+Cmp#stáhta+Err/Orth+N+Der/lasj+A+Attr
ii-stáhtalaš	ii-+N+Err/HyphSub+Cmp/SgNom+Cmp/Hyph+Cmp#stáhta+Err/Orth+N+Der/lasj+A+Sg+Nom
ii-stáhtalaš	ii-+N+Err/HyphSub+Cmp/SgNom+Cmp/Hyph+Cmp#stáhta+v1+N+Der/lasj+A+Attr
ii-stáhtalaš	ii-+N+Err/HyphSub+Cmp/SgNom+Cmp/Hyph+Cmp#stáhta+v1+N+Der/lasj+A+Sg+Nom
ii-stáhtalaš	ii-+N+Err/HyphSub+Cmp/SgNom+Cmp/Hyph+Cmp#stáhta+Err/Orth+N+Der/lasj+A+Attr
ii-stáhtalaš	ii-+N+Err/HyphSub+Cmp/SgNom+Cmp/Hyph+Cmp#stáhta+Err/Orth+N+Der/lasj+A+Sg+Nom
ii-stáhtalaš	ii-+N+Err/HyphSub+Cmp/SgNom+Cmp/Hyph+Cmp#stáhta+v1+N+Der/lasj+A+Attr
ii-stáhtalaš	ii-+N+Err/HyphSub+Cmp/SgNom+Cmp/Hyph+Cmp#stáhta+v1+N+Der/lasj+A+Sg+Nom
ii-stáhtalaš	ii-+Err/Orthstáhta+Err/Orth+N+Der/lasj+A+Attr
ii-stáhtalaš	ii-+Err/Orthstáhta+Err/Orth+N+Der/lasj+A+Sg+Nom
ii-stáhtalaš	ii-+Err/Orthstáhta+v1+N+Der/lasj+A+Attr
ii-stáhtalaš	ii-+Err/Orthstáhta+v1+N+Der/lasj+A+Sg+Nom
ii-stáhtalaš	ii-+Err/Orthstáhtalaš+A+Attr
ii-stáhtalaš	ii-+Err/Orthstáhtalaš+A+Sg+Nom
Comment 1 Lene Antonsen 2016-10-17 13:00:36 CEST
Setter Ciprian som CC fordi dette har konsekvenser for korpus
Comment 2 Sjur Nørstebø Moshagen 2016-10-17 14:16:00 CEST
Dette er det eg får med den nye tokeniseringa:

$ echo "ii-stáhtalaš" |hfst-tokenise --giella-cg tools/preprocess/tokeniser-disamb-gt-desc.pmhfst
"<ii-stáhtalaš>"
	"ii-" Err/Orth "stáhta" Err/Orth NN Sem/Org Der/lasj A Attr <W:0>
	"ii-" Err/Orth "stáhta" Err/Orth NN Sem/Org Der/lasj A Sg Nom <W:0>
	"ii-" Err/Orth "stáhta" NN Sem/Org Der/lasj A Attr <W:0>
	"ii-" Err/Orth "stáhta" NN Sem/Org Der/lasj A Sg Nom <W:0>
	"ii-" Err/Orth "stáhtalaš" A Sem/Dummytag Attr <W:0>
	"ii-" Err/Orth "stáhtalaš" A Sem/Dummytag Sg Nom <W:0>
	"stáhta" Err/Orth NN Sem/Org Der/lasj A Attr <W:10>
		"ii-" N Err/HyphSub Sem/Dummytag Cmp/SgNom Cmp/Hyph Cmp <W:10>
	"stáhta" Err/Orth NN Sem/Org Der/lasj A Sg Nom <W:10>
		"ii-" N Err/HyphSub Sem/Dummytag Cmp/SgNom Cmp/Hyph Cmp <W:10>
	"stáhta" NN Sem/Org Der/lasj A Attr <W:10>
		"ii-" N Err/HyphSub Sem/Dummytag Cmp/SgNom Cmp/Hyph Cmp <W:10>
	"stáhta" NN Sem/Org Der/lasj A Sg Nom <W:10>
		"ii-" N Err/HyphSub Sem/Dummytag Cmp/SgNom Cmp/Hyph Cmp <W:10>
:\n

Og det ser jo ikkje bra ut. Men eg forstår ikkje heilt på kva slags måte vi kan unngå å få Err/Orth midt i lemma-strengen, fordi det nettopp er bruken av ii- som er problematisk.
Comment 3 Trond Trosterud 2016-10-17 18:43:05 CEST
Kan vi ikkje bruke taggen +Err/Orth+ for prefiks? Altså + til slutt, jf.

 echo "ii-stáhtalaš   ii-+Err/Orth+stáhtalaš+A+Sg+Nom"|lookup2cg
"<ii-stáhtalaš>"
	 "ii-" Err/Orth stáhtalaš A Sg Nom
Comment 4 Lene Antonsen 2016-12-14 23:07:43 CET
Jeg kommenterte ut stien fra compounds-fila, og no har vi denne stien fra nouns:
ii-stáhtalaš	ii-+N+Err/Lex+Cmp/SgNom+Cmp/Hyph+Cmp#stáhta+v1+N+Der/lasj+A+Attr

Jeg foreslår å endre +N til +V

sme$ echo ii-stáhtalaš | usmedis | lookup2cg
"<ii-stáhtalaš>"
	 "ii-#stáhta" NN Sem/Org Der/lasj A Attr
	 "ii-#stáhta" NN Sem/Org Der/lasj A Sg Nom
Comment 5 Trond Trosterud 2016-12-17 21:57:06 CET
Det er det for så vidt eit godt argument for (ii = +V)
Comment 6 Thomas Omma 2016-12-19 08:43:25 CET
it is good to do that?
to: endre +N til +V