Bug 2213 - sammensetning av enstavelses navn fungerer ikke likt
Summary: sammensetning av enstavelses navn fungerer ikke likt
Status: ASSIGNED
Alias: None
Product: sme lexicon
Classification: Unclassified
Component: Continuation lexica (show other bugs)
Version: unspecified
Hardware: All All
: P4 - Within a month normal
Assignee: Sjur Nørstebø Moshagen
URL:
Keywords:
Depends on:
Blocks:
 
Reported: 2016-09-07 14:02 CEST by Lene Antonsen
Modified: 2016-09-19 07:37 CEST (History)
7 users (show)

See Also:


Attachments

Note You need to log in before you can comment on or make changes to this bug.
Description Lene Antonsen 2016-09-07 14:02:29 CEST
i fila: smi-propernouns.lexc er navn med tre bokstaver merka på to måter for å unngå sammensetninger,
både med leksikon og med tagg:

LEXICON ProperNoun-smi-nocomp
Ann+CmpNP/None+OLang/UND:Ann9 BERN-fem ;

Denne begrensninga fungerer for øyeblikket bare for sma.
Dvs at det likevel går sti med flagg til ProperNoun-smi-nocomp-leksikonet.

Det også tagg for å begrense dette?  +CmpNP/None? Eller er den beregna for sammensetninger uten hyph? Bare for HFST?

Hvis jeg forstår dette riktig, så er det bare sma som fungerer slik den skal?

apertium-sme-sma$ husmeNorm 
Ann-Lene
Ann-Lene	Ann+N+Prop+Sem/Fem+Cmp/SgNom+Cmp-#Lene+N+Prop+Sem/Fem+Attr	10,000000
Ann-Lene	Ann+N+Prop+Sem/Fem+Cmp/SgNom+Cmp-#Lene+N+Prop+Sem/Fem+Sg+Acc	10,000000
Ann-Lene	Ann+N+Prop+Sem/Fem+Cmp/SgNom+Cmp-#Lene+N+Prop+Sem/Fem+Sg+Gen	10,000000
Ann-Lene	Ann+N+Prop+Sem/Fem+Cmp/SgNom+Cmp-#Lene+N+Prop+Sem/Fem+Sg+Nom	10,000000

husmjNorm 
Ann-Lene
Ann-Lene	Ann+N+Prop+Sem/Fem+Cmp/SgNom+Cmp-#Lene+N+Prop+Sem/Fem+Attr	0,000000
Ann-Lene	Ann+N+Prop+Sem/Fem+Cmp/SgNom+Cmp-#Lene+N+Prop+Sem/Fem+Attr	0,000000
Ann-Lene	Ann+N+Prop+Sem/Fem+Cmp/SgNom+Cmp-#Lene+N+Prop+Sem/Fem+Pl+Nom	0,000000
Ann-Lene	Ann+N+Prop+Sem/Fem+Cmp/SgNom+Cmp-#Lene+N+Prop+Sem/Fem+Sg+Gen	0,000000
Ann-Lene	Ann+N+Prop+Sem/Fem+Cmp/SgNom+Cmp-#Lene+N+Prop+Sem/Fem+Sg+Nom	0,000000

husmaNorm 
Ann-Lene
Ann-Lene	Ann-Lene+?	inf
Comment 1 Lene Antonsen 2016-09-07 14:10:47 CEST
Denne begrensninga var kanskje ikke ment for med Hyph, men bare uten?  Kanskje er det sma som begrenser for mye?

sme$ husme
Annviessu
Annviessu	Annviessu+?	inf

Leneviessu
Leneviessu	Lene+N+Prop+Sem/Fem+Cmp/SgNom+Cmp#viessu+N+Sg+Nom	10,000000

^C
Comment 2 Sjur Nørstebø Moshagen 2016-09-08 08:49:07 CEST
Det er rett at det er to system, og det er ikkje bra. Grunnen til at det har laga seg to system er at det taggbaserte systemet berre har vore brukt i stavekontrollane, og når det då har dukka opp liknande behov for norm-fst-ane har vi laga eit alternativt, leksikonbasert system. Det som er verre, er at desse to systema ikkje oppfører seg (heilt) likt.

Vi må sjå over heile prosessen med å kontrollera samansetjingar både for norm-fst-ar, desc-fst-ar og andre fst-ar, som t.d. stavekontrollar og grammatikkontrollanalysatorar.
Comment 3 Lene Antonsen 2016-09-19 07:37:26 CEST
Pga MT-evalueringa gjør jeg noen endringer, for å få dette til å fungere i sma.

Logmelding 13.2.2015:
Added the same compounding restrictions to SMA as to SME, SMJ and SMN. Short propers are now blocked completely from compounding, will change later to allow hyphens.

Det ser ut til at det er dette som problemet.

Stiene til propernouns er veldig annerledes i root-fila for sma enn sme og smj, og det er til og med doble stier. Jeg kommenterer ut og endrer slik at det blir likt med sme og sma. 


Jeg endrer sma slik at den blir lik sme og smj.

 husma
Ann-Lene
Ann-Lene	Ann+N+Prop+Sem/Fem+Cmp/SgGen+Cmp-#Lene+N+Prop+Sem/Fem+Attr	10,000000
Ann-Lene	Ann+N+Prop+Sem/Fem+Cmp/SgGen+Cmp-#Lene+N+Prop+Sem/Fem+Sg+Nom	10,000000
Ann-Lene	Ann+N+Prop+Sem/Fem+Cmp/SgNom+Cmp-#Lene+N+Prop+Sem/Fem+Attr	10,000000
Ann-Lene	Ann+N+Prop+Sem/Fem+Cmp/SgNom+Cmp-#Lene+N+Prop+Sem/Fem+Sg+Nom	10,000000