Bug 2424 - Unngå språklig materiale på lemmasida i affix- og compounds-filer
Summary: Unngå språklig materiale på lemmasida i affix- og compounds-filer
Status: REOPENED
Alias: None
Product: sme lexicon
Classification: Unclassified
Component: Continuation lexica (show other bugs)
Version: unspecified
Hardware: Macintosh Other
: P4 - Within a month normal
Assignee: Thomas Omma
URL:
Keywords:
Depends on:
Blocks:
 
Reported: 2017-09-20 10:31 CEST by Lene Antonsen
Modified: 2020-10-26 15:43 CET (History)
5 users (show)

See Also:


Attachments

Note You need to log in before you can comment on or make changes to this bug.
Description Lene Antonsen 2017-09-20 10:31:47 CEST
Jeg foreslår at vi legger alle lemmaer bare i stems-filer, og ikke i affix- og compoundsfiler. Dette gjelder alle språk, men det er mest i sme vi har det i dag.
Grunner:
1) det er vanskeligere å korrigere og debugge stier fordi man forventer at lemmaene skal være i stems-filer
2) det er vanskeligere (umulig?) å lage sjekk-tagg-skript som omfatter alle tagger, også dem som er skrevet uten +, selv om de skulle hatt det, se behovet i innsjekkinger rev 157226 og 157224

Konkrete forslag:

I affixes/adjectives.lexc:
NomActVEARA flyttes til stems/adjectives.lexc:

I affixes/nouns.lexc:
ALLGUOVT flyttes til stems/nouns.lexc
% dihte legges i stems/adverbs.lexc men med sti fra leksikonet hvor de er nå

I compounding.lexc:

LEXICON Prefixes flyttes til stems/nouns.lexc eller evt til et nytt  stems/prefixes.lexc
Comment 1 Thomas Omma 2017-09-20 10:52:01 CEST
seems good
Comment 2 Thomas Omma 2017-09-20 10:52:23 CEST
I try
Comment 3 Thomas Omma 2017-09-22 15:08:24 CEST
sme $ svn ci -m "moved around things, bug2424" src
Sending        src/morphology/affixes/adjectives.lexc
Sending        src/morphology/affixes/nouns.lexc
Sending        src/morphology/compounding.lexc
Sending        src/morphology/stems/adjectives.lexc
Sending        src/morphology/stems/adverbs.lexc
Sending        src/morphology/stems/nouns.lexc
Transmitting file data ......
Committed revision 157414.
Comment 4 Thomas Omma 2017-09-25 14:43:52 CEST
i had to revert this thingy, yaml-tests failed, dont know why
Comment 5 Sjur Nørstebø Moshagen 2019-10-07 09:32:39 CEST
(In reply to Thomas Omma from comment #4)
> i had to revert this thingy, yaml-tests failed, dont know why

Kan du spesifisera kva som feila, så kan vi diskutera kva som er problemet, og korleis det kan løysast?
Comment 6 Thomas Omma 2019-10-07 11:16:17 CEST
i dont remember a thing of this
Comment 7 Lene Antonsen 2020-10-26 15:43:58 CET
Jeg følger opp denne. Mye er gjort, men enda gjenstår det:

i smj har vi src/fst/prefixes.lexc, src/fst/clitics.lexc
i sma har vi src/fst/clitics.lexc pluss LEXICON Prefixes i src/fst/compounding.lexc 
i sme har vi src/fst/clitics.lexc pluss LEXICON Prefixes i src/fst/compounding.lexc 
i smn har vi src/fst/clitics.lexc

Jeg mener at alle disse bør flyttes over i stem, og at vi ser på tagginga. Når har vi f.eks. 
Davvi+Cmp#Sápmi+N+Prop+Sem/Plc+Sg+Nom

dvs at første del mangler PoS osv. Dette lager problemer i MT, vi bør ha lik tagging for all Cmp