Bug 2296 - Cmp-diskusjonen: tagging av leksikaliserte sammensetninger
Summary: Cmp-diskusjonen: tagging av leksikaliserte sammensetninger
Status: ASSIGNED
Alias: None
Product: sme lexicon
Classification: Unclassified
Component: Continuation lexica (show other bugs)
Version: unspecified
Hardware: Macintosh Other
: P5 - Later enhancement
Assignee: Thomas Omma
URL:
Keywords:
Depends on:
Blocks:
 
Reported: 2016-12-07 13:59 CET by Lene Antonsen
Modified: 2016-12-09 12:31 CET (History)
5 users (show)

See Also:


Attachments

Note You need to log in before you can comment on or make changes to this bug.
Description Lene Antonsen 2016-12-07 13:59:02 CET
Denne saka gjelder alle samiske språk, og er en sak vi bør diskutere, sikkert også utafor bugzilla. Jeg skriver den her slik at vi har dokumentasjon.

Trond og jeg har sett på korpusanalysen, og spesielt på sammensatte substantiv, i hvor stor grad vi kan se ordet 'innafra', dvs si se den morfologiske oppbygginga av sammensetningen. og vi sa noe som typer og produktivitet.

Men analysen av korpuset ga oss en liste på nærmere 97.500 ordformer som er sammensatte substantiv, selv om de ikke får en dynamisk sammensetningsanalyse. De utgjør 4 % av alle sammensetninger. Disse ordene fordeler seg på 1636 forskjellige sammensatte substantiv. Av disse har ca. 40 % forledd som ikke er leksikalisert som eget ord i transduseren, for eksempel fullstendig lånord (dragrace) og derfor ikke samisk sammensetning. Men det er også ord som som har lånt bare forleddet, som adoptiiva i adoptiivaváhnen (‘adoptivforelder’) og ca. 20 % adverb som førsteledd (f.eks. maŋisboahtti (‘etterkommer’). Det er en del færre som har substantiv eller adjektiv som førsteledd som i transduseren ikke kan danne dynamisk sammensetning, og det er noen pronomen, som iešdovdu (‘selvfølelse’). 

Noen typer av disse mener jeg burde ha dynamiske stier, se andre bz-er

Bør man ved tagging vise hvilken type sammensetning det er også for de sammensetningene som ikke bør være dynamiske?

Filer av interesse:
langs/sme/src/morphology/incoming/corpcmp_notcmpanalysis
langs/sme/src/morphology/incoming/lexccmp_notcmpanalysis
Comment 1 Lene Antonsen 2016-12-09 12:17:27 CET
En sak til for diskusjon: 
Adjektivene som går til i FINJU- får +Err/Lex i Cmp fordi de har substantiv Cmp.
Vi har tilsvarende system i andre samiske språk, og i smn har vi Cmp som A.

bonjuolbmot	bonju+Err/Lex+A+Cmp/Attr+Cmp#olmmoš+N+Pl+Nom
bonjuolbmot	bonju+N+Cmp/SgNom+Cmp#olmmoš+N+Pl+Nom
Comment 2 Lene Antonsen 2016-12-09 12:31:12 CET
(In reply to Lene Antonsen from comment #1)
> En sak til for diskusjon: 
> Adjektivene som går til i FINJU- får +Err/Lex i Cmp fordi de har substantiv
> Cmp.
> Vi har tilsvarende system i andre samiske språk, og i smn har vi Cmp som A.
> 
> bonjuolbmot	bonju+Err/Lex+A+Cmp/Attr+Cmp#olmmoš+N+Pl+Nom
> bonjuolbmot	bonju+N+Cmp/SgNom+Cmp#olmmoš+N+Pl+Nom

Jeg lager en egen bz 2303 på denne