Der/lágaš og Der/lágan derivasjonene fungerer ikke slik de skal i lookup2cg pga # Vi kan konkludere med at lookup2cg må fikses, men spørsmålet her er om analysene er slik vi vil ha dem. Hvorfor er # med? usme: alitlágáš alit+A+Attr#+Der/lágaš+A+Sg+Nom <=== her mangler SgNomCmp-analysen (alit er både Attr og Sg Nom) ruoksatlágaš ruoksat+A+SgNomCmp#+Der/lágaš+A+Sg+Nom rukseslágaš ruoksat+A+Attr#+Der/lágaš+A+Sg+Nom guovttejuolggat guokte+Num+Sg+Gen+Der/juolggat+A+Sg+Nom <== for sammenlikning, ingen # echo 'alitlágaš' | usme | lookup2cg <=== Der/lágaš -analysen forsvinner pga av den har # og det finnes alternative analyser "<alitlágaš>" "alitlágaš" A Sg Nom "alitlágaš" A Attr "alitlágaš" A Sg Gen "alitlágaš" A Sg Acc src$ echo 'ruoksatlágaš' | usme | lookup2cg "ruoksat+A+SgNomCmp#" Der/lágaš A Sg Nom <== lemmaet er ikke riktig, pga # src$ echo 'ruoksatlágan' | usme | lookup2cg <=== Der/lágan -analysen forsvinner pga av den har # og det finnes alternative analyser, ingen av dem er relevante "<ruoksatlágan>" "ruoksat#láhka" N Sg Loc "ruoksat#lága" N Sg Nom PxSg1 "ruoksat#lága" N Sg Acc PxSg1 "ruoksat#lága" N Sg Loc "ruoksat#lága" N Ess "ruoksat#lága" N Sg Gen PxSg1
Det er flere typer derivasjoner som får #, f.eks. heajosoaivvat heajosoaivvat headju+A+Attr#+Der/oaivvat+A+Sg+Nom heajosoaivvat headju+A+Attr#+Der/oaivvat+A+Sg+Gen heajosoaivvat headju+A+Attr#+Der/oaivvat+A+Sg+Acc heajosoaivvat headju+A+Attr#+Der/oaivvat+A+Attr
Eg har no fjerna # frå derivasjonane frå A via NAMAT til nye adjektiv, svn 59192 og 59194. Her er resultatet: echo 'ruoksatlágan' | usme | lookup2cg "<ruoksatlágan>" "ruoksat#láhka" N Sg Loc "ruoksat" A* SgNomCmp Der/lágan A Attr "ruoksat" A* SgNomCmp Der/lágan A Sg Acc "ruoksat" A* SgNomCmp Der/lágan A Sg Nom "ruoksat" A* SgNomCmp Der/lágan A Sg Gen "ruoksat#lága" N Ess "ruoksat#lága" N Sg Gen PxSg1 "ruoksat#lága" N Sg Acc PxSg1 "ruoksat#lága" N Sg Loc "ruoksat#lága" N Sg Nom PxSg1 echo 'heajosoaivvat' | usme | lookup2cg "<heajosoaivvat>" "headju" A* Attr Der/oaivvat A Sg Nom "headju" A* Attr Der/oaivvat A Sg Gen "headju" A* Attr Der/oaivvat A Sg Acc "headju" A* Attr Der/oaivvat A Attr Det positive er at vi no får NAMAT-formene (dei vart fjerna tidlegare). Ein mogleg bieffekt har vi i tilfelle det er gode grunnar til å ha # der. Eg held bugen open i tilfelle.
+A+Attr+Der/lágaš er problematisk for vislcg3. echo 'rukseslágáš' | usme | lookup2cg "rukses#lágáš" N Sg Nom "ruoksat" A* Attr Der/lágaš A Attr <======= riktig "ruoksat" A* Attr Der/lágaš A Sg Acc "ruoksat" A* Attr Der/lágaš A Sg Nom "ruoksat" A* Attr Der/lágaš A Sg Gen "rukses#lágáš" N Sg Acc "rukses#lágáš" N Sg Gen echo 'rukseslágáš' | usme | lookup2cg | vislcg3 -g ~/gtsvn/gt/sme/src/sme-dis.rle --trace "<rukseslágáš>" "rukses#lágáš" N Sg Nom @HNOUN MAP:14778:r328 ; "ruoksat" A* Attr Der/lágaš A REMOVE:7366:r1703 <======= A Attr har blitt til A ; "ruoksat" A* Attr Der/lágaš A Sg Acc REMOVE:7366:r1703 ; "ruoksat" A* Attr Der/lágaš A Sg Nom REMOVE:7366:r1703 ; "ruoksat" A* Attr Der/lágaš A Sg Gen REMOVE:7366:r1703 ; "rukses#lágáš" N Sg Acc REMOVE:9790:r2186 ; "rukses#lágáš" N Sg Gen @X MAP:15605 REMOVE:15607 Jeg har testet litt, og vislcg3 gjengir ikke to like tagger, dvs at den andre Attr forsvinner. Dvs at lookup2cg må legge * til den første Attr, noe som også er viktig for riktig disambiguering, ellers vil alle lesningene bli tolket som Attr. hfst: gt$ echo 'rukseslágaš' | hfst-proc -C -e sme/bin/sme.hfstol "<rukseslágaš>" "ruoksat" A Attr ‡ ‡ Der/lágaš A Attr "ruoksat" A Attr ‡ ‡ Der/lágaš A Sg Acc "ruoksat" A Attr ‡ ‡ Der/lágaš A Sg Gen "ruoksat" A Attr ‡ ‡ Der/lágaš A Sg Nom
Eitt alternativ er å __ikkje__ ha Attr som tag til venstre for Der/lágaš. Sakleg sett er det korrekt, Attr er ein syntaktisk tag, og det skal ikkje vere syntaks inni ordet. Så A* Attr* er eitt alternativ, men eit anna er berre A*, utan Attr.
(In reply to comment #4) > Eitt alternativ er å __ikkje__ ha Attr som tag til venstre for Der/lágaš. > Sakleg sett er det korrekt, Attr er ein syntaktisk tag, og det skal ikkje vere > syntaks inni ordet. Så A* Attr* er eitt alternativ, men eit anna er berre A*, > utan Attr. Eg fekk ingen Attr-analyser tidlegare (svn frå fleire veker sidan), og eg får ingen Attr no: $ usme ruoksatlágan ruoksatlágan ruoksat+A+SgGenCmp+Cmp#láhka+N+Sg+Loc ruoksatlágan ruoksat+A+SgGenCmp+Cmp#lága+N+Sg+Loc ruoksatlágan ruoksat+A+SgGenCmp+Cmp#lága+N+Ess ruoksatlágan ruoksat+A+SgGenCmp+Cmp#lága+N+Sg+Nom+PxSg1 ruoksatlágan ruoksat+A+SgGenCmp+Cmp#lága+N+Sg+Gen+PxSg1 ruoksatlágan ruoksat+A+SgGenCmp+Cmp#lága+N+Sg+Acc+PxSg1 ruoksatlágan ruoksat+A+SgNomCmp+Der/lágan+A+Attr ruoksatlágan ruoksat+A+SgNomCmp+Der/lágan+A+Sg+Gen ruoksatlágan ruoksat+A+SgNomCmp+Der/lágan+A+Sg+Acc ruoksatlágan ruoksat+A+SgNomCmp+Der/lágan+A+Sg+Nom ruoksatlágan ruoksat+A+SgNomCmp+Cmp#láhka+N+Sg+Loc ruoksatlágan ruoksat+A+SgNomCmp+Cmp#lága+N+Sg+Loc ruoksatlágan ruoksat+A+SgNomCmp+Cmp#lága+N+Ess ruoksatlágan ruoksat+A+SgNomCmp+Cmp#lága+N+Sg+Nom+PxSg1 ruoksatlágan ruoksat+A+SgNomCmp+Cmp#lága+N+Sg+Gen+PxSg1 ruoksatlágan ruoksat+A+SgNomCmp+Cmp#lága+N+Sg+Acc+PxSg1 ruoksatlágan ruoksat+A+SgNomCmp+Cmp#láhka+N+Sg+Loc ruoksatlágan ruoksat+A+SgNomCmp+Cmp#lága+N+Sg+Loc ruoksatlágan ruoksat+A+SgNomCmp+Cmp#lága+N+Ess ruoksatlágan ruoksat+A+SgNomCmp+Cmp#lága+N+Sg+Nom+PxSg1 ruoksatlágan ruoksat+A+SgNomCmp+Cmp#lága+N+Sg+Gen+PxSg1 ruoksatlágan ruoksat+A+SgNomCmp+Cmp#lága+N+Sg+Acc+PxSg1 og med lookup2cg: $ echo 'ruoksatlágan' | usme | lookup2cg "<ruoksatlágan>" "ruoksat#láhka" N Sg Loc "ruoksat" A* SgNomCmp Der/lágan A Attr "ruoksat" A* SgNomCmp Der/lágan A Sg Acc "ruoksat" A* SgNomCmp Der/lágan A Sg Nom "ruoksat" A* SgNomCmp Der/lágan A Sg Gen "ruoksat#lága" N Ess "ruoksat#lága" N Sg Gen PxSg1 "ruoksat#lága" N Sg Acc PxSg1 "ruoksat#lága" N Sg Loc "ruoksat#lága" N Sg Nom PxSg1 Etter det eg kan sjå, er dette ok no?
Du får ikkje Attr fordi du testar med ruoksat (pred-form) og ikkje rukses (Attr-form), i ruoksatlágan og ikkje rukseslágán. Som du ser har vi Attr der, og det er altså ikkje ok. At revision 59215. ~/main/gt$make GTLANG=sme make: Nothing to be done for `all'. ~/main/gt$echo rukseslágán | usme | lookup2cg "<rukseslágán>" "rukseslágan" A Sg Gen "ruoksat" A* Attr Der/lágan A Sg Nom "ruoksat" A* Attr Der/lágan A Sg Gen "rukseslágan" A Sg Nom "rukseslágan" A Attr "ruoksat" A* Attr Der/lágan A Sg Acc "rukseslágan" A Sg Acc "ruoksat" A* Attr Der/lágan A Attr
(In reply to comment #6) > Du får ikkje Attr fordi du testar med ruoksat (pred-form) og ikkje rukses > (Attr-form), i ruoksatlágan og ikkje rukseslágán. Som du ser har vi Attr der, > og det er altså ikkje ok. Eg ser det no - begge formene (pred og attr) var brukte i dei andre kommentarane, og eg las ikkje nøye nok då eg kopierte kommandoane eg testa. Samtidig illustrerer dette eit skilje i form, ikkje berre i funksjon. Det blir samtidig eit argument for å la Attr stå i analysen: A Attr og A Sg Nom (dvs pred) er ikkje same form, og i og med at begge formene er brukte i diskusjonen, betyr vel det at begge er ok? I så fall må vi kunna skilja dei, både i analyse og i generering, og då treng vi begge taggane. Den enklaste løysinga er å gå over til sub-readings i CG så fort som råd - då vil A Attr vera ei underlesing, som vanlegvis ikkje er synleg for CG-reglane, og vi står att med berre A Sg Nom (for -lágaš), som vi vil ha. På det viset får vi både i pose og smekk. Kva synest de? NB! Viktig: underlesingar kan vi få fram både med Xerox og HFST - det ligg altså inga binding til HFST i den endringa. Men det krev at vislcg3 blir oppdatert, og det har vore liten respons frå Tino på den siste e-posten min om saka.
> Samtidig illustrerer dette eit skilje i form, ikkje berre i funksjon. Det blir > samtidig eit argument for å la Attr stå i analysen: A Attr og A Sg Nom (dvs > pred) er ikkje same form, og i og med at begge formene er brukte i diskusjonen, > betyr vel det at begge er ok? I så fall må vi kunna skilja dei, både i analyse > og i generering, og då treng vi begge taggane. > > Den enklaste løysinga er å gå over til sub-readings i CG så fort som råd - då > vil A Attr vera ei underlesing, som vanlegvis ikkje er synleg for CG-reglane, > og vi står att med berre A Sg Nom (for -lágaš), som vi vil ha. > > På det viset får vi både i pose og smekk. Kva synest de? > > NB! Viktig: underlesingar kan vi få fram både med Xerox og HFST - det ligg > altså inga binding til HFST i den endringa. Men det krev at vislcg3 blir > oppdatert, og det har vore liten respons frå Tino på den siste e-posten min om > saka. Å skille rukseslágan fra ruoksatlágan er ikke viktig i analyse, da ordene bare er varianter, og det har ingen syntaktisk forskjell. Men ved generering, er man avhengig av at taggene er forskjellige. Jeg foreslår at vi bruker samme konvensjon som ved andre sammensetninger: AttrCmp Ellers så ser jeg at når Attr og Sg Nom er homonyme, får vi bare Attr: ruonálágaš ruoná+A+Attr+Der/lágaš+A+Sg+Nom ruonálágaš ruoná+A+Attr+Der/lágaš+A+Sg+Gen ruonálágaš ruoná+A+Attr+Der/lágaš+A+Sg+Acc ruonálágaš ruoná+A+Attr+Der/lágaš+A+Attr ruonálágan ruoná+A+Attr+Der/lágan+A+Attr ruonálágan ruoná+A+Attr+Der/lágan+A+Sg+Gen ruonálágan ruoná+A+Attr+Der/lágan+A+Sg+Acc ruonálágan ruoná+A+Attr+Der/lágan+A+Sg+Nom Mao. er er Attr valgt som 'default'. Jeg har ingen synspunkter på om dette er bra eller ikke. alitlágan og álitlágaš er bare leksikaliserte, vi får ingen dynamisk analyse. ránislágan finnes ikke i vår analysator, men ráneslágan finnes. Slike ord dukker ikke opp på missinglister pga av alternative analyser med Cmp 'láhka' pg 'lága'. Dette burde vært sett på....
src$ svn ci -m "Endra til AttrCmp for deriveringer fra A Attr." propernoun-sme-morph.txt noun-sme-lex.txt adj-sme-lex.txt sme-lex.txt Sending adj-sme-lex.txt Sending noun-sme-lex.txt Sending propernoun-sme-morph.txt Sending sme-lex.txt Transmitting file data .... Committed revision 59237. Nå er analysen: heajosoaivvat headju+A+AttrCmp+Der/oaivvat+A+Attr rukseslágan ruoksat+A+AttrCmp+Der/lágan+A+Attr Fremdeles gjenstår en gjennomgang for å finne leksikoner som mangler sti til denne derivasjonen.
it seems fixed
(In reply to comment #10) > it seems fixed Nei, dette er ikke fiksa Jeg siterer fra comment nr 9: "Fremdeles gjenstår en gjennomgang for å finne leksikoner som mangler sti til denne derivasjonen." - og det er ikke gjort. Eksemplet under skulle hatt ránis+A+SgNomCmp+Der/lágan+A+Attr osv. på samme måte som ruoksatlágan får det. ránislágan ránislágan ránis+A+SgNomCmp+Cmp#láhka+N+Sg+Loc ránislágan ránis+A+SgNomCmp+Cmp#lága+N+Sg+Loc ránislágan ránis+A+SgNomCmp+Cmp#lága+N+Ess ránislágan ránis+A+SgNomCmp+Cmp#lága+N+Sg+Gen+PxSg1 ránislágan ránis+A+SgNomCmp+Cmp#lága+N+Sg+Acc+PxSg1 ránislágan ránis+A+SgNomCmp+Cmp#lága+N+Sg+Nom+PxSg1
oh but maybe it is better to take away ruoksatlágan?
I dont think lágan is used with Sg+Nom Adj, I mean
gea: ránislágan ránislágan ránis+A+SgNomCmp+Der/lágáš+v1+A+Attr ránislágan ránis+A+SgNomCmp+Der/lágáš+v1+A+Sg+Nom ránislágan ránis+A+SgNomCmp+Der/lágáš+v1+A+Sg+Acc ránislágan ránis+A+SgNomCmp+Der/lágán+v1+A+Attr ránislágan ránis+A+SgNomCmp+Der/lágán+v1+A+Sg+Nom ránislágan ránis+A+SgNomCmp+Der/lágán+v1+A+Sg+Acc ránislágan ránis+A+SgNomCmp+Der/lágaš+v1+A+Attr ránislágan ránis+A+SgNomCmp+Der/lágaš+v1+A+Sg+Nom ránislágan ránis+A+SgNomCmp+Der/lágaš+v1+A+Sg+Acc ránislágan ránis+A+SgNomCmp+Der/lágan+v1+A+Attr ránislágan ránis+A+SgNomCmp+Der/lágan+v1+A+Sg+Nom ránislágan ránis+A+SgNomCmp+Der/lágan+v1+A+Sg+Acc ránislágan ránis+A+SgNomCmp+Cmp#lága+N+Ess ránislágan ránis+A+SgNomCmp+Cmp#lága+N+Sg+Acc+PxSg1 ránislágan ránis+A+SgNomCmp+Cmp#lága+N+Sg+Gen+PxSg1 ránislágan ránis+A+SgNomCmp+Cmp#lága+N+Sg+Nom+PxSg1
the removal of # had unwanted impact on vowelshorteing: gt $ usmeNorm 0%>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>100% vierisnáittot vierisnáittot vieris+A+AttrCmp+Der/náittot+A+Sg+Nom vierisnáittot vieris+A+AttrCmp+Der/náittot+A+Attr vieresnáittot vieresnáittot vieresnáittot +?
hmmm...or was this earlier?
Også for meg er A Nom Sg + Der/lágan en uvant derivasjon. Da denne buggen blei starta, så spurte jeg meg for om denne derivasjonen, og fikk bekrefta at den fantes (husker ikke fra hvem), og den fantes også i var fst. Jeg testa i korpuset (det analyserte), men her er resultatene veldig usikre pga av det som står forklart i denne buggen, at slike former forsvant pga av lookup, og vi har ingen nyere analyser. Analysene for juni er mangelfulle for sme. Jeg foreslår at vi avventer dette til vi har nye analyser av korpuset, og så får vi vurdere. Evt kan man leksikalisere de A Nom Sg som evt finnes, hvis derivasjonen ikke er produktiv. Men uansett så er dette noe vi får finne ut av, og rydde i fst den ene eller andre vegen, før vi lukker buggen.
Dette gjelder forresten substantiver også: olmmošlágan olmmošlágan olmmoš+Hum+N+SgNomCmp+Cmp#láhka+N+Sg+Loc olmmošlágan olmmoš+Hum+N+SgNomCmp+Cmp#lága+N+Sg+Loc olmmošlágan olmmoš+Hum+N+SgNomCmp+Cmp#lága+N+Ess olmmošlágan olmmoš+Hum+N+SgNomCmp+Cmp#lága+N+Sg+Gen+PxSg1 olmmošlágan olmmoš+Hum+N+SgNomCmp+Cmp#lága+N+Sg+Acc+PxSg1 olmmošlágan olmmoš+Hum+N+SgNomCmp+Cmp#lága+N+Sg+Nom+PxSg1 Her mangler Der/lágan
jes, the not shortening vowel was already before the removal of #. I now tuned twol rule to get it right gt $ usmeNorm 0%>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>100% váttesnáittot váttesnáittot váttis+A#+Der/náittot+A+Sg+Nom váttesnáittot váttis+A#+Der/náittot+A+Attr váttisnáittot váttisnáittot váttisnáittot +? revision 63263
lágan takes Adj+Attr and nouns in both Nom and Gen I take away the Adj+Sg+Nom that are
we have some nountypes + der/lágan noaidelágan noaidi+Hum+N+SgNomCmp+Der/lágán+v1+A+Sg+Nom
i watch the other types over
I dont know why olmmošlágán doesnt function, it goes to R and I tried removing the flags as well, without suces: LEXICON MALIS0 +Sg+Nom: K ; +SgNomCmp@U.NeedsVowRed.ON@:X7@U.NeedsVowRed.ON@ R ; +SgNomCmp@U.NeedsVowRed.OFF@:@U.NeedsVowRed.OFF@ R ;
aha gt $ dsme 0%>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>100% olmmoš+N+SgNomCmp+Der/lágán+A+Attr olmmoš+N+SgNomCmp+Der/lágán+A+Attr olmmožlágan olmmoš+N+SgNomCmp+Der/lágán+A+Attr olmmožlágán
so it seems we need # there anyways
bajážlágán bajážlágán bajáš+A+AttrCmp+Der/lágan+v2+A+Attr bajážlágán bajáš+A+AttrCmp+Der/lágan+v2+A+Sg+Nom bajážlágán bajáš+A+AttrCmp+Der/lágan+v2+A+Sg+Acc we need it everywhere
Problemet med # og Der i analysen, er at det signaliserer til lookup2cg (og muligens hfxst-preprosessering), at denne analysen skal ut.
almmájlágán almmájlágán almmái+Hum+N+SgNomCmp+Der/lágán+v2+A+Attr
weve commented these out from speller and lexicalized a whole lot I don't know what do do with the generated ones
The problem summary is this: - # and Der/xxx does not go together because of lookup2cg (original bug report) - # we need # in dynamic compound-like derivations (e.g. Der/lágan) to get the correct final consonant of the first part/lemma (see comment #24, comment #25, comment #26) - removing # altogether (comment #2) produces wrong word forms, cf: > Det positive er at vi no får NAMAT-formene (dei vart fjerna tidlegare). Ein > mogleg bieffekt har vi i tilfelle det er gode grunnar til å ha # der. Eg held > bugen open i tilfelle. The side effect was - and is - that we get wrong word forms, at least for some stem types. (side note: I guess the etymological reason for the bug is that these derivations are originally compounds, where the last part has now lost its use as an independent word, but where the morpho-phonology still behaves as if there is a word boundary there. And our two-level rules are dependent upon such word boundaries.) What we need to do is: - reinsert # in all these cases, to get the correct word forms back (Trond, cf comment #2) - add a tag-cleaning regex that removes # on the analysis side IFF followed by Der/xxx (Sjur) Expected result: no #, only Der/xxx is given in the analysis, which should satisfy all parties. Requirement: To write a fully working regular expression, I need a list of all derivations that can appear with a # in front. Changing assignee to Trond, to do the first task. When it is done, give the bug to me.
Ok, eg ser på det.
Denne buggen har dessverre vorte liggande. Eg skulle skrive ei liste over derivasjonar som kunne få #, og deretter skulle Sjur skrive eit script for å sette inn # der det trengst for å få rett sluttkonsonant. Er dette framleis ei relevant problemstilling? (dette er ein to og eit halvt år gammal problemstilling). Eg har no gått gjennom og testa ein del av feila vi starta ut med, mend eg treng ein gjennomgang.
Slik er analysen nå for dynamiske Der/lágan: sme$ usmeNorm čuvgeslágan čuvgeslágan čuovgat+A+Attr+Der/lágan+A+Attr čuvgeslágan čuovgat+A+Attr+Der/lágan+A+Sg+Nom čuvgeslágan čuovgat+A+Attr+Der/lágan+A+Sg+Acc čuvgeslágan čuovgat+A+Attr+Cmp#lága+N+Ess čuvgeslágan čuovgat+A+Attr+Cmp#lága+N+Sg+Acc+PxSg1 čuvgeslágan čuovgat+A+Attr+Cmp#lága+N+Sg+Nom+PxSg1 čuvgeslágan čuovgat+A+Attr+Cmp#lága+N+Sg+Gen+PxSg1 čuvgeslágan čuovgat+A+AttrCmp+Der/lágan+A+Attr čuvgeslágan čuovgat+A+AttrCmp+Der/lágan+A+Sg+Nom čuvgeslágan čuovgat+A+AttrCmp+Der/lágan+A+Sg+Acc Vi har to analyser: čuovgat+A+AttrCmp+Der/lágan+A.. čuovgat+A+Attr+Der/lágan+A... Den ene må bort.
Jeg har sjekka inn liste over ord som får Der/lágan analyse i korpus 2014-11-17. i langs/sme/src/morphology/incoming/Derlagan.txt Svært mange ord får ikke analyse, det må legges til mer systematisk sub, f.eks. for -lagan.
(In reply to comment #33) > Vi har to analyser: > čuovgat+A+AttrCmp+Der/lágan+A.. > čuovgat+A+Attr+Der/lágan+A... > Den ene må bort. Det er sant, vl kan ikkje ha det slik. Lista > langs/sme/src/morphology/incoming/Derlagan.txt er eit godt utgangspunkt. Det er mange stiar som gjev Der/lágan her, så vi må rydde. Ein sti er i ATTR i affixes/adjectives.lexc, den går til NAMAT som også gjev Der/lágan Ein sti er via Rreal til R-LAGAN I tillegg er det for ein del adjektivleksika, men ikkje alle, referanse til NAMAT BUORRE, VIELGAT, NVDCompAttr_ISSORASSA-, HEITTOHA, FARGAT, ALLAGA, ATTRCONT, DenominalAdjsC, DenominalAdjsCLong, DenominalAdjsCShort Fleire av dei adjektivleksikona som har eigen NAMAT-referanse har ikkje referanse til ATTR, så det er for så vidt ok med NAMAT der. Problemet er å ha både referanse via ATTR og ha referanse via Rreal. I utgangspunktet har eg meir sans for AttrCmp enn for Attr, sjölv om det kanskje avvik litt frå praksis for dei andre ordklassene. Når det gjeld pörsmål om ATTR vs. Rreal ser det ut for meg til at dette er eit empirisk spörsmål, og at det er ATTR som er rett veg. Skal vi bruke Rreal må vi ta Der/lágan ut av NAMAT. Synspunkt?
Jeg foreslår et møte om denne slik at vi får avslutta buggen, den er snart tre år gammel
Jeg ser på -lágan i korpuset. Vi mangler sti fra proper til -lágan, f.eks. Biedjovákki-lágan, Heaikka-lágan, Máhte-lágan, Oscar-lágan, Risten-lágan, Røkke-lágan, Åsele-lágan Dessuten mangler fra ulikestavelsessubstantiver i nominativ (subformer?) hálddahuslágan, nivssatlágan
Møte om Der/lágan: Eg er heilt samd. Neste veke (?) er Divvun-veke, skal vi ta det da?
(In reply to comment #38) > Møte om Der/lágan: Eg er heilt samd. Neste veke (?) er Divvun-veke, skal vi ta > det da? Høver bra. Ikkje måndag eller torsdag.
SMJ har også dette NAMÁK-leksikonet med Der/agák, Der/belak, osv. Det jeg lurer på med disse derivasjonene er hvorfor hele ordet er definert som en derivasjon og ikke bare den siste bokstaven. For i lulesamisk, i allefall, så er denne denominal -k-derivasjonen relativt produktiv. De brukes ofte som andre ledd i et sammensatt ord, og første ledd er da gjerne substantiv, adjektiv eller tallord. Andreleddet er som regel et substantiv (dog jeg mistenker at noen er adjektiv, som buorak, stuorak, etc..), og eksakt hva som regulerer denne derivasjonen er ikke klart, men den har i allefall en videre distribusjon enn NAMÀK-leksikonet gir: Det burde åpnes for at flere substantiv kunne ta denne avledningsendelsen og ikke bare sammensatte ord (getjak, f.eks fungerer som enkeltord, og ikke bare som second comp slik den er regulert for nå +Der/getjak). Spørsmålet her er altså hvorfor akkurat ordene i NAMÁK er plukket ut som second compounds som tar denne -k-avledningen. Forslaget mitt er at det lages en egen +Der/k tag og at disse andre derivasjonstaggene i NAMAK fjernes. Så kan det vurderes om det er noen tilfeller hvor originalsubstantivet ikke lenger brukes og hvor det da kan være fordelsmessig å beholde en slik type "leksikalisert derivasjon" (+Der/agák, feks er jeg ikke helt sikker på opphavsordet til) SMJ har for øvrig ikke denne # i NAMÁK: ådågirjak ådås+A+Attr+Der/girjak+A+Attr buorrebelak buorre+A+Attr+Der/belak+A+Sg+Nom
Jeg støtter forslaget til Sandra. Dette stemmer også med hvordan dette beskrives f.eks. i N/S s. 638, og hvordan ordene oppfører seg morfofologisk (som en sammensetning). > vurderes om det er noen tilfeller hvor originalsubstantivet ikke lenger brukes > og hvor det da kan være fordelsmessig å beholde en slik type "leksikalisert > derivasjon" (+Der/agák, feks er jeg ikke helt sikker på opphavsordet til) Når vi ikke vet opphavsordet, skal ordet leksikaliseres som det er. Analysen vil da bli f.eks. guokte+Num+Der/suorpmat+A+Sg+Nom => guokte+Num+SgGenCmp+Cmp#suorbma+N+Der/t+A+Sg+Nom Men da kommer vi tilbake til problemet som denne buggen starta med, nemlig at kombinasjonen # og Der/ for -lágan ord som ikke er leksikaliserte, i lookup2cg gir fortrinn for Cmp med lemmaet 'lága'
(In reply to comment #41) > Men da kommer vi tilbake til problemet som denne buggen starta med, nemlig at > kombinasjonen # og Der/ for -lágan ord som ikke er leksikaliserte, i lookup2cg > gir fortrinn for Cmp med lemmaet 'lága' Når jeg tenker meg om, så vil det være naturlig å beholde Der/lagan sjøl om vi omorganiserer de andre , og da blir heller ikke dette noe problem.
(In reply to comment #41) > Jeg støtter forslaget til Sandra. Dette stemmer også med hvordan dette > beskrives f.eks. i N/S s. 638, og hvordan ordene oppfører seg morfofologisk > (som en sammensetning). > > > vurderes om det er noen tilfeller hvor originalsubstantivet ikke lenger brukes > > og hvor det da kan være fordelsmessig å beholde en slik type "leksikalisert > > derivasjon" (+Der/agák, feks er jeg ikke helt sikker på opphavsordet til) > > Når vi ikke vet opphavsordet, skal ordet leksikaliseres som det er. Da burde det muligens også få en +CmpNP/Suff-tagg for å unngå at ordet får stå alene. I smj er det allerede en del slike leksikaliserte -k-adjektiver, og de burde nok bli gitt en +CmpNP/Last-tagg da slike derivasjon bare funker som last cmp og ikke first. > > Analysen vil da bli f.eks. > guokte+Num+Der/suorpmat+A+Sg+Nom => > guokte+Num+SgGenCmp+Cmp#suorbma+N+Der/t+A+Sg+Nom > > Men da kommer vi tilbake til problemet som denne buggen starta med, nemlig at > kombinasjonen # og Der/ for -lágan ord som ikke er leksikaliserte, i lookup2cg > gir fortrinn for Cmp med lemmaet 'lága'