Bug 1363 - Om Der/lágaš og Der/lágan og #
Summary: Om Der/lágaš og Der/lágan og #
Status: ASSIGNED
Alias: None
Product: sme lexicon
Classification: Unclassified
Component: Continuation lexica (show other bugs)
Version: unspecified
Hardware: All All
: P4 - Within a month normal
Assignee: Trond Trosterud
URL:
Keywords:
Depends on:
Blocks:
 
Reported: 2012-05-27 10:32 CEST by Lene Antonsen
Modified: 2018-05-29 10:52 CEST (History)
6 users (show)

See Also:


Attachments

Note You need to log in before you can comment on or make changes to this bug.
Description Lene Antonsen 2012-05-27 10:32:05 CEST
Der/lágaš og Der/lágan derivasjonene fungerer ikke slik de skal i lookup2cg pga #
Vi kan konkludere med at lookup2cg må fikses, men spørsmålet her er om analysene er slik vi vil ha dem.

Hvorfor er # med?

usme:
alitlágáš    alit+A+Attr#+Der/lágaš+A+Sg+Nom   <=== her mangler SgNomCmp-analysen (alit er både Attr og Sg Nom)

ruoksatlágaš	ruoksat+A+SgNomCmp#+Der/lágaš+A+Sg+Nom
rukseslágaš	ruoksat+A+Attr#+Der/lágaš+A+Sg+Nom

guovttejuolggat	guokte+Num+Sg+Gen+Der/juolggat+A+Sg+Nom <== for sammenlikning, ingen #

echo 'alitlágaš' | usme | lookup2cg   <=== Der/lágaš -analysen forsvinner pga av den har # og det finnes alternative analyser
"<alitlágaš>"
	 "alitlágaš" A Sg Nom
	 "alitlágaš" A Attr
	 "alitlágaš" A Sg Gen
	 "alitlágaš" A Sg Acc

src$ echo 'ruoksatlágaš' | usme | lookup2cg   
	 "ruoksat+A+SgNomCmp#" Der/lágaš A Sg Nom  <== lemmaet er ikke riktig, pga #

src$ echo 'ruoksatlágan' | usme | lookup2cg <=== Der/lágan -analysen forsvinner pga av den har # og det finnes alternative analyser, ingen av dem er relevante
"<ruoksatlágan>"
	 "ruoksat#láhka" N Sg Loc
	 "ruoksat#lága" N Sg Nom PxSg1
	 "ruoksat#lága" N Sg Acc PxSg1
	 "ruoksat#lága" N Sg Loc
	 "ruoksat#lága" N Ess
	 "ruoksat#lága" N Sg Gen PxSg1
Comment 1 Lene Antonsen 2012-05-27 14:18:30 CEST
Det er flere typer derivasjoner som får #, f.eks.


heajosoaivvat
heajosoaivvat	headju+A+Attr#+Der/oaivvat+A+Sg+Nom
heajosoaivvat	headju+A+Attr#+Der/oaivvat+A+Sg+Gen
heajosoaivvat	headju+A+Attr#+Der/oaivvat+A+Sg+Acc
heajosoaivvat	headju+A+Attr#+Der/oaivvat+A+Attr
Comment 2 Trond Trosterud 2012-05-27 16:41:31 CEST
Eg har no fjerna # frå derivasjonane frå A via NAMAT til nye adjektiv, svn 59192 og 59194.

Her er resultatet:

 echo 'ruoksatlágan' | usme | lookup2cg
"<ruoksatlágan>"
	 "ruoksat#láhka" N Sg Loc
	 "ruoksat" A* SgNomCmp Der/lágan A Attr
	 "ruoksat" A* SgNomCmp Der/lágan A Sg Acc
	 "ruoksat" A* SgNomCmp Der/lágan A Sg Nom
	 "ruoksat" A* SgNomCmp Der/lágan A Sg Gen
	 "ruoksat#lága" N Ess
	 "ruoksat#lága" N Sg Gen PxSg1
	 "ruoksat#lága" N Sg Acc PxSg1
	 "ruoksat#lága" N Sg Loc
	 "ruoksat#lága" N Sg Nom PxSg1

echo 'heajosoaivvat' | usme | lookup2cg
"<heajosoaivvat>"
	 "headju" A* Attr Der/oaivvat A Sg Nom
	 "headju" A* Attr Der/oaivvat A Sg Gen
	 "headju" A* Attr Der/oaivvat A Sg Acc
	 "headju" A* Attr Der/oaivvat A Attr

Det positive er at vi no får NAMAT-formene (dei vart fjerna tidlegare). Ein mogleg bieffekt har vi i tilfelle det er gode grunnar til å ha # der. Eg held bugen open i tilfelle.
Comment 3 Lene Antonsen 2012-05-27 18:30:35 CEST
+A+Attr+Der/lágaš er problematisk for vislcg3.

echo 'rukseslágáš' | usme  | lookup2cg
	 "rukses#lágáš" N Sg Nom
	 "ruoksat" A* Attr Der/lágaš A Attr   <======= riktig
	 "ruoksat" A* Attr Der/lágaš A Sg Acc
	 "ruoksat" A* Attr Der/lágaš A Sg Nom
	 "ruoksat" A* Attr Der/lágaš A Sg Gen
	 "rukses#lágáš" N Sg Acc
	 "rukses#lágáš" N Sg Gen


echo 'rukseslágáš' | usme  | lookup2cg | vislcg3 -g ~/gtsvn/gt/sme/src/sme-dis.rle --trace 

"<rukseslágáš>"
        "rukses#lágáš" N Sg Nom @HNOUN MAP:14778:r328 
;       "ruoksat" A* Attr Der/lágaš A REMOVE:7366:r1703    <======= A Attr har blitt til A
;       "ruoksat" A* Attr Der/lágaš A Sg Acc REMOVE:7366:r1703 
;       "ruoksat" A* Attr Der/lágaš A Sg Nom REMOVE:7366:r1703 
;       "ruoksat" A* Attr Der/lágaš A Sg Gen REMOVE:7366:r1703 
;       "rukses#lágáš" N Sg Acc REMOVE:9790:r2186 
;       "rukses#lágáš" N Sg Gen @X MAP:15605 REMOVE:15607 

Jeg har testet litt, og vislcg3 gjengir ikke to like tagger, dvs at den andre Attr forsvinner.
Dvs at lookup2cg må legge * til den første Attr, noe som også er viktig for riktig disambiguering, ellers vil alle lesningene bli tolket som Attr.

hfst:
gt$ echo 'rukseslágaš' | hfst-proc -C -e sme/bin/sme.hfstol
"<rukseslágaš>"
	"ruoksat"	A Attr ‡ ‡ Der/lágaš A Attr
	"ruoksat"	A Attr ‡ ‡ Der/lágaš A Sg Acc
	"ruoksat"	A Attr ‡ ‡ Der/lágaš A Sg Gen
	"ruoksat"	A Attr ‡ ‡ Der/lágaš A Sg Nom
Comment 4 Trond Trosterud 2012-05-27 21:04:27 CEST
Eitt alternativ er å __ikkje__ ha Attr som tag til venstre for Der/lágaš. Sakleg sett er det korrekt, Attr er ein syntaktisk tag, og det skal ikkje vere syntaks inni ordet. Så A* Attr* er eitt alternativ, men eit anna er berre A*, utan Attr.
Comment 5 Sjur Nørstebø Moshagen 2012-05-29 09:34:06 CEST
(In reply to comment #4)
> Eitt alternativ er å __ikkje__ ha Attr som tag til venstre for Der/lágaš.
> Sakleg sett er det korrekt, Attr er ein syntaktisk tag, og det skal ikkje vere
> syntaks inni ordet. Så A* Attr* er eitt alternativ, men eit anna er berre A*,
> utan Attr.

Eg fekk ingen Attr-analyser tidlegare (svn frå fleire veker sidan), og eg får ingen Attr no:


$ usme 

ruoksatlágan
ruoksatlágan	ruoksat+A+SgGenCmp+Cmp#láhka+N+Sg+Loc
ruoksatlágan	ruoksat+A+SgGenCmp+Cmp#lága+N+Sg+Loc
ruoksatlágan	ruoksat+A+SgGenCmp+Cmp#lága+N+Ess
ruoksatlágan	ruoksat+A+SgGenCmp+Cmp#lága+N+Sg+Nom+PxSg1
ruoksatlágan	ruoksat+A+SgGenCmp+Cmp#lága+N+Sg+Gen+PxSg1
ruoksatlágan	ruoksat+A+SgGenCmp+Cmp#lága+N+Sg+Acc+PxSg1
ruoksatlágan	ruoksat+A+SgNomCmp+Der/lágan+A+Attr
ruoksatlágan	ruoksat+A+SgNomCmp+Der/lágan+A+Sg+Gen
ruoksatlágan	ruoksat+A+SgNomCmp+Der/lágan+A+Sg+Acc
ruoksatlágan	ruoksat+A+SgNomCmp+Der/lágan+A+Sg+Nom
ruoksatlágan	ruoksat+A+SgNomCmp+Cmp#láhka+N+Sg+Loc
ruoksatlágan	ruoksat+A+SgNomCmp+Cmp#lága+N+Sg+Loc
ruoksatlágan	ruoksat+A+SgNomCmp+Cmp#lága+N+Ess
ruoksatlágan	ruoksat+A+SgNomCmp+Cmp#lága+N+Sg+Nom+PxSg1
ruoksatlágan	ruoksat+A+SgNomCmp+Cmp#lága+N+Sg+Gen+PxSg1
ruoksatlágan	ruoksat+A+SgNomCmp+Cmp#lága+N+Sg+Acc+PxSg1
ruoksatlágan	ruoksat+A+SgNomCmp+Cmp#láhka+N+Sg+Loc
ruoksatlágan	ruoksat+A+SgNomCmp+Cmp#lága+N+Sg+Loc
ruoksatlágan	ruoksat+A+SgNomCmp+Cmp#lága+N+Ess
ruoksatlágan	ruoksat+A+SgNomCmp+Cmp#lága+N+Sg+Nom+PxSg1
ruoksatlágan	ruoksat+A+SgNomCmp+Cmp#lága+N+Sg+Gen+PxSg1
ruoksatlágan	ruoksat+A+SgNomCmp+Cmp#lága+N+Sg+Acc+PxSg1

og med lookup2cg:

$ echo 'ruoksatlágan' | usme | lookup2cg
"<ruoksatlágan>"
	 "ruoksat#láhka" N Sg Loc
	 "ruoksat" A* SgNomCmp Der/lágan A Attr
	 "ruoksat" A* SgNomCmp Der/lágan A Sg Acc
	 "ruoksat" A* SgNomCmp Der/lágan A Sg Nom
	 "ruoksat" A* SgNomCmp Der/lágan A Sg Gen
	 "ruoksat#lága" N Ess
	 "ruoksat#lága" N Sg Gen PxSg1
	 "ruoksat#lága" N Sg Acc PxSg1
	 "ruoksat#lága" N Sg Loc
	 "ruoksat#lága" N Sg Nom PxSg1

Etter det eg kan sjå, er dette ok no?
Comment 6 Trond Trosterud 2012-05-29 09:41:09 CEST
Du får ikkje Attr fordi du testar med ruoksat (pred-form) og ikkje rukses (Attr-form), i ruoksatlágan og ikkje rukseslágán. Som du ser har vi Attr der, og det er altså ikkje ok.

At revision 59215.
~/main/gt$make GTLANG=sme
make: Nothing to be done for `all'.
~/main/gt$echo rukseslágán | usme | lookup2cg
"<rukseslágán>"
	 "rukseslágan" A Sg Gen
	 "ruoksat" A* Attr Der/lágan A Sg Nom
	 "ruoksat" A* Attr Der/lágan A Sg Gen
	 "rukseslágan" A Sg Nom
	 "rukseslágan" A Attr
	 "ruoksat" A* Attr Der/lágan A Sg Acc
	 "rukseslágan" A Sg Acc
	 "ruoksat" A* Attr Der/lágan A Attr
Comment 7 Sjur Nørstebø Moshagen 2012-05-29 10:12:16 CEST
(In reply to comment #6)
> Du får ikkje Attr fordi du testar med ruoksat (pred-form) og ikkje rukses
> (Attr-form), i ruoksatlágan og ikkje rukseslágán. Som du ser har vi Attr der,
> og det er altså ikkje ok.

Eg ser det no - begge formene (pred og attr) var brukte i dei andre kommentarane, og eg las ikkje nøye nok då eg kopierte kommandoane eg testa.

Samtidig illustrerer dette eit skilje i form, ikkje berre i funksjon. Det blir samtidig eit argument for å la Attr stå i analysen: A Attr og A Sg Nom (dvs pred) er ikkje same form, og i og med at begge formene er brukte i diskusjonen, betyr vel det at begge er ok? I så fall må vi kunna skilja dei, både i analyse og i generering, og då treng vi begge taggane.

Den enklaste løysinga er å gå over til sub-readings i CG så fort som råd - då vil A Attr vera ei underlesing, som vanlegvis ikkje er synleg for CG-reglane, og vi står att med berre A Sg Nom (for -lágaš), som vi vil ha.

På det viset får vi både i pose og smekk. Kva synest de?

NB! Viktig: underlesingar kan vi få fram både med Xerox og HFST - det ligg altså inga binding til HFST i den endringa. Men det krev at vislcg3 blir oppdatert, og det har vore liten respons frå Tino på den siste e-posten min om saka.
Comment 8 Lene Antonsen 2012-05-29 11:19:49 CEST
> Samtidig illustrerer dette eit skilje i form, ikkje berre i funksjon. Det blir
> samtidig eit argument for å la Attr stå i analysen: A Attr og A Sg Nom (dvs
> pred) er ikkje same form, og i og med at begge formene er brukte i diskusjonen,
> betyr vel det at begge er ok? I så fall må vi kunna skilja dei, både i analyse
> og i generering, og då treng vi begge taggane.
> 
> Den enklaste løysinga er å gå over til sub-readings i CG så fort som råd - då
> vil A Attr vera ei underlesing, som vanlegvis ikkje er synleg for CG-reglane,
> og vi står att med berre A Sg Nom (for -lágaš), som vi vil ha.
> 
> På det viset får vi både i pose og smekk. Kva synest de?
> 
> NB! Viktig: underlesingar kan vi få fram både med Xerox og HFST - det ligg
> altså inga binding til HFST i den endringa. Men det krev at vislcg3 blir
> oppdatert, og det har vore liten respons frå Tino på den siste e-posten min om
> saka.

Å skille rukseslágan fra ruoksatlágan er ikke viktig i analyse, da ordene bare er varianter, og det har ingen syntaktisk forskjell. Men ved generering, er man avhengig av at taggene er forskjellige. Jeg foreslår at vi bruker samme konvensjon som ved andre sammensetninger: AttrCmp

Ellers så ser jeg at når Attr og Sg Nom er homonyme, får vi bare Attr:

ruonálágaš	ruoná+A+Attr+Der/lágaš+A+Sg+Nom
ruonálágaš	ruoná+A+Attr+Der/lágaš+A+Sg+Gen
ruonálágaš	ruoná+A+Attr+Der/lágaš+A+Sg+Acc
ruonálágaš	ruoná+A+Attr+Der/lágaš+A+Attr
ruonálágan	ruoná+A+Attr+Der/lágan+A+Attr
ruonálágan	ruoná+A+Attr+Der/lágan+A+Sg+Gen
ruonálágan	ruoná+A+Attr+Der/lágan+A+Sg+Acc
ruonálágan	ruoná+A+Attr+Der/lágan+A+Sg+Nom

Mao. er er Attr valgt som 'default'. Jeg har ingen synspunkter på om dette er bra eller ikke.

alitlágan og álitlágaš er bare leksikaliserte, vi får ingen dynamisk analyse. 
ránislágan finnes ikke i vår analysator, men ráneslágan finnes.
Slike ord dukker ikke opp på missinglister pga av alternative analyser med Cmp 'láhka' pg 'lága'.
Dette burde vært sett på....
Comment 9 Lene Antonsen 2012-05-29 20:03:28 CEST
src$ svn ci -m "Endra til AttrCmp for deriveringer fra A Attr." propernoun-sme-morph.txt noun-sme-lex.txt adj-sme-lex.txt sme-lex.txt 
Sending        adj-sme-lex.txt
Sending        noun-sme-lex.txt
Sending        propernoun-sme-morph.txt
Sending        sme-lex.txt
Transmitting file data ....
Committed revision 59237.

Nå er analysen:
heajosoaivvat	headju+A+AttrCmp+Der/oaivvat+A+Attr
rukseslágan	ruoksat+A+AttrCmp+Der/lágan+A+Attr

Fremdeles gjenstår en gjennomgang for å finne leksikoner som mangler sti til denne derivasjonen.
Comment 10 Thomas Omma 2012-09-27 12:41:44 CEST
it seems fixed
Comment 11 Lene Antonsen 2012-09-27 12:58:43 CEST
(In reply to comment #10)
> it seems fixed

Nei, dette er ikke fiksa Jeg siterer fra comment nr 9:
"Fremdeles gjenstår en gjennomgang for å finne leksikoner som mangler sti til
denne derivasjonen." 
- og det er ikke gjort. Eksemplet under skulle hatt 
ránis+A+SgNomCmp+Der/lágan+A+Attr osv. på samme måte som ruoksatlágan får det.


ránislágan
ránislágan	        ránis+A+SgNomCmp+Cmp#láhka+N+Sg+Loc
ránislágan	        ránis+A+SgNomCmp+Cmp#lága+N+Sg+Loc
ránislágan 	ránis+A+SgNomCmp+Cmp#lága+N+Ess
ránislágan	        ránis+A+SgNomCmp+Cmp#lága+N+Sg+Gen+PxSg1
ránislágan 	ránis+A+SgNomCmp+Cmp#lága+N+Sg+Acc+PxSg1
ránislágan 	ránis+A+SgNomCmp+Cmp#lága+N+Sg+Nom+PxSg1
Comment 12 Thomas Omma 2012-09-27 13:22:28 CEST
oh
but maybe it is better to take away ruoksatlágan?
Comment 13 Thomas Omma 2012-09-27 13:23:44 CEST
I dont think lágan is used with Sg+Nom Adj, I mean
Comment 14 Thomas Omma 2012-09-27 13:26:55 CEST
gea:



ránislágan
ránislágan	ránis+A+SgNomCmp+Der/lágáš+v1+A+Attr
ránislágan	ránis+A+SgNomCmp+Der/lágáš+v1+A+Sg+Nom
ránislágan	ránis+A+SgNomCmp+Der/lágáš+v1+A+Sg+Acc
ránislágan	ránis+A+SgNomCmp+Der/lágán+v1+A+Attr
ránislágan	ránis+A+SgNomCmp+Der/lágán+v1+A+Sg+Nom
ránislágan	ránis+A+SgNomCmp+Der/lágán+v1+A+Sg+Acc
ránislágan	ránis+A+SgNomCmp+Der/lágaš+v1+A+Attr
ránislágan	ránis+A+SgNomCmp+Der/lágaš+v1+A+Sg+Nom
ránislágan	ránis+A+SgNomCmp+Der/lágaš+v1+A+Sg+Acc
ránislágan	ránis+A+SgNomCmp+Der/lágan+v1+A+Attr
ránislágan	ránis+A+SgNomCmp+Der/lágan+v1+A+Sg+Nom
ránislágan	ránis+A+SgNomCmp+Der/lágan+v1+A+Sg+Acc
ránislágan	ránis+A+SgNomCmp+Cmp#lága+N+Ess
ránislágan	ránis+A+SgNomCmp+Cmp#lága+N+Sg+Acc+PxSg1
ránislágan	ránis+A+SgNomCmp+Cmp#lága+N+Sg+Gen+PxSg1
ránislágan	ránis+A+SgNomCmp+Cmp#lága+N+Sg+Nom+PxSg1
Comment 15 Thomas Omma 2012-09-27 15:08:25 CEST
the removal of # had unwanted impact on vowelshorteing:


gt $ usmeNorm
0%>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>100%
vierisnáittot
vierisnáittot	vieris+A+AttrCmp+Der/náittot+A+Sg+Nom
vierisnáittot	vieris+A+AttrCmp+Der/náittot+A+Attr

vieresnáittot
vieresnáittot	vieresnáittot	+?
Comment 16 Thomas Omma 2012-09-27 15:32:19 CEST
hmmm...or was this earlier?
Comment 17 Lene Antonsen 2012-09-27 15:57:55 CEST
Også for meg er A Nom Sg + Der/lágan en uvant derivasjon. Da denne buggen blei starta, så spurte jeg meg for om denne derivasjonen, og fikk bekrefta at den fantes (husker ikke fra hvem), og den fantes også i var fst. Jeg testa i korpuset (det analyserte), men her er resultatene veldig usikre pga av det som står forklart i denne buggen, at slike former forsvant pga av lookup, og vi har ingen nyere analyser. Analysene for juni er mangelfulle for sme. Jeg foreslår at vi avventer dette til vi har nye analyser av korpuset, og så får vi vurdere. Evt kan man leksikalisere de  A Nom Sg som evt finnes, hvis derivasjonen ikke er produktiv.

Men uansett så er dette noe vi får finne ut av, og rydde i fst den ene eller andre vegen, før vi lukker buggen.
Comment 18 Lene Antonsen 2012-09-27 16:01:05 CEST
Dette gjelder forresten substantiver også:

olmmošlágan
olmmošlágan	olmmoš+Hum+N+SgNomCmp+Cmp#láhka+N+Sg+Loc
olmmošlágan	olmmoš+Hum+N+SgNomCmp+Cmp#lága+N+Sg+Loc
olmmošlágan	olmmoš+Hum+N+SgNomCmp+Cmp#lága+N+Ess
olmmošlágan	olmmoš+Hum+N+SgNomCmp+Cmp#lága+N+Sg+Gen+PxSg1
olmmošlágan	olmmoš+Hum+N+SgNomCmp+Cmp#lága+N+Sg+Acc+PxSg1
olmmošlágan	olmmoš+Hum+N+SgNomCmp+Cmp#lága+N+Sg+Nom+PxSg1


Her mangler Der/lágan
Comment 19 Thomas Omma 2012-09-27 16:01:45 CEST
jes, the not shortening vowel was already before the removal of #. 

I now tuned twol rule to get it right

gt $ usmeNorm
0%>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>100%
váttesnáittot
váttesnáittot	váttis+A#+Der/náittot+A+Sg+Nom
váttesnáittot	váttis+A#+Der/náittot+A+Attr

váttisnáittot
váttisnáittot	váttisnáittot	+?

revision 63263
Comment 20 Thomas Omma 2012-09-27 16:03:59 CEST
lágan takes Adj+Attr and nouns in both Nom and Gen

I take away the Adj+Sg+Nom that are
Comment 21 Thomas Omma 2012-09-27 16:06:07 CEST
we have some nountypes + der/lágan

noaidelágan	noaidi+Hum+N+SgNomCmp+Der/lágán+v1+A+Sg+Nom
Comment 22 Thomas Omma 2012-09-27 16:06:45 CEST
i watch the other types over
Comment 23 Thomas Omma 2012-09-28 10:12:07 CEST
I dont know why olmmošlágán doesnt function, it goes to R and I tried removing the flags as well, without suces:


LEXICON MALIS0
 +Sg+Nom: K ;
 +SgNomCmp@U.NeedsVowRed.ON@:X7@U.NeedsVowRed.ON@ R ;
 +SgNomCmp@U.NeedsVowRed.OFF@:@U.NeedsVowRed.OFF@ R ;
Comment 24 Thomas Omma 2012-09-28 10:28:02 CEST
aha


gt $ dsme
0%>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>100%
olmmoš+N+SgNomCmp+Der/lágán+A+Attr
olmmoš+N+SgNomCmp+Der/lágán+A+Attr	olmmožlágan
olmmoš+N+SgNomCmp+Der/lágán+A+Attr	olmmožlágán
Comment 25 Thomas Omma 2012-09-28 10:41:05 CEST
so it seems we need # there anyways
Comment 26 Thomas Omma 2012-09-28 10:44:03 CEST
bajážlágán
bajážlágán	bajáš+A+AttrCmp+Der/lágan+v2+A+Attr
bajážlágán	bajáš+A+AttrCmp+Der/lágan+v2+A+Sg+Nom
bajážlágán	bajáš+A+AttrCmp+Der/lágan+v2+A+Sg+Acc


we need it everywhere
Comment 27 Lene Antonsen 2012-09-28 11:19:03 CEST
Problemet med # og Der i analysen, er at det signaliserer til lookup2cg (og muligens hfxst-preprosessering), at denne analysen skal ut.
Comment 28 Thomas Omma 2012-09-28 11:24:43 CEST
almmájlágán
almmájlágán	almmái+Hum+N+SgNomCmp+Der/lágán+v2+A+Attr
Comment 29 Thomas Omma 2012-11-26 11:06:17 CET
weve commented these out from speller and lexicalized a whole lot

I don't know what do do with the generated ones
Comment 30 Sjur Nørstebø Moshagen 2012-12-18 10:37:41 CET
The problem summary is this:

- # and Der/xxx does not go together because of lookup2cg (original bug report)
- # we need # in dynamic compound-like derivations (e.g. Der/lágan) to get the
  correct final consonant of the first part/lemma
  (see comment #24, comment #25, comment #26)
- removing # altogether (comment #2) produces wrong word forms, cf:

> Det positive er at vi no får NAMAT-formene (dei vart fjerna tidlegare). Ein
> mogleg bieffekt har vi i tilfelle det er gode grunnar til å ha # der. Eg held
> bugen open i tilfelle.

The side effect was - and is - that we get wrong word forms, at least for some stem types.

(side note: I guess the etymological reason for the bug is that these derivations are originally compounds, where the last part has now lost its use as an independent word, but where the morpho-phonology still behaves as if there is a word boundary there. And our two-level rules are dependent upon such word boundaries.)

What we need to do is:
- reinsert # in all these cases, to get the correct word forms back
  (Trond, cf comment #2)
- add a tag-cleaning regex that removes # on the analysis side IFF followed
  by Der/xxx (Sjur)

Expected result: no #, only Der/xxx is given in the analysis, which should satisfy all parties.

Requirement:
To write a fully working regular expression, I need a list of all derivations that can appear with a # in front.

Changing assignee to Trond, to do the first task. When it is done, give the bug to me.
Comment 31 Trond Trosterud 2012-12-18 10:44:46 CET
Ok, eg ser på det.
Comment 32 Trond Trosterud 2014-10-21 07:02:14 CEST
Denne buggen har dessverre vorte liggande. Eg skulle skrive ei liste over derivasjonar som kunne få #, og deretter skulle Sjur skrive eit script for å sette inn # der det trengst for å få rett sluttkonsonant. Er dette framleis ei relevant problemstilling? (dette er ein to og eit halvt år gammal problemstilling). Eg har no gått gjennom og testa ein del av feila vi starta ut med, mend eg treng ein gjennomgang.
Comment 33 Lene Antonsen 2014-11-20 00:07:49 CET
Slik er analysen nå for dynamiske Der/lágan:

sme$ usmeNorm 
čuvgeslágan
čuvgeslágan	čuovgat+A+Attr+Der/lágan+A+Attr
čuvgeslágan	čuovgat+A+Attr+Der/lágan+A+Sg+Nom
čuvgeslágan	čuovgat+A+Attr+Der/lágan+A+Sg+Acc
čuvgeslágan	čuovgat+A+Attr+Cmp#lága+N+Ess
čuvgeslágan	čuovgat+A+Attr+Cmp#lága+N+Sg+Acc+PxSg1
čuvgeslágan	čuovgat+A+Attr+Cmp#lága+N+Sg+Nom+PxSg1
čuvgeslágan	čuovgat+A+Attr+Cmp#lága+N+Sg+Gen+PxSg1
čuvgeslágan	čuovgat+A+AttrCmp+Der/lágan+A+Attr
čuvgeslágan	čuovgat+A+AttrCmp+Der/lágan+A+Sg+Nom
čuvgeslágan	čuovgat+A+AttrCmp+Der/lágan+A+Sg+Acc


Vi har to analyser:
čuovgat+A+AttrCmp+Der/lágan+A..
čuovgat+A+Attr+Der/lágan+A...

Den ene må bort.
Comment 34 Lene Antonsen 2014-11-20 00:25:34 CET
Jeg har sjekka inn liste over ord som får Der/lágan analyse i korpus 2014-11-17.
i langs/sme/src/morphology/incoming/Derlagan.txt
Svært mange ord får ikke analyse, det må legges til mer systematisk sub, f.eks. for -lagan.
Comment 35 Trond Trosterud 2015-01-11 15:05:06 CET
(In reply to comment #33)
> Vi har to analyser:
> čuovgat+A+AttrCmp+Der/lágan+A..
> čuovgat+A+Attr+Der/lágan+A...
> Den ene må bort.

Det er sant, vl kan ikkje ha det slik. Lista
> langs/sme/src/morphology/incoming/Derlagan.txt
er eit godt utgangspunkt.

Det er mange stiar som gjev Der/lágan her, så vi må rydde.

Ein sti er i ATTR i affixes/adjectives.lexc, den går til NAMAT som også gjev Der/lágan
Ein sti er via Rreal til R-LAGAN
I tillegg er det for ein del adjektivleksika, men ikkje alle, referanse til NAMAT 
BUORRE, VIELGAT, NVDCompAttr_ISSORASSA-, HEITTOHA, FARGAT, ALLAGA, ATTRCONT, DenominalAdjsC, DenominalAdjsCLong, DenominalAdjsCShort

Fleire av dei adjektivleksikona som har eigen NAMAT-referanse har ikkje referanse til ATTR, så det er for så vidt ok med NAMAT der. Problemet er å ha både referanse via ATTR og ha referanse via Rreal.

I utgangspunktet har eg meir sans for AttrCmp enn for Attr, sjölv om det kanskje avvik litt frå praksis for dei andre ordklassene. 

Når det gjeld pörsmål om ATTR vs. Rreal ser det ut for meg til at dette er eit empirisk spörsmål, og at det er ATTR som er rett veg. Skal vi bruke Rreal må vi ta Der/lágan ut av NAMAT.

Synspunkt?
Comment 36 Lene Antonsen 2015-02-09 18:05:11 CET
Jeg foreslår et møte om denne slik at vi får avslutta buggen, den er snart tre år gammel
Comment 37 Lene Antonsen 2015-02-13 15:56:44 CET
Jeg ser på -lágan i korpuset. Vi mangler sti fra proper til -lágan, f.eks.

Biedjovákki-lágan, Heaikka-lágan, Máhte-lágan, Oscar-lágan, Risten-lágan, Røkke-lágan, Åsele-lágan

Dessuten mangler fra ulikestavelsessubstantiver i nominativ (subformer?)
hálddahuslágan, nivssatlágan
Comment 38 Trond Trosterud 2015-03-09 16:42:45 CET
Møte om Der/lágan: Eg er heilt samd. Neste veke (?) er Divvun-veke, skal vi ta det da?
Comment 39 Sjur Nørstebø Moshagen 2015-03-09 16:47:58 CET
(In reply to comment #38)
> Møte om Der/lágan: Eg er heilt samd. Neste veke (?) er Divvun-veke, skal vi ta
> det da?

Høver bra. Ikkje måndag eller torsdag.
Comment 40 Sandra Nystø Rahka 2015-03-18 09:40:31 CET
SMJ har også dette NAMÁK-leksikonet med Der/agák, Der/belak, osv. Det jeg lurer på med disse derivasjonene er hvorfor hele ordet er definert som en derivasjon og ikke bare den siste bokstaven. For i lulesamisk, i allefall, så er denne denominal -k-derivasjonen relativt produktiv. De brukes ofte som andre ledd i et sammensatt ord, og første ledd er da gjerne substantiv, adjektiv eller tallord. Andreleddet er som regel et substantiv (dog jeg mistenker at noen er adjektiv, som buorak, stuorak, etc..), og eksakt hva som regulerer denne derivasjonen er ikke klart, men den har i allefall en videre distribusjon enn NAMÀK-leksikonet gir: Det burde åpnes for at flere substantiv kunne ta denne avledningsendelsen og ikke bare sammensatte ord (getjak, f.eks fungerer som enkeltord, og ikke bare som second comp slik den er regulert for nå +Der/getjak).

Spørsmålet her er altså hvorfor akkurat ordene i NAMÁK er plukket ut som second compounds som tar denne -k-avledningen. Forslaget mitt er at det lages en egen +Der/k tag og at disse andre derivasjonstaggene i NAMAK fjernes. Så kan det vurderes om det er noen tilfeller hvor originalsubstantivet ikke lenger brukes og hvor det da kan være fordelsmessig å beholde en slik type "leksikalisert derivasjon" (+Der/agák, feks er jeg ikke helt sikker på opphavsordet til)

SMJ har for øvrig ikke denne # i NAMÁK:

ådågirjak	        ådås+A+Attr+Der/girjak+A+Attr
buorrebelak	buorre+A+Attr+Der/belak+A+Sg+Nom
Comment 41 Lene Antonsen 2015-03-18 10:55:19 CET
Jeg støtter forslaget til Sandra. Dette stemmer også med hvordan dette beskrives f.eks. i N/S s. 638, og hvordan ordene oppfører seg morfofologisk (som en sammensetning).

> vurderes om det er noen tilfeller hvor originalsubstantivet ikke lenger brukes
> og hvor det da kan være fordelsmessig å beholde en slik type "leksikalisert
> derivasjon" (+Der/agák, feks er jeg ikke helt sikker på opphavsordet til)

Når vi ikke vet opphavsordet, skal ordet leksikaliseres som det er.

Analysen vil da bli f.eks.
guokte+Num+Der/suorpmat+A+Sg+Nom  =>
guokte+Num+SgGenCmp+Cmp#suorbma+N+Der/t+A+Sg+Nom

Men da kommer vi tilbake til problemet som denne buggen starta med, nemlig at kombinasjonen # og Der/ for -lágan ord som ikke er leksikaliserte, i lookup2cg gir fortrinn for Cmp med lemmaet 'lága'
Comment 42 Lene Antonsen 2015-03-18 10:58:27 CET
(In reply to comment #41)
> Men da kommer vi tilbake til problemet som denne buggen starta med, nemlig at
> kombinasjonen # og Der/ for -lágan ord som ikke er leksikaliserte, i lookup2cg
> gir fortrinn for Cmp med lemmaet 'lága'

Når jeg tenker meg om, så vil det være naturlig å beholde Der/lagan sjøl om vi omorganiserer de andre , og da blir heller ikke dette noe problem.
Comment 43 Sandra Nystø Rahka 2015-03-18 11:17:07 CET
(In reply to comment #41)
> Jeg støtter forslaget til Sandra. Dette stemmer også med hvordan dette
> beskrives f.eks. i N/S s. 638, og hvordan ordene oppfører seg morfofologisk
> (som en sammensetning).
> 
> > vurderes om det er noen tilfeller hvor originalsubstantivet ikke lenger brukes
> > og hvor det da kan være fordelsmessig å beholde en slik type "leksikalisert
> > derivasjon" (+Der/agák, feks er jeg ikke helt sikker på opphavsordet til)
> 
> Når vi ikke vet opphavsordet, skal ordet leksikaliseres som det er.

Da burde det muligens også få en +CmpNP/Suff-tagg for å unngå at ordet får stå alene. I smj er det allerede en del slike leksikaliserte -k-adjektiver, og de burde nok bli gitt en +CmpNP/Last-tagg da slike derivasjon bare funker som last cmp og ikke first.

> 
> Analysen vil da bli f.eks.
> guokte+Num+Der/suorpmat+A+Sg+Nom  =>
> guokte+Num+SgGenCmp+Cmp#suorbma+N+Der/t+A+Sg+Nom
> 
> Men da kommer vi tilbake til problemet som denne buggen starta med, nemlig at
> kombinasjonen # og Der/ for -lágan ord som ikke er leksikaliserte, i lookup2cg
> gir fortrinn for Cmp med lemmaet 'lága'