Bug 2260 - problemer med AA ved Attr+Der/ , kanskje vi skal endre tagg?
Summary: problemer med AA ved Attr+Der/ , kanskje vi skal endre tagg?
Status: RESOLVED FIXED
Alias: None
Product: Infrastructure
Classification: Unclassified
Component: Compilation (show other bugs)
Version: unspecified
Hardware: All All
: P4 - Within a month normal
Assignee: Sjur Nørstebø Moshagen
URL:
Keywords:
Depends on:
Blocks:
 
Reported: 2016-11-14 13:00 CET by Lene Antonsen
Modified: 2017-09-13 20:24 CEST (History)
4 users (show)

See Also:


Attachments

Note You need to log in before you can comment on or make changes to this bug.
Description Lene Antonsen 2016-11-14 13:00:09 CET
Denne gjelder to ting, men de henger sammen

Vi har problemer med å få A > AA foran  Attr+Der/

usmedis:
vástideaddji+A+Sem/Dummytag+Attr+Der/laakan+A+Attr
vástideaddji+A+Sem/Dummytag+Attr+Der/laakan+A+Sg+Nom

Men denne fungerer:
guovdilisvuođa	guovdil+AA+Sem/Hum+Attr+Der/vuota+N+Sg+Acc

En annen ting er om Attr foran Der/ er en god ide for CG-reglene. I den siste av disse to analysene har vi Attr sjøl om det er Nom som gjelder:

"<vástideaddjilágan>"   "vástideaddji" A* Attr Der/lágan A Attr

"<vástideaddjilágan>"   "vástideaddji" A* Attr Der/lágan A Sg Nom

Vi burde ha en annen tagg for Attr før derivasjon. noen forslag?
Comment 1 Linda Wiechetek 2016-11-14 13:31:41 CET
(In reply to Lene Antonsen from comment #0)
> Denne gjelder to ting, men de henger sammen
> 
> Vi har problemer med å få A > AA foran  Attr+Der/
> 
> usmedis:
> vástideaddji+A+Sem/Dummytag+Attr+Der/laakan+A+Attr
> vástideaddji+A+Sem/Dummytag+Attr+Der/laakan+A+Sg+Nom
> 
> Men denne fungerer:
> guovdilisvuođa	guovdil+AA+Sem/Hum+Attr+Der/vuota+N+Sg+Acc
> 
> En annen ting er om Attr foran Der/ er en god ide for CG-reglene. I den
> siste av disse to analysene har vi Attr sjøl om det er Nom som gjelder:
> 
> "<vástideaddjilágan>"   "vástideaddji" A* Attr Der/lágan A Attr
> 
> "<vástideaddjilágan>"   "vástideaddji" A* Attr Der/lágan A Sg Nom
> 
> Vi burde ha en annen tagg for Attr før derivasjon. noen forslag?

Kan du forklare koffor A > AA ikkje funker? Er det fordi det står A Attr både til venstre og til høyre?
Comment 2 Lene Antonsen 2016-11-14 14:09:14 CET
Jeg har tydeligvis vært uklar:

1) vi har problemer med A > AA foran  Attr+Der/ (denne må sjur løse, jeg vet ikke årsaken til dette)

2) selve analysen "vástideaddji" A* Attr Der/lágan A Attr  er problematisk for CG, fordi vi har Attr både i begge disse, men det er bare den ene som syntaktisk sett er Attr (og det er bare syntaktisk Attr som vi referer til i CG reglene, men her treffer reglene som referer til Attr begge analysene):

"<vástideaddjilágan>"   "vástideaddji" A* Attr Der/lágan A Attr

"<vástideaddjilágan>"   "vástideaddji" A* Attr Der/lágan A Sg Nom


Grunnen til at jeg ikke har delt denne i to bugzillaer, er at hvis vi endrer taggen for Attr Der/ til noe anna, som jeg har foreslått i 2), så vil det ha betydning for 1)
Comment 3 Thomas Omma 2016-11-14 14:13:29 CET
jag tar bort "Attr" fra vástideaddji
Comment 4 Trond Trosterud 2016-11-15 13:10:16 CET
(In reply to Thomas Omma from comment #3)
> jag tar bort "Attr" fra vástideaddji

Er dette ei prinsipiell løysing? Problemet her er ikkje berre dette ordet, men alle stiar Attr ... Attr i analysen. Ei mogleg løysing hadde vore at dette:

> "<vástideaddjilágan>"   "vástideaddji" A* Attr Der/lágan A Sg Nom
hadde vorte dette ein av desse to:
> "<vástideaddjilágan>"   "vástideaddji" AX AttrX Der/lágan A Sg Nom

Så spørsmålet er om vi vil vite kva som går inn i Der/XXX. Viss vi vil det, må vi skilje mellom taggane til venstre for Der/XXX (som er morfologisk innføyde taggar) og taggane til høgre (som er syntaktisk relevant. Å slette for einskildord er ikkje ei løysing. Det vi treng er ei *-løysing (signal om at taggen ikkje er syntaktisk relevamt) for alle taggar til venstre for derivasjon og avleiing.
Comment 5 Ciprian Gerstenberger 2016-12-05 14:05:24 CET
I morgen kommer jeg til å oppdatere dataene for Korp og jeg har fortsatt 80-100 instansen av denne typen som ikke får lemma generert.

Hvis man bare får 
        "čuovgat" AA Sem/Dummytag Attr Der/laakan A Attr
instede av 

02_data4korp/01_2016-12-04/bc/sme/ficti/sirddolas_samisk.pdf.dep
"<čuvgeslágán>"
        "čuovgat" A* Sem/Dummytag Attr Der/laakan A Attr @X #3->0
        "čuovgat" A* Sem/Dummytag Attr Der/laakan A Sg Nom @X #3->0


så blir genereringen ok.
Comment 6 Sjur Nørstebø Moshagen 2017-03-08 01:17:11 CET
Del 1) (A -> AA) fiksa i rev 149629:

$  echo vástideaddjilágan | lookup -q src/analyser-disamb-gt-desc.xfst | fgrep '+Der/' 
vástideaddjilágan	vástidit+VV+TV+Der/NomAg+N+Cmp/SgGen+Cmp#láhka+N+Sem/Rule+Sg+Loc+South+Err/Orth
vástideaddjilágan	vástidit+VV+TV+Der/NomAg+N+Cmp/SgGen+Cmp#lága+N+Sem/Dummytag+Ess
vástideaddjilágan	vástidit+VV+TV+Der/NomAg+N+Cmp/SgGen+Cmp#lága+N+Sem/Dummytag+Sg+Loc+South+Err/Orth
vástideaddjilágan	vástidit+VV+TV+Der/NomAg+N+Cmp/SgNom+Cmp#láhka+N+Sem/Rule+Sg+Loc+South+Err/Orth
vástideaddjilágan	vástidit+VV+TV+Der/NomAg+N+Cmp/SgNom+Cmp#lága+N+Sem/Dummytag+Ess
vástideaddjilágan	vástidit+VV+TV+Der/NomAg+N+Cmp/SgNom+Cmp#lága+N+Sem/Dummytag+Sg+Loc+South+Err/Orth
vástideaddjilágan	vástideaddji+AA+Sem/Dummytag+Attr+Der/laakan+A+Attr
vástideaddjilágan	vástideaddji+AA+Sem/Dummytag+Attr+Der/laakan+A+Sg+Nom
vástideaddjilágan	vástideaddji+AA+Sem/Dummytag+Attr+Der/laakan+A+Sg+Acc+Err/Orth-nom-acc
vástideaddjilágan	vástideaddji+AA+Sem/Dummytag+Attr+Der/laakan+A+Sg+Gen+Err/Orth-nom-gen

Dette trass i meldinga som står i den innsjekkinga - eg testa feil fst.

Når det gjeld del 2) (Attr vs ikkje-Attr):

(In reply to Trond Trosterud from comment #4)
> (In reply to Thomas Omma from comment #3)
> > jag tar bort "Attr" fra vástideaddji
> 
> Er dette ei prinsipiell løysing? 
[...]
> Så spørsmålet er om vi vil vite kva som går inn i Der/XXX.

For å svara på dette må vi fyrst svara på eit anna spørsmål: er det skilnad i _form_ på Attr og ikkje-Attr ved derivasjon? Dersom det ikkje er skilnad i form, så har taggen ingen funksjon, og då er Thomas si løysing ok.

Så korleis er det?
Comment 7 Lene Antonsen 2017-03-08 08:33:46 CET
For adjektiver hvor attributtformen ikke er lik grunnformen (for predikativ) er det forskjell. Her er output før oppdatering av FST, du kan jo teste disse:

usmedis

láikkesvuohta
láikkesvuohta	láikkesvuohta+N+Sem/Dummytag+Sg+Nom
láikkesvuohta	láiki+AA+Sem/Hum+Attr+Der/vuota+N+Sg+Nom


láikivuohta
láikivuohta	láikivuohta+N+Sem/Feat+Sg+Nom
láikivuohta	láiki+AA+Sem/Hum+Der/vuota+N+Sg+Nom
Comment 8 Sjur Nørstebø Moshagen 2017-03-08 09:01:42 CET
(In reply to Lene Antonsen from comment #7)
> For adjektiver hvor attributtformen ikke er lik grunnformen (for predikativ)
> er det forskjell. Her er output før oppdatering av FST, du kan jo teste
> disse:

For slike ord må vi ha taggen, elles kan vi ikkje generera rett/unik form. Men eg føreslår at det berre er ved slike ord at Attr-taggen blir brukt framfor Der/xxx.

Det er trivielt å endra Attr til noko anna framfor Der/, spørsmålet er berre til kva.
Comment 9 Sjur Nørstebø Moshagen 2017-09-13 15:12:18 CEST
Det kan vera nyttig å leggja til at eg no har forandra alle AA etc -taggane til forma +Ex/A, i samsvar med #2388.

Etter dei siste endringane får eg no dette resultatet:

$ echo vástideaddjilágan | hfst-tokenise --giella-cg tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst 
"<vástideaddjilágan>"
	"vástideaddji" Ex/A Sem/Dummytag Attr Der/laakan A Attr <W:0.0000000000>
	"vástideaddji" Ex/A Sem/Dummytag Attr Der/laakan A Sg Acc Err/Orth-nom-acc <W:0.0000000000>
	"vástideaddji" Ex/A Sem/Dummytag Attr Der/laakan A Sg Gen Err/Orth-nom-gen <W:0.0000000000>
	"vástideaddji" Ex/A Sem/Dummytag Attr Der/laakan A Sg Nom <W:0.0000000000>

Framleis har vi dobbelt Attr, men eg kan leggja til i filteret for +Ex/-taggane slik at vi får +Ex/Attr. Då blir det vel rett?
Comment 10 Lene Antonsen 2017-09-13 15:37:02 CEST
 > Framleis har vi dobbelt Attr, men eg kan leggja til i filteret for
> +Ex/-taggane slik at vi får +Ex/Attr. Då blir det vel rett?

Jeg støtter forslaget.
Comment 11 Sjur Nørstebø Moshagen 2017-09-13 20:24:16 CEST
(In reply to Lene Antonsen from comment #10)
> > Framleis har vi dobbelt Attr, men eg kan leggja til i filteret for
> > +Ex/-taggane slik at vi får +Ex/Attr. Då blir det vel rett?
> 
> Jeg støtter forslaget.

Sjekka inn i rev 156962. Med denne endringa får eg:

$ echo vástideaddjilágan | hfst-tokenise --giella-cg tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst 
"<vástideaddjilágan>"
	"vástideaddji" Ex/A Sem/Dummytag Ex/Attr Der/laakan A Attr <W:0.0000000000>
	"vástideaddji" Ex/A Sem/Dummytag Ex/Attr Der/laakan A Sg Acc Err/Orth-nom-acc <W:0.0000000000>
	"vástideaddji" Ex/A Sem/Dummytag Ex/Attr Der/laakan A Sg Gen Err/Orth-nom-gen <W:0.0000000000>
	"vástideaddji" Ex/A Sem/Dummytag Ex/Attr Der/laakan A Sg Nom <W:0.0000000000>

Det ser rett ut for meg, og dermed er vel denne lusmeldinga avklara. Eg avsluttar.

Fint om de testar, og oppdaterer ev. andre skript som treng det.