Bug 2289 - analysen av birgendihte m.flere
Summary: analysen av birgendihte m.flere
Status: REOPENED
Alias: None
Product: sme lexicon
Classification: Unclassified
Component: Continuation lexica (show other bugs)
Version: unspecified
Hardware: Macintosh Other
: P3 - Within a week normal
Assignee: Thomas Omma
URL:
Keywords:
Depends on:
Blocks:
 
Reported: 2016-12-05 21:43 CET by Lene Antonsen
Modified: 2020-04-20 12:21 CEST (History)
4 users (show)

See Also:


Attachments

Note You need to log in before you can comment on or make changes to this bug.
Description Lene Antonsen 2016-12-05 21:43:57 CET
Ord som birgendihte/birgendihtii/birgendihti har to forskjellige analyser

Leksikalisert:
birgendihte	birget+V+IV+Actio+Gen+Der/Adv+Adv+Err/Orth

Dynamisk:
birgendihte	birget+V+IV+Der/NomAct dihte+Err/Orth+Adv

Det hadde vært naturlig å endre den dynamiske slik at de blir like den leksikaliserte?

birgendihte  birget+V+IV+Actio+Gen dihte+Err/Orth+Adv
Comment 1 Lene Antonsen 2016-12-05 21:52:48 CET
Rettelse:

Begge analysene er dynamisk, men iflg Nickel/Sammallahti er nok Actio+Gen den riktige. Kanskje trenger vi bare en analyse?

Eksempel på ord med bare en analyse:

sme$ usme
biggondihtii
biggondihtii	biggot+V+IV+Der/NomAct dihte+Err/Orth+Adv
Comment 2 Thomas Omma 2016-12-06 08:52:14 CET
norm is birgen dihte+Adv
Comment 3 Trond Trosterud 2016-12-06 10:01:01 CET
Det som er norm er særskriving (noko Jussi som kjent er skeptisk til). Derimot er ikkje den grammatiske analysen gjenstand for normativitet på same måte.

Her er alle samd om at resultatet er ei eining, som er adverb, og som er i strid med norma når det er skrive som eitt ord. 

At vi skal ha ei og ikkje to dynamiske analyser er klart, og sannsynlegvis Actio+Gen etter N&S. Det eg derimot lurer på her er om Err/Orth er den beste taggen, eller om vi treng ein eigen sammanskrivingstagg, og kanskje til og med også ein særskrivingstagg, altså slik:

+Err/Fused = for "birgendihte", som skal vere "birgen dihte"
+Err/Sep = for hmm, viss vi registrerer slike feil, kanskje vi ikkje gjer det, t.d. "sánii guin" for korrekt "sániiguin", kva veit eg.

Apropos korrekt, dette er det usme seier om akkurat den ordforma:

sániiguin
sániiguin	sátni+N+Err/Orth+Pl+Com
sániiguin	sátni+N+Pl+Com
Comment 4 Trond Trosterud 2016-12-06 11:12:30 CET
To merknader til denne merknaden:
1. den har ingenting med denne bugen å gjere, eg la den der fordi eg vart forundra då eg analyserte ordet eg brukte som døme
2. eg burde ikkje ha vorte forundra: dette er noko vi gjer (over-tilordnar Err/Orth for alla ord som kunne ha hatt diftongforenkling, og deretter fjernar dei frå CG).
Sjå dermed bort frå den merknaden.

> Apropos korrekt, dette er det usme seier om akkurat den ordforma:
> sániiguin	sátni+N+Err/Orth+Pl+Com
Comment 5 Lene Antonsen 2016-12-06 11:14:26 CET
> 
> +Err/Fused = for "birgendihte", som skal vere "birgen dihte"
> +Err/Sep = for hmm, viss vi registrerer slike feil, kanskje vi ikkje gjer
> det, t.d. "sánii guin" for korrekt "sániiguin", kva veit eg.

Vi har allerede tagger som er i bruk:

+Err/SpaceCmp +Err/UnspaceCmp
Comment 6 Lene Antonsen 2016-12-06 11:16:26 CET
(In reply to Thomas Omma from comment #2)
> norm is birgen dihte+Adv

Men denne taggen er for de leksikaliserte, og krever at hvert enkelt med samskriving tilfelle må leksikaliseres. De dynamiske med samskriving, får annen tagging.
Comment 7 Linda Wiechetek 2016-12-07 10:15:37 CET
(In reply to Trond Trosterud from comment #3)
> Det som er norm er særskriving (noko Jussi som kjent er skeptisk til).
> Derimot er ikkje den grammatiske analysen gjenstand for normativitet på same
> måte.
> 
> Her er alle samd om at resultatet er ei eining, som er adverb, og som er i
> strid med norma når det er skrive som eitt ord. 
> 
> At vi skal ha ei og ikkje to dynamiske analyser er klart, og sannsynlegvis
> Actio+Gen etter N&S. Det eg derimot lurer på her er om Err/Orth er den beste
> taggen, eller om vi treng ein eigen sammanskrivingstagg, og kanskje til og
> med også ein særskrivingstagg, altså slik:
> 
> +Err/Fused = for "birgendihte", som skal vere "birgen dihte"
> +Err/Sep = for hmm, viss vi registrerer slike feil, kanskje vi ikkje gjer
> det, t.d. "sánii guin" for korrekt "sániiguin", kva veit eg.
> 
> Apropos korrekt, dette er det usme seier om akkurat den ordforma:
> 
> sániiguin
> sániiguin	sátni+N+Err/Orth+Pl+Com
> sániiguin	sátni+N+Pl+Com

Vi har en egen sammenskrivings- og særskrivingstag som vi bruker i slike tilfeller. Err/SpaceCmp (om det burde være et sammensatt ord) og Err/UnspaceCmp (om ordet ikke burde være sammensatt). Vi har endra en del Err/Orth til Err/UnspaceCmp men det er flere som burde endres.
Comment 8 Linda Wiechetek 2016-12-07 10:17:38 CET
(In reply to Lene Antonsen from comment #5)
> > 
> > +Err/Fused = for "birgendihte", som skal vere "birgen dihte"
> > +Err/Sep = for hmm, viss vi registrerer slike feil, kanskje vi ikkje gjer
> > det, t.d. "sánii guin" for korrekt "sániiguin", kva veit eg.
> 
> Vi har allerede tagger som er i bruk:
> 
> +Err/SpaceCmp +Err/UnspaceCmp

yep sånn er det, så ikkje svaret ditt før!
Comment 9 Lene Antonsen 2017-03-15 14:00:35 CET
Vi har nå tre forskjellige analyser for -ndihte,

birgendihte	
birget+VV+IV+Actio+Gen+Der/Adv+Adv+Err/Orth	
birget+VV+IV+Der/NomAct dihte+Err/UnspaceCmp+Adv	
birgen dihte+Err/UnspaceCmp+Adv

De ikke leksikaliserte får denne analysen:
biggondihte		
biggot+VV+IV+Der/NomAct dihte+Err/UnspaceCmp+Adv

Når jeg finleser Nickel/Sammallahti s 296, så står det at når det er objekt knytta til aktioformen, så oppfattes den som Actio+Gen. Med andre ord så skal vi da ha både Der/NomAct og Actio Gen og så disambiguere bort den ene. biggot er IV og kan ikke ta objekt, så slik er det ok at denne bare får +Der/NomAct

+Der/NomAc og +Actio+Gen er dynamiske analyser, mens birgen dihte+Err/UnspaceCmp+Adv er leksikalisert.
Ideelt sett burde de morfologiske taggene være like her?

Det burde være mulig, ved å endre fra:
birgen% dihte:birgen DIHTE ;

til:
birgen+V+IV+Der/NomAct% dihte:birgen DIHTE ;
Er det noen grunner til at vi ikke burde gjøre dette?

Jeg foreslår å endre +Err-taggen i denne
birget+VV+IV+Actio+Gen+Der/Adv+Adv+Err/Orth <=== +Err/UnspaceCmp
Comment 10 Sjur Nørstebø Moshagen 2019-10-07 09:25:23 CEST
Thomas, du var litt for rask til å lata att denne. Vi får framleis ein analyse ulik dei andre leksikaliserte:

> $ echo birgendihte | hfst-lookup -q src/analyser-disamb-gt-desc.hfstol 
> birgendihte	birget+Ex/V+IV+Actio+Gen+Der/Adv+Adv+Err/Orth
> birgendihte	birget+Ex/V+IV+Der/NomAct+N dihte+Err/MissingSpace+Adv
> birgendihte	birget+Ex/V+IV+Der/NomAct+N+Sem/Act+Cmp/SgNom+Cmp#dihtti+N+Sem/Ani+Sg+Gen+Allegro
> birgendihte	birgen dihte+Err/MissingSpace+Adv	<=== denne

Eg gjenopnar.
Comment 11 Thomas Omma 2019-10-07 09:41:04 CEST
birgen% dihte:birgen DIHTE ;

^ son that one is unΩanted?

and everµ other like that too:

bissehan% dihte:bissehan DIHTE ;
buhtadan% dihte:buhtadan DIHTE ;
dieđihan% dihte:dieđihan DIHTE ;

etc
Comment 12 Sjur Nørstebø Moshagen 2019-10-07 09:50:17 CEST
(In reply to Thomas Omma from comment #11)
> birgen% dihte:birgen DIHTE ;
> 
> ^ son that one is unΩanted?
> 
> and everµ other like that too:
> 
> bissehan% dihte:bissehan DIHTE ;
> buhtadan% dihte:buhtadan DIHTE ;
> dieđihan% dihte:dieđihan DIHTE ;

Sjå kommentaren til Lene (#c9). Eg forstår henne slik at oppføringa for den fyrste bør vera:

birgen+V+IV+Der/NomAct% dihte:birgen DIHTE ;

dvs at vi legg inn analysen til birgen manuelt i lexc, slik at vi får same analyse av alle variantane.

Men om det betyr at 'birgen dihte' då får ei anna analyse, så er eg usikker på kva vi eigentleg vil, og kva vi vil ha i ulike samanhangar. Med tokenise får vi:

$ echo birgendihte | hfst-tokenise -g tools/tokenisers/tokeniser-gramcheck-gt-desc.pmhfst 
"<birgendihte>"
	"birgen dihte" Err/MissingSpace Adv <W:0.0>
	"birget" Ex/V IV Actio Gen Der/Adv Adv Err/Orth <W:0.0>
	"birget" Ex/V IV Der/NomAct N" dihte" Err/MissingSpace Adv <W:0.0>
:\n

Her ser eg ingen grunn til å endra på Adv-analysen av den leksikaliserte forma, i og med MWE-analysen. Kva seier de andre?

(eg fjernar Ciprian og Sandra frå CC-lista)
Comment 13 Linda Wiechetek 2020-04-20 12:00:30 CEST
Det ser ut til å være fiksa for det meste:


"<birgendihtii>"
        "birgen dihte" Err/MissingSpace Adv <W:0.0> <firstCohort> &msyn-unspace-compound ADD:3830:compound ADD:3830:compound
msyn-unspace-compound
        "birgen dihte" Adv <W:0.0> <firstCohort> &SUGGEST ADD:3830:compound ADD:3830:compound COPY:3834:compound
birgen dihte+Adv        birgen dihtii,birgen dihte







"<birgendihte>"
        "birgen dihte" Err/MissingSpace Adv <W:0.0> <firstCohort> &msyn-unspace-compound ADD:3830:compound
msyn-unspace-compound
        "birgen dihte" Adv <W:0.0> <firstCohort> &SUGGEST ADD:3830:compound COPY:3834:compound
birgen dihte+Adv        birgen dihtii,birgen dihte
        "birget" Ex/V IV Der/NomAct N" dihte" Err/MissingSpace Adv <W:0.0> <firstCohort> &msyn-unspace-compound ADD:3830:compound
msyn-unspace-compound
        "birget" Ex/V IV Der/NomAct N" dihte" Adv <W:0.0> <firstCohort> &SUGGEST ADD:3830:compound COPY:3834:compound
birget+Ex/V+IV+Der/NomAct+N"+dihte"+Adv ?
;       "birget" Ex/V IV Actio Gen Der/Adv Adv Err/Orth <W:0.0> <firstCohort> REMOVE:8342:r1212
: 
"<birgen dihte>"
        "birgen dihte" Adv <W:0.0>
        "birget" Ex/V IV Der/NomAct N" dihte" Adv <W:0.0>


Bare noe rart med denne:

"<birgendihti>"
        "birget" Ex/V IV Der/NomAct N" dihte" Adv <W:0.0> &SUGGEST ADD:3830:compound COPY:3834:compound
birget+Ex/V+IV+Der/NomAct+N"+dihte"+Adv ?
;       "birget" Ex/V IV Der/NomAct N" dihte" Err/Orth Err/MissingSpace Adv <W:0.0> &msyn-unspace-compound ADD:3830:compound REMOVE:6396:SuperfluousErrTags


Vet dokker ka som er problemet her?
Comment 14 Lene Antonsen 2020-04-20 12:21:24 CEST
dihte er Err/Orth, da kan den kanskje ikke foreslås?