Ord som birgendihte/birgendihtii/birgendihti har to forskjellige analyser Leksikalisert: birgendihte birget+V+IV+Actio+Gen+Der/Adv+Adv+Err/Orth Dynamisk: birgendihte birget+V+IV+Der/NomAct dihte+Err/Orth+Adv Det hadde vært naturlig å endre den dynamiske slik at de blir like den leksikaliserte? birgendihte birget+V+IV+Actio+Gen dihte+Err/Orth+Adv
Rettelse: Begge analysene er dynamisk, men iflg Nickel/Sammallahti er nok Actio+Gen den riktige. Kanskje trenger vi bare en analyse? Eksempel på ord med bare en analyse: sme$ usme biggondihtii biggondihtii biggot+V+IV+Der/NomAct dihte+Err/Orth+Adv
norm is birgen dihte+Adv
Det som er norm er særskriving (noko Jussi som kjent er skeptisk til). Derimot er ikkje den grammatiske analysen gjenstand for normativitet på same måte. Her er alle samd om at resultatet er ei eining, som er adverb, og som er i strid med norma når det er skrive som eitt ord. At vi skal ha ei og ikkje to dynamiske analyser er klart, og sannsynlegvis Actio+Gen etter N&S. Det eg derimot lurer på her er om Err/Orth er den beste taggen, eller om vi treng ein eigen sammanskrivingstagg, og kanskje til og med også ein særskrivingstagg, altså slik: +Err/Fused = for "birgendihte", som skal vere "birgen dihte" +Err/Sep = for hmm, viss vi registrerer slike feil, kanskje vi ikkje gjer det, t.d. "sánii guin" for korrekt "sániiguin", kva veit eg. Apropos korrekt, dette er det usme seier om akkurat den ordforma: sániiguin sániiguin sátni+N+Err/Orth+Pl+Com sániiguin sátni+N+Pl+Com
To merknader til denne merknaden: 1. den har ingenting med denne bugen å gjere, eg la den der fordi eg vart forundra då eg analyserte ordet eg brukte som døme 2. eg burde ikkje ha vorte forundra: dette er noko vi gjer (over-tilordnar Err/Orth for alla ord som kunne ha hatt diftongforenkling, og deretter fjernar dei frå CG). Sjå dermed bort frå den merknaden. > Apropos korrekt, dette er det usme seier om akkurat den ordforma: > sániiguin sátni+N+Err/Orth+Pl+Com
> > +Err/Fused = for "birgendihte", som skal vere "birgen dihte" > +Err/Sep = for hmm, viss vi registrerer slike feil, kanskje vi ikkje gjer > det, t.d. "sánii guin" for korrekt "sániiguin", kva veit eg. Vi har allerede tagger som er i bruk: +Err/SpaceCmp +Err/UnspaceCmp
(In reply to Thomas Omma from comment #2) > norm is birgen dihte+Adv Men denne taggen er for de leksikaliserte, og krever at hvert enkelt med samskriving tilfelle må leksikaliseres. De dynamiske med samskriving, får annen tagging.
(In reply to Trond Trosterud from comment #3) > Det som er norm er særskriving (noko Jussi som kjent er skeptisk til). > Derimot er ikkje den grammatiske analysen gjenstand for normativitet på same > måte. > > Her er alle samd om at resultatet er ei eining, som er adverb, og som er i > strid med norma når det er skrive som eitt ord. > > At vi skal ha ei og ikkje to dynamiske analyser er klart, og sannsynlegvis > Actio+Gen etter N&S. Det eg derimot lurer på her er om Err/Orth er den beste > taggen, eller om vi treng ein eigen sammanskrivingstagg, og kanskje til og > med også ein særskrivingstagg, altså slik: > > +Err/Fused = for "birgendihte", som skal vere "birgen dihte" > +Err/Sep = for hmm, viss vi registrerer slike feil, kanskje vi ikkje gjer > det, t.d. "sánii guin" for korrekt "sániiguin", kva veit eg. > > Apropos korrekt, dette er det usme seier om akkurat den ordforma: > > sániiguin > sániiguin sátni+N+Err/Orth+Pl+Com > sániiguin sátni+N+Pl+Com Vi har en egen sammenskrivings- og særskrivingstag som vi bruker i slike tilfeller. Err/SpaceCmp (om det burde være et sammensatt ord) og Err/UnspaceCmp (om ordet ikke burde være sammensatt). Vi har endra en del Err/Orth til Err/UnspaceCmp men det er flere som burde endres.
(In reply to Lene Antonsen from comment #5) > > > > +Err/Fused = for "birgendihte", som skal vere "birgen dihte" > > +Err/Sep = for hmm, viss vi registrerer slike feil, kanskje vi ikkje gjer > > det, t.d. "sánii guin" for korrekt "sániiguin", kva veit eg. > > Vi har allerede tagger som er i bruk: > > +Err/SpaceCmp +Err/UnspaceCmp yep sånn er det, så ikkje svaret ditt før!
Vi har nå tre forskjellige analyser for -ndihte, birgendihte birget+VV+IV+Actio+Gen+Der/Adv+Adv+Err/Orth birget+VV+IV+Der/NomAct dihte+Err/UnspaceCmp+Adv birgen dihte+Err/UnspaceCmp+Adv De ikke leksikaliserte får denne analysen: biggondihte biggot+VV+IV+Der/NomAct dihte+Err/UnspaceCmp+Adv Når jeg finleser Nickel/Sammallahti s 296, så står det at når det er objekt knytta til aktioformen, så oppfattes den som Actio+Gen. Med andre ord så skal vi da ha både Der/NomAct og Actio Gen og så disambiguere bort den ene. biggot er IV og kan ikke ta objekt, så slik er det ok at denne bare får +Der/NomAct +Der/NomAc og +Actio+Gen er dynamiske analyser, mens birgen dihte+Err/UnspaceCmp+Adv er leksikalisert. Ideelt sett burde de morfologiske taggene være like her? Det burde være mulig, ved å endre fra: birgen% dihte:birgen DIHTE ; til: birgen+V+IV+Der/NomAct% dihte:birgen DIHTE ; Er det noen grunner til at vi ikke burde gjøre dette? Jeg foreslår å endre +Err-taggen i denne birget+VV+IV+Actio+Gen+Der/Adv+Adv+Err/Orth <=== +Err/UnspaceCmp
Thomas, du var litt for rask til å lata att denne. Vi får framleis ein analyse ulik dei andre leksikaliserte: > $ echo birgendihte | hfst-lookup -q src/analyser-disamb-gt-desc.hfstol > birgendihte birget+Ex/V+IV+Actio+Gen+Der/Adv+Adv+Err/Orth > birgendihte birget+Ex/V+IV+Der/NomAct+N dihte+Err/MissingSpace+Adv > birgendihte birget+Ex/V+IV+Der/NomAct+N+Sem/Act+Cmp/SgNom+Cmp#dihtti+N+Sem/Ani+Sg+Gen+Allegro > birgendihte birgen dihte+Err/MissingSpace+Adv <=== denne Eg gjenopnar.
birgen% dihte:birgen DIHTE ; ^ son that one is unΩanted? and everµ other like that too: bissehan% dihte:bissehan DIHTE ; buhtadan% dihte:buhtadan DIHTE ; dieđihan% dihte:dieđihan DIHTE ; etc
(In reply to Thomas Omma from comment #11) > birgen% dihte:birgen DIHTE ; > > ^ son that one is unΩanted? > > and everµ other like that too: > > bissehan% dihte:bissehan DIHTE ; > buhtadan% dihte:buhtadan DIHTE ; > dieđihan% dihte:dieđihan DIHTE ; Sjå kommentaren til Lene (#c9). Eg forstår henne slik at oppføringa for den fyrste bør vera: birgen+V+IV+Der/NomAct% dihte:birgen DIHTE ; dvs at vi legg inn analysen til birgen manuelt i lexc, slik at vi får same analyse av alle variantane. Men om det betyr at 'birgen dihte' då får ei anna analyse, så er eg usikker på kva vi eigentleg vil, og kva vi vil ha i ulike samanhangar. Med tokenise får vi: $ echo birgendihte | hfst-tokenise -g tools/tokenisers/tokeniser-gramcheck-gt-desc.pmhfst "<birgendihte>" "birgen dihte" Err/MissingSpace Adv <W:0.0> "birget" Ex/V IV Actio Gen Der/Adv Adv Err/Orth <W:0.0> "birget" Ex/V IV Der/NomAct N" dihte" Err/MissingSpace Adv <W:0.0> :\n Her ser eg ingen grunn til å endra på Adv-analysen av den leksikaliserte forma, i og med MWE-analysen. Kva seier de andre? (eg fjernar Ciprian og Sandra frå CC-lista)
Det ser ut til å være fiksa for det meste: "<birgendihtii>" "birgen dihte" Err/MissingSpace Adv <W:0.0> <firstCohort> &msyn-unspace-compound ADD:3830:compound ADD:3830:compound msyn-unspace-compound "birgen dihte" Adv <W:0.0> <firstCohort> &SUGGEST ADD:3830:compound ADD:3830:compound COPY:3834:compound birgen dihte+Adv birgen dihtii,birgen dihte "<birgendihte>" "birgen dihte" Err/MissingSpace Adv <W:0.0> <firstCohort> &msyn-unspace-compound ADD:3830:compound msyn-unspace-compound "birgen dihte" Adv <W:0.0> <firstCohort> &SUGGEST ADD:3830:compound COPY:3834:compound birgen dihte+Adv birgen dihtii,birgen dihte "birget" Ex/V IV Der/NomAct N" dihte" Err/MissingSpace Adv <W:0.0> <firstCohort> &msyn-unspace-compound ADD:3830:compound msyn-unspace-compound "birget" Ex/V IV Der/NomAct N" dihte" Adv <W:0.0> <firstCohort> &SUGGEST ADD:3830:compound COPY:3834:compound birget+Ex/V+IV+Der/NomAct+N"+dihte"+Adv ? ; "birget" Ex/V IV Actio Gen Der/Adv Adv Err/Orth <W:0.0> <firstCohort> REMOVE:8342:r1212 : "<birgen dihte>" "birgen dihte" Adv <W:0.0> "birget" Ex/V IV Der/NomAct N" dihte" Adv <W:0.0> Bare noe rart med denne: "<birgendihti>" "birget" Ex/V IV Der/NomAct N" dihte" Adv <W:0.0> &SUGGEST ADD:3830:compound COPY:3834:compound birget+Ex/V+IV+Der/NomAct+N"+dihte"+Adv ? ; "birget" Ex/V IV Der/NomAct N" dihte" Err/Orth Err/MissingSpace Adv <W:0.0> &msyn-unspace-compound ADD:3830:compound REMOVE:6396:SuperfluousErrTags Vet dokker ka som er problemet her?
dihte er Err/Orth, da kan den kanskje ikke foreslås?