Bug 1404 - Adjektiv er forsvunnet fra sørsamisk fst
Summary: Adjektiv er forsvunnet fra sørsamisk fst
Status: RESOLVED FIXED
Alias: None
Product: sma lexicon
Classification: Unclassified
Component: Stem lexica (show other bugs)
Version: unspecified
Hardware: Macintosh Other
: P5 - Later major
Assignee: Maja Lisa Kappfjell
URL:
Keywords:
Depends on:
Blocks:
 
Reported: 2012-08-24 11:45 CEST by Lene Antonsen
Modified: 2013-03-12 14:38 CET (History)
4 users (show)

See Also:


Attachments

Note You need to log in before you can comment on or make changes to this bug.
Description Lene Antonsen 2012-08-24 11:45:39 CEST
Følgende adjektiv finnes i dicts/smanob/src/a_smanob.xml, og er med i vår siste generering av dict, men har nå forsvunnet fra fst. 

gt$ dsma
båadtsah+A+Attr	båadtsah+A+Attr	+?
båadtsah+A+Sg+Nom	båadtsah+A+Sg+Nom	+?

feejjene+A+Attr	feejjene+A+Attr	+?
feejjene+A+Sg+Nom	feejjene+A+Sg+Nom	+?

læhkoeladtje+A+Attr	læhkoeladtje+A+Attr	+?
læhkoeladtje+A+Sg+Nom	læhkoeladtje+A+Sg+Nom	+?

rudtjege+A+Attr	rudtjege+A+Attr	+?
rudtjege+A+Sg+Nom	rudtjege+A+Sg+Nom	+?


Slik er disse oversatt i LMM:
båadtsah   bar, naken
feejjene  glad, munter
læhkoeladtje 	heldig; en som er heldig
rudtjege     flittig

Dessuten har kompareringsformer som er dokumentert  i LMM (og er med i siste generering av dict), forsvunnet ut av  vår fst: 

skuallahkåbpoe (skuallah)
gemtebe (gamte)
Comment 1 Lene Antonsen 2012-08-24 14:58:19 CEST
Maja skriver på mail:
Jeg får ikke logga meg inn i bugzilla og svarer derfor her. De adjektivene som du nevner under her, har ikke jeg rørt under mine opperasjoner. Jeg burde kanskje skrevet TYDLIGERE i log-inn mailene mine at jeg ikke er ferdig med å OMKALFATRE adj-fila, fordi det er det jeg gjør. - Lene, det kommer til å bli enda verre, fordi jeg er ikke ferdig i fila enda. Når det gjelder de kompareringsformer som er så dokumenterte i LMM, så må jeg bare beklage at de  har ramlet ut.

Mine kommentarer:

Det er viktig å se på disse adjektivene, uansett hvem som har forårsaket problemet.
Men de eksisterte i sma.fst av svn versjon 55094, så dette har skjedd siden mai 2012, og når jeg ser på svn-logene, så er det i Majas innsjekkinger disse adjektivene er endra.

båadtsah	båadtsah+A+Nom
båadtsah	båadtsah+A+Attr

feejjene	feejjene+A+Sg+Nom
feejjene	feejjene+A+Attr

læhkoeladtje	læhkoeladtje+A+Sg+Nom
læhkoeladtje	læhkoeladtje+A+Attr

rudtjege	rudtjege+A+Sg+Nom
rudtjege	rudtjege+A+Attr

skuallahkåbpoe	skuallah+A+Comp+Sg+Nom
skuallahkåbpoe	skuallah+A+Comp+Attr

gemtebe	gamte+A+Comp+Attr
gemtebe	gamte+A+Comp+Sg+Nom

Maja skriver at "det kommer til å bli enda verre, fordi jeg er ikke ferdig i fila enda."

Jeg er bekymret for denne arbeidsmåten, da det kan bli et stort arbeid å hente inn forsvunnet informasjon seinere. Det er samla informasjon både fra LMM og korpus og flere informanter. Dette tar det tid å hente inn på nytt.
Comment 2 Trond Trosterud 2012-08-24 18:28:19 CEST
Eg limer inn brev frå Maja her, Trond:
--------------------------------

Jeg får desverre ikke svart pr. Bugzilla, og svarer derfor på mail: 

Hei!
Jeg tror Lene bekymrer seg litt for mye. Jeg ser de adjektivene som er ramlet ut er _6_(seks) adjektiver og jeg skal rette disse opp. Det er ikke så mange.  Jeg er ikke det minste bekymret over å hente tilbake denne informasjonen. Jeg har også tilgang til ordbok og korpus - og vet godt å sjekke opp dette, når det skulle være nødvendig. 

Jeg mener jeg i de fleste innsjekk har forklart hvorfor jeg har gjort de endringene som jeg har gjort. Endringene med oes_OE og as_A (som ble NOUN_KOMP-leksikoner ) skal jeg gjøre noe med og rette opp igjen. - dette lover  jeg å gjøre i neste uke;-)

Når det gjelder videre arbeid med adjektivene, tenker jeg å gå igjennom lexiconene på nytt. Slå sammen noen, slette etc. I dette kommer jeg også til å gå igjennom adjektivene.
Comment 3 Lene Antonsen 2012-08-25 10:06:19 CEST
Vær obs på at disse lemmaene i adjektivfila ikke gir analyse: De kommer i tillegg.

usma:

gaast   gaast   +?
gorredimmes     gorredimmes     +?
juhtemes        juhtemes        +?
laejhtemes      laejhtemes      +?
lïerehtimmmes   lïerehtimmmes   +?
maajeööhpehtimmes       maajeööhpehtimmes       +?
mujhtemes       mujhtemes       +?
samhtj  samhtj  +?
vaarjelimmes    vaarjelimmes    +?
Comment 4 Lene Antonsen 2012-09-03 14:13:09 CEST
Kopiert fra mail fra Maja:


Bugzilla funker fortsatt ikke hos meg:

feejjene
feejjene	feejjene+A+Sg+Nom
feejjene	feejje+N+Sg+Gen+PxSg1


rudtjege
rudtjege	rudtje+N+Sg+Nom+Foc/ge
rudtjege	rudtjege+A+Sg+Nom
rudtjege	rudtjege+A+Attr

rudtjegåbpoe
rudtjegåbpoe	rudtjege+A+Comp+Sg+Nom
rudtjegåbpoe	rudtjege+A+Comp+Attr

rudtjebe
rudtjebe	rudtjege+A+Comp+Attr
rudtjebe	rudtjege+A+Comp+Sg+Nom

skuallahkåbpoe
skuallahkåbpoe	skuallah+A+Comp+Sg+Nom
skuallahkåbpoe	skuallah+A+Comp+Attr

skuallahkommes
skuallahkommes	skuallah+A+Superl+Attr
skuallahkommes	skuallah+A+Superl+Sg+Nom

skuallah
skuallah	skuallah+A+Pl+Nom
skuallah	skuallah+A+Attr

skuallan
skuallan	skuallah+A+Sg+Gen
skuallan	skuallah+A+Sg+Nom
skuallan	skualloeh+A+Sg+Nom


læhkoeladtje er fortsatt utkommentert.

gamte finner jeg ikke feilen på, og komparasjonen på denne er kjempefin og slik som den skal være: gemtebe, gemtemes (ie,som underliggende stamme)  og jeg kan ikke huske at jeg har rørt dette adjektivet. Men, siden Lene har utepekt som synderen, fortsetter jeg med den i morgen. NÅ: barn, middag og familie. +har 
lagt til adjektivet 'gebties' som forøvrig får samme komparasjon som gamte, gabte.

Hilsen

Maja Lisa
Comment 5 Lene Antonsen 2012-09-03 14:22:39 CEST
Kommentar til gemtebe:
denne bøyningsformen gir fremdeles ikke analyse:

src$ lookup analyser.gt.xfst
gemtebe
gemtebe	gemtebe	+?


med -r 59359 i gammel struktur:
usma:
gemtebe
gemtebe	gamte+A+Comp+Attr
gemtebe	gamte+A+Comp+Sg+Nom


Det er riktig som Maja skriver, at det ikke er endra i adjektivfila eller sma-lex siden -r 59359. Det tyder på at det er endring i twolc som er årsaken. Kanskje Trond kan sjekke opp dette siden han har gjort endringer der.

Ellers så er Maja ansvarlig for sma, og alle bugzilla-meldinger går til henne, uansett som om hun er "synderen" eller ikke.
Comment 6 Trond Trosterud 2012-09-05 16:20:20 CEST
Eg har funne gamtebe-feilen. Den er min (trur eg i alle fall, eg var litt kort i loggen).

Poenget er at nokon (ssv. meg) har gjort om umlaut-regelen i sma-phon.twolc til å gjelde berre for trestava ord:

"a/e alternation"
!   a:e <=>            _ [ Cns - j | %»: t j | h [ t | k ] ] (Cns) (e) (%>:) %^DISIMP: ; ! original
   a:e <=> Vow Cns+  _ [ Cns - j | %»: t j | h [ t | k ] ] (Cns) (e) (%>:) %^DISIMP: ; ! 3syll

Viss vi skiftar utropsteiknet eitt hakk ned

  "a/e alternation"
   a:e <=>            _ [ Cns - j | %»: t j | h [ t | k ] ] (Cns) (e) (%>:) %^DISIMP: ; ! original
!   a:e <=> Vow Cns+  _ [ Cns - j | %»: t j | h [ t | k ] ] (Cns) (e) (%>:) %^DISIMP: ; ! 3syll

så fungerer det med gemtebe:

Lexical string ('q' = quit): gamte>^DISIMP
                             gemte>
g
a:e
m
t
e
>
^DISIMP:0

Ei anna sak er at hansaminga av gamte i lexc er overkill, vi ber om diftongforenkling a:e ikkje mindre enn tre gonger:

 gamt^DISIMPie>^COMPDISIMPbe^DISIMP

Her bør vi i lexc fjerne to av dei.

Klokka er over fire, og eg vil ikkje sjekke inn endringa utan å sjå på konsekvensane av endringa for heile systemet. Eg lar dermed sma-phon.twolc stå, så får vi sjå på om eg skal rydde opp eller om nokon annan skal sjå på heile a/e-systemet. Men når det gjeld gemtebe er svaret i alle fall at her får vi ikkje umlaut fordi ordet har berre to stavingar.
Comment 7 Trond Trosterud 2012-09-05 16:26:57 CEST
Her er det gemtebe går ut av analysatoren:
------------
r60004 | trond | 2012-07-01 17:02:00 +0200 (Sun, 01 Jul 2012) | 1 line

Added a syllable to the left of the a/e context. Now the unanalysesd adjectives are down to 4, i.e. as (one more than) before.
------------

Så det som har skjedd er at eg har prøvd å gje oss a/e uavhengig av konsonantsamband, og dermed fekk for mange umlaut (kanskje på grunn av den triple disimp-merkinga?), og så reverserte, og deretter la til r60004. Her er dei to føregåande (nedanfor). Eg er framleis skeptisk til å spesifisere konsonantgruppe. Med eit gullkorpus kan vi trygt undersøke effektane av "a/e alternation" -regelen, så det er nok vegen å gå.


------------------------------------------------------------------------
r60002 | trond | 2012-07-01 16:30:44 +0200 (Sun, 01 Jul 2012) | 1 line

Endra a/e -regel attende til gammal versjon.
------------------------------------------------------------------------
r59901 | trond | 2012-06-29 11:32:46 +0200 (Fri, 29 Jun 2012) | 18 lines

Changed the rule "a/e alternation".

It used to be
!   a:e <=>         _ [ Cns - j | %»: t j | h [ t | k ] ] (Cns) (e) (%>:) %^DISIMP: ;
but is now
   a:e <=>         _  Cns+ (e) (%>:) %^DISIMP: ;

The thing is: The rule as it stood restricted the vowel simplification rule 
to stems with only certain consonant clusters. Cf. Bergsland: "om
konsonanten mellom annen stavelse og tredje stavelse er j, er den
korte vokal i annan stavelse i eller o" (p. 105.)

But our starting point is the opposite. We know the underlying
vowel is -a-, and we know it will be reduced to -e- whenever there
is the DISIMP mark. Hence, it seems to me, we do not need the 
specification in the consonant cluster.
Comment 8 Trond Trosterud 2012-09-06 17:17:41 CEST
Eg har no (62098) reversert 60004. Eg er ikkje sikker på om det er rett, i og med at eg ikkje har noko å teste mot. Den gamle (pre-60004)-regelen fungerer på adjektiva slik dei var tidlegare, men i alle fall analyserer eg no alle lemmaformene minus ei:

cat morphology/stems/adjectives.lexc |grep ';'|tr '[: ]' '+' | cut -d"+" -f1|usma|grep '?'
faavroe	faavroe	+?

Så det ser jo bra ut. Det inneber at underliggjande stamme -a- blir endra til -e- på ein måte som passar med lemma. Om alle omlydsadjektiva blir riktige veit vi ikkje, men gemtebe blir i alle fall rett.

Det er 49 adjektiv som får komparativ analyse i dag, men ikkje fekk det i 59359. Det ser ut for meg til at ingen av dei har med a/e-feilen å gjere, dei er sannsynlegvis resultat av justeringar i comp eller ikke, jf. (kommandoen føreset at du har 59359 kompilert i gammal struktur, og dagens versjon i ny):

cat morphology/stems/adjectives.lexc |grep ';'|tr '[: ]' '+' | cut -d"+" -f1|sed 's/$/+A+Comp+Sg+Nom/g;'|dsma|grep -v "?"|cut -f2|lookup ~/main/gt/sma/bin/sma.fst|grep "?"|cut -f1|usma|see

aalkijåbpoe	aalkijes+A+Comp+Sg+Nom
aebliehtåbpoe	aeblehts+A+Comp+Sg+Nom
aebliehtåbpoe	aeblehts+A+Comp+Sg+Nom
båantasåbpoe	båantas+A+Comp+Sg+Nom
...

I alle fall ser det ut til at vi har fått "a/e alternation" attende til noko som fungerer, og buggen kan gå attende til båadtsah, feejjene, læhkoladtje og rudtjege.
Comment 9 Maja Lisa Kappfjell 2012-09-12 10:35:25 CEST
Nå er det kommet en analyse for båadtsah. Lemma er satt til båadtsoes for begge attributtene båadtsah og båadtsoeh og predikativet båadtsan. 

båadtsoes+CmpN/SgN+CmpN/SgG+CmpN/PlG:båadts oeh_AN_ODDNOCOMP ; ! komp?
båadtsoes+CmpN/SgN+CmpN/SgG+CmpN/PlG:båadts oes_OES_ODDahk ; 
båadtsoes+CmpN/SgN+CmpN/SgG+CmpN/PlG:båadts ah_AN_ODDNOCOMP ;
Comment 10 Lene Antonsen 2012-10-29 19:55:53 CET
Flere ord som tidligere ga analyse som adjektiver, gir ingen analyse lenger i sma.fst. Det kunne være greit å få kommentar til disse, om det er bevisst eller uhell:

Disse var i fst i juni, og finnes i LMM, de gir ingen analyse nå:
-------------------------------
buajhkoes
eejhtegapts
jåalkas
ryöktehke 
råantjojne
rårhvah 
stijven, stijve
bovtseburrie, bovtsenburrie

Disse var i fst i juni, men finnes ikke i LMM, de gir ingen analyse nå:
-------------------------------------
tjålpoeh 
baandtsan
beetnegapts
bragkes
brutaale
båavhjoeh
golmenlïhtsen
jearhkoe

Disse har mista sin adjektivanalyse, og har nå bare adverb-analyse.
---------------------
joekoenlaakan
nænnoeslaakan
ovmessielaakan
seammalaakan  
joekehthlaakan

I hvertfall noen av disse blei lagt til som adjektiv pga funn i korpus, så dette bør sjekkes i korpus. F.eks. 
Eah gaajhkh redtieh seammalaakan leah. 
Jih ij oktegh daejstie almetjistie leah seamma-laakan, gaajhkesh leah joekehth.
 Toelhkeööhpehtimmie jïh ­autorisasjovne toelhkide Saemien/daaroen toelhkedïenesjimmiem joekehthlaakan vuekesne gååvnese byjjes dïenesjevadtemisnie.
Destie vååjnoe, dah gieh mijjen dajvijste Saemiedægkan båetieh, dah tjoeverieh veaksehke årrodh, nænnoeslaakan jih råågkehke gieline mijjen åarjelhsaemiej aamhtesh øvtiedidh.
Comment 11 Maja Lisa Kappfjell 2012-11-08 14:37:36 CET
Nei, ikke bevisst,men uhell. Ser på disse ordene nå. MLK
Comment 12 Maja Lisa Kappfjell 2012-11-08 15:01:43 CET
Båavjoeh gir analyse, men ikke de andre

båavjoeh
båavjoeh	båavjodh+V+IV+ConNeg
båavjoeh	båavjodh+V+IV+Ind+Prs+Sg2
båavjoeh	båavjodh+V+IV+Ind+Prs+Pl3
båavjoeh	båavjodh+V+IV+Imprt+Sg2
båavjoeh	båavjoeh+A+Sg+Nom
båavjoeh	båavjoeh+A+Attr
båavjoeh	båavjoeh+A+Pl+Nom

båavjan
båavjan	båavja+N+Sg+Gen
båavjan	båavjoeh+A+Sg+Nom

båavjoehkåbpoe
båavjoehkåbpoe	båavjoeh+A+Comp+Attr
båavjoehkåbpoe	båavjoeh+A+Comp+Sg+Nom

båavjoehkommes
båavjoehkommes	båavjoeh+A+Superl+Sg+Nom
båavjoehkommes	båavjoeh+A+Superl+Attr
Comment 13 Maja Lisa Kappfjell 2012-11-08 15:58:51 CET
tjålpoeh 
baandtsan
jearhkoe

er skrivefeil, og skal ikke gi analyse. MLK
Comment 14 Lene Antonsen 2012-11-08 16:01:37 CET
(In reply to comment #13)
> tjålpoeh 
> baandtsan
> jearhkoe
> 
> er skrivefeil, og skal ikke gi analyse. MLK

Hva er riktig stavemåte av disse?
Comment 15 Maja Lisa Kappfjell 2012-11-13 15:00:52 CET
(In reply to comment #14)
> (In reply to comment #13)
> > tjålpoeh 
> > baandtsan
> > baanhtsan
> > 
> > er skrivefeil, og skal ikke gi analyse. MLK
> 
> Hva er riktig stavemåte av disse?

tjålhpoeh,
baanhtsan, 
jearkoe
Comment 16 Maja Lisa Kappfjell 2012-11-16 09:53:28 CET
laakan er typiske adverbendelser, mens 'laaketje' derimot er adjektivendelser. f.eks 'veelkes-laaketje' hvitaktig,( 'vyölkehke')
Jeg tror de bare skal være slik:

joekoenlaakan
nænnoeslaakan
ovmessielaakan
seammalaakan  
joekehthlaakan
Comment 17 Lene Antonsen 2012-11-16 10:03:10 CET
(In reply to comment #16)
> laakan er typiske adverbendelser, mens 'laaketje' derimot er adjektivendelser.
> f.eks 'veelkes-laaketje' hvitaktig,( 'vyölkehke')
> Jeg tror de bare skal være slik:
> 
> joekoenlaakan
> nænnoeslaakan
> ovmessielaakan
> seammalaakan  
> joekehthlaakan

Det kan hende at noen bruker disse feil, eller at noen av disse i praksis brukes både som adjektiv og adverb. Hvis vi skal kunne analysere tekster hvor der er brukt som A, så må formene finnes i analysatoren. 

Hvis man mener at det er feil bruk, så skal man ikke fjerne dem, men evt legge til en Use/Sub.

Generelt så bør man sjekke i korpus og tilgjengelig anna dokumentasjon (f.eks. LMM) før man fjerner ord og former fra fst.
Comment 18 Lene Antonsen 2012-11-16 10:16:21 CET
En kommentar ut fra hvordan det er på nordsamisk, hvis det kan være nyttig å sammenlikne:

På nordsamisk er både -lágaš og -lágan adjektivendelser, mens -láhkai og -ládje er adverb, dvs normert rettskriving er at láhkai og ládje skrives som eget ord: seammá láhkai.

LMM presenterer alle -laakan med adverbiale oversettelser, bortsett fra et par stykker som man evt kan tolke både og.

Men man kan tenke seg muligheta av at -lágan Adj på nordsamisk, kan ha påvirket noen forfattere til å bruke -laakan som adjektiv også på sørsamisk?
Comment 19 Maja Lisa Kappfjell 2012-11-20 13:38:40 CET
Ja, jeg sjekker i tilgjenngelig data, men jeg tror ikke på korpuset som ligger der. Derfor hadde jeg villet skille ut Ella H.Bull, Anna Jacobsen og Åsta Vangbergs tekster i en fil, og la de andre tekstene være i en annen. Når det gjelder KB/LMM så ahr de upresise oversettinger ofte, et eksempel på det adj/sub-oversettinger, så der sliter jeg også. Det er kanskje meg det er noe feil med. Maja Lisa
Comment 20 Maja Lisa Kappfjell 2012-11-21 12:56:08 CET
test
Comment 21 Maja Lisa Kappfjell 2012-11-28 09:25:35 CET
Jeg mener meg ferdig med denne buggen. Jeg avslutter denne.
Comment 22 Maja Lisa Kappfjell 2013-03-12 14:38:13 CET
(In reply to comment #21)
> Jeg mener meg ferdig med denne buggen. Jeg avslutter denne.