Bug 567

Summary: Problem with paradigm generation for iesj
Product: Infrastructure Reporter: Lene Antonsen <lene.antonsen>
Component: REST/CGI (Interactive web)Assignee: Trond Trosterud <trond.trosterud>
Status: REOPENED ---    
Severity: normal CC: lene.antonsen, maja.l.kappfjell, sandra.rahka, sjur.n.moshagen, trond.trosterud
Priority: P3 - Within a week    
Version: unspecified   
Hardware: All   
OS: All   
Deadline: 2012-02-22   

Description Lene Antonsen 2007-10-29 08:58:32 CET
I don´t get the whole paradigms for northsami ieš and lulesami iesj at giellatekno.uit.no
Comment 1 Saara Huhmarniemi 2008-08-14 08:34:53 CEST
Northsami ieš and paradigm generation: I cannot generate other cases than nominative using isme.fst, for example:

echo "ieš+Pron+Refl+Sg+Acc" | /opt/sami/xerox/c-fsm/ix86-linux2.6-gcc3.4/bin/lookup -flags mbTT -utf8 /opt/smi/sme/bin/isme.fst'
0%>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>100%
ieš+Pron+Refl+Sg+Acc	ieš+Pron+Refl+Sg+Acc	+?

only nominative case. Could you check that the generator is working correctly, or are there some other forms that are missing?
Comment 2 Trond Trosterud 2011-05-01 17:39:43 CEST
The reason you don't get the paradigm is twofold:

1. The contlex in question does not have the tag +Sg/+Du/Pl.
2. The contlex does not contain oblique cases only, but send them to Px:


~/gtsvn$echo "ieš+Pron+Refl+Acc+PxSg1" | lookup gt/sme/bin/isme.fst 
0%>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>100%

  *****  LEXICON LOOK-UP  *****

ieš+Pron+Refl+Acc+PxSg1	iežam
ieš+Pron+Refl+Acc+PxSg1	iežan
ieš+Pron+Refl+Acc+PxSg1	iehčam
ieš+Pron+Refl+Acc+PxSg1	iehčan

As you can see, there are also m/n errors here, but the issues 1, 2 should be fixed. Thomas?
Comment 3 Thomas Omma 2011-05-02 10:25:35 CEST
kva?
Comment 4 Trond Trosterud 2011-05-02 10:59:24 CEST
Det eg meinte var:

1. The contlex in question does not have the tag +Sg/+Du/Pl.
===> ieš+Pron+Refl+Acc+PxSg1    iežam

2. The contlex does not contain oblique cases only, but send them to Px:
ieš+Pron+Refl+Sg+Acc    ieš+Pron+Refl+Sg+Acc    +?

Det eg bad deg om, Thomas, var å ordne analysen av ieš og iesj.
Comment 5 Thomas Omma 2011-05-02 11:18:30 CEST
gt $ svn ci -m "the missing tags"sme/src/pronoun-sme-morph.txt
Sending        gt/sme/src/pronoun-sme-morph.txt
Sending        gt/smj/src/pronoun-smj-lex.txt
Transmitting file data ..
Committed revision 42150.
Comment 6 Lene Antonsen 2011-05-02 16:22:31 CEST
Siden det var jeg som la inn bugmelding for 4 år siden, så skal jeg forklare problemet. Jeg velger å reåpne bugmeldinga.

Det bør være mulig å få ut paradigmene for de refleksive pronomene i paradigmegeneratoren. Det er ikke mulig i dag. 

'ieš' gir følgende:
ieš: ieš+Pron+Refl+Sg+Nom
ieš	Pron+Refl+Sg+Nom	ieš
ieš	Pron+Refl+Pl+Nom	ieža
ieš	Pron+Refl+Du+Nom	ieža
ieš	Pron+Refl+Ess	iehčanassii

'iežas' gir følgende:

iežas: ieš+Pron+Refl+Gen+PxSg3
ieš	Pron+Refl+Sg+Nom	ieš
ieš	Pron+Refl+Pl+Nom	ieža
ieš	Pron+Refl+Du+Nom	ieža
ieš	Pron+Refl+Ess	iehčanassii
 
Dette må vel fikses i paradigm-fila som styrer genereringa av former.
Comment 7 Lene Antonsen 2011-05-25 09:50:19 CEST
Jeg har lagt til høyere prioritering på denne fordi våre brukere etterspør den.

Jeg har sett i victorio, i /opt/smi/sme/bin
i filen paradigm_standard.sme.txt 

# Standard paradigm grammar
#
# Used in paradigm generator.
# List the tag groups in the order they are given to generator.
# The names of the tag groups are listed in korpustags.txt
# "?" marks the optionality of the tag.
# It is not possible to mark alternation of the different tags.

Dette er linja som bør forbedres:
Pron+Refl+Number+Case

Jeg forelår:
Pron+Refl+Number+Case+Possessive
evt.
Pron+Refl+Number+Case+Possessive?

Problemet idag er at vi får svar på noe annet enn det vi spør om. 

Input: iežan 

output: 
ieš	Pron+Refl+Sg+Nom	ieš
ieš	Pron+Refl+Pl+Nom	ieža
ieš	Pron+Refl+Du+Nom	ieža
ieš	Pron+Refl+Ess	iehčanassii

Hvem skal gjøre dette? Skal jeg bare prøve meg fram, eller er det noen som kan dette bedre, som føler seg kallet?
Comment 8 Lene Antonsen 2011-05-26 12:01:34 CEST
Trond og jeg har i fellesskap fiksa dette, ved å legge til +Possessive?

Pron+Refl+Number+Case+Possessive?

i paradigm_standard.sme.txt osv. Tilsvarende bør gjøres for sma og smj.

Jeg ser at det er flere problemer i generering av paradigmer, noe har vi fiksa,  men vi får fremdeles ingen paradigme for G3 substantivene. Problemet her er at det er G3+N og ikke motsatt. Dette må arbeides videre med derfor bør ikke bugen lukkes enda. 

Vel, det viste seg at det var enkelt å fikse ieš/iesj-paradigmet. Det er synd at denne buggen har hvilt i 2,5 år.
Comment 9 Lene Antonsen 2011-05-26 13:43:16 CEST
Spørsmål: jeg har endra rett i victorio /opt/smi/sme/bin, bl.a. har jeg reverted Tronds endring 
stemtype+N fordi den ikke fungerte. Jeg har også gjort andre endringer. Nå ser jeg at det finnes noe i svn-treet: gt/sme/res/paradigm.sme.txt osv. 

Hvordan er forholdet mellom disse? Ved innsjekking i svn, blir filene i /opt/smi/sme/bin oppdatert
direkte?

Jeg har ikke endret i gt/sme/res/
Comment 10 Trond Trosterud 2011-05-26 16:45:11 CEST
Nei, dei blir ikkje endra automatisk (dette er del av den greina vi saga over då vi heile tida fekk feil inn i websidene kvar gong nokon rota til fst-en.) Så svn-en er $GTHOME/sme/res/, filene skal sjekkast inn der og deretter kopierast manuelt til /opt/smi/$LANG/bin/ , i lag med nye fst-ar.
Comment 11 Trond Trosterud 2011-05-31 23:13:03 CEST
Now, smj iesj works in a strange way:

Here, it does not work at all (the choices present here are the two final ones shown below):
http://giellatekno.uit.no/cgi/p-smj.sme.html

But if you test on that page you get a new page with 4 choices. Of these, the two first work:

for minimal and standard paradigm (after last update i smj/res/paradigms.. files.
Strangely, it still does not work for the two final ones.
http://sami-cgi-bin.uit.no/cgi-bin/smi/smi.cgi?text=iesj&pos=Pron&mode=full&action=paradigm&charset=utf-8&lang=smj&plang=sme

Atte minimála paradigma 
Atte standárdaparadigma 
Atte buot hámiid 
Atte buot hámiid, maid suopmanhámiid

We thus ahve two problems here:
a. the two final options do not work
b. the two first options are not present on the primary screen
Comment 12 Trond Trosterud 2011-05-31 23:14:19 CEST
It seems this is a webpage problem rather than an fst problem Resetting assignee.
Comment 13 Lene Antonsen 2011-06-03 15:30:06 CEST
Det er samme problem med sma-paradigmet for pronomener,selv om jeg har oppdatert paradigme. Jeg får f.eks. ikke paradigmer for 'manne' eller 'satne'. For sma er det bare en type paradigme. 

Jeg har sammenlignet korpustags-filene for sma og sme, og ser at det ikke er angitt mulige homonymier i sma-fila på samme måte som i sme-fila (f.eks. Dem=Pers). Jeg vet ikke hvordan disse fungerer, men de skulle uansett ikke virke inn på problemet som er beskrevet her?
Comment 14 Lene Antonsen 2011-06-03 18:16:24 CEST
I added Tomi as cc to this bug. I realized that he uses the paradigm and korpustagsfiles in smX/res for Divvun. We should not experiment too much without him knowing it.
Comment 15 Ciprian Gerstenberger 2011-06-03 21:24:04 CEST
I totally agree with you. The first thing I would do is to see whether there are some special flags on the entries that are relevant for Tommi's tasks.


(In reply to comment #14)
> I added Tomi as cc to this bug. I realized that he uses the paradigm and
> korpustagsfiles in smX/res for Divvun. We should not experiment too much
> without him knowing it.
Comment 16 Trond Trosterud 2012-09-29 09:52:45 CEST
(In reply to comment #13)
> Det er samme problem med sma-paradigmet for pronomener,selv om jeg har
> oppdatert paradigme. Jeg får f.eks. ikke paradigmer for 'manne' eller 'satne'.
> For sma er det bare en type paradigme. 

Eg har no lagt til tre paradigmetyper (som oppfølgjing får vi no faktisk fire, også dialekt, eg er ikkje sikker på kva det fjerde alternativet gjer). Eg har også oppdatert paradigmefilene, ved å kopiere relevante delar frå sme, slik at i alle fall __manne__ (personleg pronomen) blir analysert. Det er litt ubehageleg, i og med at det gamle oppsettet etter mitt syn burde fungere, ei mogleg forklaring er regelordning i desse filene, dvs. at mønster lista tidleg blokkerer seinare mønster. No fungerer i alle fall personlege pronomen. Eg har ikkje testa systematisk for andre pronomen eller ord, men no går det i det minste framover her.

Synspunkt og testresultat er velkomne.
Comment 17 Trond Trosterud 2012-11-01 19:53:40 CET
Testing har det vore dårleg med, og no går det også attende: For sma får eg berre nominativ av manne. Eg ser på dette.
Comment 18 Trond Trosterud 2014-04-21 21:42:45 CEST
No testar er, og her er resultatet:

Det fungerer for sma  manne, og det fungerer for sme ieš, så det ser ut til at paradigmegenerering er ok.

sma iesj gjev ikkje paradigme, emn grunnen til det er at berre nominativ har taggrekka +Pron+Refl+Sg+Nom. For dei andre kasusa er det ingen numerustagg:

LEXICON Reflexive
!Two nominative reflexives, and pointer to the rest                                               
 iesj+Pron+Refl+Sg+Nom:iesj%> K ;
 iesj+Pron+Refl+Du+Nom:ietja%> K ;
 iesj+Pron+Refl+Pl+Nom:ietja%> K ;
 iesj+Pron+Refl+Ess+Use/Sub:iehtja%>n K ; !                                                       
 iesj+Pron+Refl+Sg:0 refloblsg ;
 iesj+Pron+Refl+Pl:0 refloblpl ;


iesj+Pron+Refl: reflobl;

LEXICON reflobl

 +Acc:ietja%>jd PxCPlstem ;
 +Ine:ietja%>jn PxCPlstem ;
 +Ela:ietja%>jst PxCPlstem ;
 +Com:ietja%>jn PxCPlstem ;

Dermed blir det ikkje noko paradigme. Eg gjer framlegg om at vi lar smj-lingvistane sjå på det, og evt. endre i lexc.
Comment 19 Inga Lill Sigga Mikkelsen 2014-06-18 11:23:48 CEST
Selv om smj "iesj" ikke vil genereres på nettsidene, så fungere det helt fint i usmj og dsmj. Så jeg vet ikke hva som er feil. Lule of nord er like bare at smj ikke har egen pronouns fil i affixes. 

SME:
i stems:
ieš+Pron+Refl: IESLEX ;

 i affixes:
LEXICON IESLEX
+Sg+Nom:ieš%> K ;
!+Sg+Nom+Use/-Spell:ieš»# NAMAT ;  ! <======= ok
+Du+Nom:ieža%> K ;
!+Du+Nom+Err/Sub:ieža»# NAMAT ; !
+Pl+Nom:ieža%> K ;
!+Pl+Nom+Err/Sub:ieža»# NAMAT ; !
+Gen+PxSg3+Attr+South:ald9 # ;   ! !SOUTH
+Gen+PxDu3+Attr+South:ald9 # ;   ! !SOUTH
+Gen+PxPl3+Attr+South:ald9 # ;   ! !SOUTH
+Ess:iehča%>nassij K ;
 reflobl ;

SMJ:

i stems:
!Two nominative reflexives, and pointer to the rest
 iesj+Pron+Refl+Sg+Nom:iesj%> K ;
 iesj+Pron+Refl+Du+Nom:ietja%> K ;
 iesj+Pron+Refl+Pl+Nom:ietja%> K ;
 iesj+Pron+Refl+Ess+Err/Sub:iehtja%>n K ; !
!iesj+Pron+Refl+Sg:0 refloblsg ; !Only gen
!iesj+Pron+Refl+Pl:0 refloblpl ; !Only gen
 iesj+Pron+Refl: reflobl;

Resultat i dsmj:

iesj+Pron+Refl+Ill+PxDu1

iesj+Pron+Refl+Ill+PxDu1	iehtjasimme
iesj+Pron+Refl+Ill+PxDu1	allasimme

iesj+Pron+Refl+Gen+PxDu1

iesj+Pron+Refl+Gen+PxDu1	ietjame
iesj+Pron+Refl+Gen+PxDu1	ietjama
iesj+Pron+Refl+Gen+PxDu1	iehtjame
iesj+Pron+Refl+Gen+PxDu1	iehtjama
iesj+Pron+Refl+Gen+PxDu1	ietjajme
iesj+Pron+Refl+Gen+PxDu1	ietjajma

Da jeg undersøkte buggen endret jeg på hvordan smj "reflobl" var organisert og utkommenterte "refloblsg" og "refloblpl", siden disse formene allerede blir gitt i "reflobl". Se innsjekking 96 484.
Comment 20 Inga Lill Sigga Mikkelsen 2014-06-18 11:38:37 CEST
Jeg har satt buggen til: Reset Assignee to default
Comment 21 Ciprian Gerstenberger 2016-01-15 14:23:06 CET
Removed Inga, added Sandra.
Comment 22 Sandra Nystø Rahka 2016-01-18 11:19:07 CET
Hva er statusen på denne?
Comment 23 Ciprian Gerstenberger 2016-01-19 21:03:45 CET
Nå har jeg sett på denne buggen og det var virkelig ikke lett.
Hva jeg har funnet er noe som ligner på buggen til crk med masse former
som pipeline ikke takler.
Jeg har sammelignet standard (som funker) med full (som ikke funker).
Her er fakta:
(1) det er så mange instansen som sendes til generatoren
smi>wc -l debug_iesj_*
 12680 debug_iesj_full.txt
   906 debug_iesj_std.txt

(2) det er så mange former som ble generert
smi>cat debug_iesj_std.txt | /usr/local/bin/lookup -flags mbTT -utf8 -d /opt/smi/smj/bin/generator-gt-norm.xfst |grep -v '\?'|grep -v '^\s*$'|grep iesj|wc -l
0%>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>100%
110
smi>cat debug_iesj_full.txt | /usr/local/bin/lookup -flags mbTT -utf8 -d /opt/smi/smj/bin/generator-gt-norm.xfst |grep -v '\?'|grep -v '^\s*$'|grep iesj|wc -l
0%>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>100%
297

Filene med input står i cgi-dir på serveren, dvs enhver kan teste dem med kommandoen i
punkt (2).

Etter min oppfattelse og erfaring er det sånn at 110 former er greit for å vise,
med nesten 3-ganger så mange ei.
Jeg har testet det bare med smj og bare med 'iesj', men jeg antar at det er for sme og for 'ieš' det samme problem.
Comment 24 Ciprian Gerstenberger 2016-01-20 14:48:56 CET
I have debugged the issue and Trond knows now that this is a matter of the size of paradigm generation. I am passing the bug to him because he knows how to adjust
the paradigm generation.
Comment 25 Trond Trosterud 2016-12-18 19:05:57 CET
Oppdatering: Vi får fullt paradigme for sme ieš men berre grunnforma for smj iesj. Med andre ord: One down, one to go (ved å kopiere sme)
Comment 26 Trond Trosterud 2016-12-18 23:12:32 CET
5/6 ok:
Vi har sme ok, vi har smi min paradigm, smi standard paradgim ok, men
smj full paradigm er framleis ikkje ok:

http://gtweb.uit.no/cgi-bin/smi/smi.cgi?text=iesj&pos=Pron&mode=full&action=paradigm&lang=smj&plang=sme

http://gtweb.uit.no/cgi-bin/smi/smi.cgi?text=iesj&pos=Pron&mode=standard&action=paradigm&lang=smj&plang=sme

paradigm_full.smj.txt og den tilsvarande sme er iddentiske, så dette er merlekeg. Ein skilnad er at sme har numerus men ikkje sme, men dette gjeld også for standardparadigmet, så dette er merkeleg.
Comment 27 Sjur Nørstebø Moshagen 2017-10-04 22:19:26 CEST
Kva er status? Ti år... :)