Bug 948 - Fst's produced in the new infra only works with free Xerox tools
Summary: Fst's produced in the new infra only works with free Xerox tools
Status: RESOLVED FIXED
Alias: None
Product: Infrastructure
Classification: Unclassified
Component: REST/CGI (Interactive web) (show other bugs)
Version: unspecified
Hardware: Linux Linux
: P2 - As soon as possible blocker
Assignee: Trond Trosterud
URL:
Keywords:
: 1281 (view as bug list)
Depends on:
Blocks:
 
Reported: 2011-02-20 16:22 CET by Trond Trosterud
Modified: 2012-10-14 20:02 CEST (History)
5 users (show)

See Also:


Attachments

Note You need to log in before you can comment on or make changes to this bug.
Description Trond Trosterud 2011-02-20 16:22:20 CET
The cgi-bin script looks for fin.fst, but we use hfst for finnish. It should thus be a change in the conf.pl file.
Comment 1 Sjur Nørstebø Moshagen 2011-09-28 17:17:01 CEST
What is the status for this one?
Comment 3 Trond Trosterud 2011-09-28 18:05:57 CEST
Sorry for the short answer. The status is as before.
Comment 4 Ciprian Gerstenberger 2011-09-29 08:34:41 CEST
Yes, in the last and for the next time I have quite other priorities as Finnish.

(In reply to comment #3)
> Sorry for the short answer. The status is as before.
Comment 5 Ciprian Gerstenberger 2011-09-29 08:36:20 CEST
... other than... sorry, the German came through...
(In reply to comment #4)
> Yes, in the last and for the next time I have quite other priorities as
> Finnish.
> 
> (In reply to comment #3)
> > Sorry for the short answer. The status is as before.
Comment 6 Sjur Nørstebø Moshagen 2011-09-29 08:50:49 CEST
(In reply to comment #4)
> Yes, in the last and for the next time I have quite other priorities as
> Finnish.

I know and understand. This is only a gentle reminder that according to our Bugzilla guidelines we discussed earlier, a bug should either be assigned (ie change status) or be forwarded to someone else within 1-2 working days. This bug has been NEW for seven months.
Comment 7 Ciprian Gerstenberger 2011-09-29 09:03:06 CEST
The nice thing with a new unassigned bug is that you have new tasks all that time.
Comment 8 Trond Trosterud 2012-08-24 12:51:08 CEST
Now, Tommi has moved fin to newinfra. This means that we should be able to compile it with xerox tools as well, right? So, this bug is finally solvable also without understanding the conf.pl file :-)
Comment 9 Trond Trosterud 2012-09-01 10:21:48 CEST
I have outcommented the if fin then $hfstanalyse in conf.pl. What now is lacking is a parameter using the old, commercial fst on victorio. This is a newinfra thing, and I move the bug to Sjur.
Comment 10 Trond Trosterud 2012-09-02 06:51:59 CEST
One more hurdle down:


echo ei |  /opt/sami/xerox/c-fsm/ix86-linux2.6-gcc3.4/bin/lookup -flags mbTT -utf8 /opt/smi/fin/bin/fin.fst 

ei	ei+Verb+Neg+Act+Sg3

The fst side should thus now be ok. Still, there is no output from the net.
Comment 11 Trond Trosterud 2012-09-07 20:19:30 CEST
Så nær, så fjern...
Comment 12 Trond Trosterud 2012-09-12 08:38:10 CEST
Dette er ikkje ein finsk bug meir, men ein nyinfrabug.

Problemet er at nyinfra ikkje kompilerer med gamle, kommersielle, kompilatorar. Dermed kan ingen nye fst-ar brukast online. Ikkje finsk, ikkje sørsamisk, ikkje lulesamisk.

To måtar å fikse:

a. endre oppsett til å krevje ny lookup i /opt
b. kompilere med gammal fst i newinfra på victorio.

Det beste ser ut til å vere (a).
Comment 13 Sjur Nørstebø Moshagen 2012-09-12 08:45:22 CEST
(In reply to comment #12)
> To måtar å fikse:
> 
> a. endre oppsett til å krevje ny lookup i /opt
> b. kompilere med gammal fst i newinfra på victorio.
> 
> Det beste ser ut til å vere (a).

Eg er samd. Kven er det som har andsvaret for /opt på victorio?
Comment 14 Trond Trosterud 2012-09-12 08:50:28 CEST
I praksis er det eg som oppdaterer /opt og analysatorane våre. Men eg har vore bunde av kravet om bruk av kommersiell analysator.

Vi bør vere to om dette, tunga må vere rett i munnen.

----

Eg ser no på conf.pl, som viser til kommersiell fst:
        my $utilitydir = "/opt/sami/xerox/c-fsm/ix86-linux2.6-gcc3.4/bin";

xerox$/usr/local/bin/lookup -v   <=================== denne funkar med nyinfra
lookup 2.5.7 (2.11.1)  
xerox$/opt/xerox/bin/lookup -v  <============ denne funkar ikkje
lookup 2.3.6 (8.4.3)  
xerox$/opt/xerox/c-fsm/ix86-linux2.6-gcc3.4/bin/lookup -v <====== denne funkar ikkje
lookup 2.3.6 (8.4.4)

Vi må med andre ord kompilere __alle__ fst-ane på victorio med kompilatorane i /usr/local/bin.
Comment 15 Trond Trosterud 2012-09-16 16:48:05 CEST
Vi vil altså helst ha berre ein kompilator for alle fst-ane. Men så er det dei eldre oahpa-versjonane, som vi ikkje vil röre.

Kan Ryan eller Heli også sjå på dette: Målet er altså å endre kompilator for alle fst-ar i opt/smi frå den gamle, kommersielle, til /usr/local/bin (den nye). Dels vil vi ha same kompilator overalt, dels er ikkje newinfra sett opp med den kommersielle.

Men vi vil vere sikker på at gamle oahpa ikkje stoppar. 

Eit alternativ: ha to oppsett i conf.pl: eitt for oahpa-fst, og eitt for andre

Så kan det hende at problemet allereie er löyst for gtoahpa, i og med at vi der allereie bruker ny kompilator. Det er derfor eg gjerne vil ha Ryan og Heli med i diskusjonen.
Comment 16 Ryan Johnson 2012-09-16 18:56:11 CEST
I Oahpa ser det ut som det er ein skilnad: i Morfa og Numra er formene generert av den nye FST, men eg trur at det er den komersielle som er i bruk i Sahka i lookupserveren, eller eg hugsar at det var problem som dukka opp som me ikkje skjønna og vart løyst av den komersielle. Heli, var det det som skjedde?

Eg ser ingen problem med å nytta den nye i alt på Oahpa (om det ikkje er sånn no), og endra i lookupserveren slik at den funkar med den nye.
Comment 17 Trond Trosterud 2012-09-16 22:30:06 CEST
(In reply to comment #16)

> Eg ser ingen problem med å nytta den nye i alt på Oahpa (om det ikkje er sånn
> no), og endra i lookupserveren slik at den funkar med den nye.

Det vi evt. må passe på er at viss vi skal skifte kompilator på gamle oahpa.uit.no må vi sørge for å kompilere kjeldekode som er like gamal som dagens gamle fst.
Comment 18 Heli Uibo 2012-09-17 11:22:36 CEST
(In reply to comment #16)
> I Oahpa ser det ut som det er ein skilnad: i Morfa og Numra er formene generert
> av den nye FST, men eg trur at det er den komersielle som er i bruk i Sahka i
> lookupserveren, eller eg hugsar at det var problem som dukka opp som me ikkje
> skjønna og vart løyst av den komersielle. Heli, var det det som skjedde?

Ja, i Vasta och Sahka är den kommersiella lookup ("/opt/sami/xerox/c-fsm/ix86-linux2.6-gcc3.4/bin/lookup") i bruk. Problemet som Ryan pekar på är dokumenterat i bug 1301. Vad hände då var att jag hade ändrat FST directory i koden til /usr/local/bin/ (där ligger open-source FST tools) och då gick det inte att göra lookup eftersom ped-sme.fst var kompilerad med kommersiella FST tools. 

Men vi har aldrig provat att inkludera en ped-sme.fst i Vasta/Sahka som er kompilerat med open-source FST tools. Vi måste testa det.
Comment 19 Trond Trosterud 2012-09-20 10:56:16 CEST
*** Bug 1281 has been marked as a duplicate of this bug. ***
Comment 20 Sjur Nørstebø Moshagen 2012-09-21 11:20:47 CEST
No heng denne buggen på å sjå om det er mogleg å flytta heile Oahpa over til ikkje-kommers fst på victorio. Dette er ein Oahpa-ting, så eg flyttar buggen over til Heli til den delen er løyst/avklara.

Elles skal de vera merksame på at ikkje-kommers fst frå Xerox har ei grense på 1000 liner tekst. Alt som går over denne grensa blir kutta. Det kan vera eit problem i Oahpa-samanheng.

Det er altså ikkje sikkert at vi kan flytta vekk frå den kommerse fst-en.
Comment 21 Trond Trosterud 2012-09-21 12:20:10 CEST
Vi diskuterte dette på oahpa-möte i dag.

Det viser seg av Sahka og Vasta allereie er på gtoahpa, der dei har setting:

LOOKUP_TOOL = '/usr/bin/lookup'
FST_DIRECTORY = '/opt/smi/sme/bin'

og altså går med nye automatar. Det finst ein del Oahpa-versjonar på victorio (eve, yrk, kom...), desse er ikkje i bruk og dermed ikkje kritiske. Dessutan finst den förste oahpa-versjonen, den skal no bli stengt ( i neste veke), og for den er Sahka og Vasta allereie flytta.

Det som står att der er Numra.

Eg har no migrert yrkoahpa, slik:
1. kompilert numerals.xfst i newinfra.
2. kopiert den til /opt7smi/yrk/bin/yrk-num.st
3. i branches/pedversions/yrkoahpa/yrkdrill/games.py, endra 
   referanse til ny lookup og sjekka inn
4. sjekka ut i /home/yrk_oahpa/yrkoahpa på victorio
5. restarta servaren
6. og voilá, ny ikkje-kommersiell oahpa.

Så står berre dei andre att...
Comment 22 Trond Trosterud 2012-09-29 08:05:29 CEST
Her har mykje skjedd. Eg har rekompilert __alle__ fst-ane, og lagt dei i /opt/smi/sami/newinfra_smi.
Eg har testa, og dei fungerer, med __eitt__ unntak:

Disambiguering med ny vislcg3 fungerer ikkje. Grunnen til det er at vi har gammal ICU på victorio. Kopi av diskusjon med Tino og Francis:

El dj 27 de 09 de 2012 a les 13:36 +0200, en/na Tino Didriksen va escriure:
Unhammer and Francis hit that problem, and fixed it from what I
saw...adding them as CC.
It boiled down to updating ICU?

Francis Tyers kirjoitti 27. sep. 2012 kello 13:44:
Yes, we fixed it by installing a new version of ICU
(icu4c-49_1_2-src.tgz) and recompiling. If you can find this version in
the official package repositories it would be easier. -- There are some
flags you need to compile it otherwise.
Fran

Så neste steg er å oppdatere icu.
Comment 23 Sjur Nørstebø Moshagen 2012-10-01 09:32:07 CEST
(In reply to comment #22)
> Francis Tyers kirjoitti 27. sep. 2012 kello 13:44:
> Yes, we fixed it by installing a new version of ICU
> (icu4c-49_1_2-src.tgz) and recompiling. If you can find this version in
> the official package repositories it would be easier. -- There are some
> flags you need to compile it otherwise.
> Fran
> 
> Så neste steg er å oppdatere icu.

Eg forstår kommentaren til Francis som at han allereie har installert ny ICU. I så fall er vel dette steget løyst alt?
Comment 24 Trond Trosterud 2012-10-01 15:12:25 CEST
Nei, det har han ikkje, og det er det ikkje. Han installerte på __sine system__, og ikkje på vic.
Comment 25 Trond Trosterud 2012-10-14 20:02:21 CEST
Børre installerte ny ICU på vic, og eg fekk friske augo til debugging av conf.pl frå Ryan. No er finsk online, i lag med alle andre språk, med nye xerox-kompilatorar.