Bug 1517

Summary: Orddeling fungerer ikke på web-tjenesten
Product: Infrastructure Reporter: Lene Antonsen <lene.antonsen>
Component: REST/CGI (Interactive web)Assignee: Chiara Argese <chiara.argese>
Status: ASSIGNED ---    
Severity: minor CC: borre.gaup, ciprian.gerstenberger, lene.antonsen, sjur.n.moshagen, trond.trosterud
Priority: P5 - Later    
Version: unspecified   
Hardware: Macintosh   
OS: Other   

Description Lene Antonsen 2012-11-17 19:56:21 CET
Orddeling fungerer ikke på web-tjenesten, hverken sme, sma eller smj

f.eks. her: http://giellatekno.uit.no/cgi/d-sme.sme.html
Comment 1 Børre Gaup 2012-11-17 20:12:31 CET
Hva slags resultat venter du? Hva slags resultat får du?
Comment 2 Lene Antonsen 2012-11-17 20:18:03 CET
Jeg får ingen output

Jeg forventer f.eks.
ceal^ka^gis
Comment 3 Lene Antonsen 2012-11-17 20:21:41 CET
Jeg testa i teminalen. Hvis det er hyph-sme.save som skal brukes:


sme$ lookup bin/hyph-sme.save 
0%>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>100%

  *****  LEXICON LOOK-UP  *****

cealkagis
cealkagis	cealkagis	+?

Kanskje det er en makefile feil?
Comment 4 Ciprian Gerstenberger 2012-12-03 09:37:42 CET
Ja, jeg har nettopp tested på victorio og fikk samme resultater.

FSTen for hyphenate funker ikke. Kvem har endret/oppdatert sist FSTene på victorio?
Jeg har nevnt ofter før at vi bør ha ein kontrolle på det slikt jeg hadde foreslått for
victorio ADMIN/ xserve ADMIN installasjoner.

Jeg skal kompilere en ny FST og teste det på victorio lokalt. 

(In reply to comment #3)
> Jeg testa i teminalen. Hvis det er hyph-sme.save som skal brukes:
> 
> 
> sme$ lookup bin/hyph-sme.save 
> 0%>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>100%
> 
>   *****  LEXICON LOOK-UP  *****
> 
> cealkagis
> cealkagis    cealkagis    +?
> 
> Kanskje det er en makefile feil?
Comment 5 Ciprian Gerstenberger 2012-12-03 11:48:04 CET
Nå har jeg kompilert alle FSTene lokalt på victorio på nytt
men resultaten er det samme.

sme>lookup bin/hyph-sme.save

  *****  LEXICON LOOK-UP  *****

0%>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>100%
Vectorization ....
transducer 0:	571 out of 347706 states vectorized (0.16 %)
cealkagis
cealkagis	cealkagis	+?

Hva nu?
Comment 6 Ciprian Gerstenberger 2012-12-04 14:09:28 CET
Passed the bug to Trond, the FST is the cause of this bug, not the infrastructure.
Comment 7 Trond Trosterud 2014-03-18 11:02:27 CET
Det er to orddelingsprogram: regelbasert og leksikonbasert. Den siste er den beste, men fungerer ikkje i nyinfra enn. Den første ("Trond sin") er no sett opp att på nettsidene, og fungerer. 

I dei fleste tilfella gjev dei same resultat, men ikkje alltid.

Vi prioriterer ned.
Comment 8 Trond Trosterud 2014-04-21 18:18:02 CEST
Eg sett Sjur på denne, i og med at "min" orddelar no fungerer, mens "sjur sin" (som er betre enn min) ikkje gjer det.
Comment 9 Sjur Nørstebø Moshagen 2017-03-02 09:34:38 CET
Eg har no - endeleg - fått på plass leksikonbasert orddeling i ny infra. Resultatet er:

$ echo cealkagis | hfst-lookup -q tools/hyphenators/fstbased/hyphenator-gt-desc.hfstol 
cealkagis	ceal^ka^gis	0,000000
cealkagis	ceal^kagis	60,000000
cealkagis	ceal^ka^gis	500,000000

(returner alltid berre det beste / fyrste orddelingsforslaget til brukaren.)

Der ser de òg kor orddelings-fst-en ligg.

For å byggja orddelings-fst-ar skal de konfigurera slik:

./configure --with-hfst --without-xfst --enable-fst-hyphenator

Med dette sender eg lusmeldinga over til Ciprian - eg reknar med det er han som har andsvaret for den siste delen med å få fst-en på plass på nettsidene.

NB! Dei nye orddelings-fst-ane er ikkje systematisk testa! Dei skal vera like gode som reglane + leksikon, men ingen har jobba med orddeling på lenge, så eg kan ikkje garantera resultatet.

Eg vil etter kvart leggja til testar i make check for orddeling, slik at vi i det minste kan sjå at den nye orddelinga ikkje er verre enn den gamle, men inntil vidare er det berre manuell testing på kommandolina som gjeld.
Comment 10 Ciprian Gerstenberger 2017-03-02 20:04:07 CET
> 
> NB! Dei nye orddelings-fst-ane er ikkje systematisk testa! Dei skal vera
> like gode som reglane + leksikon, men ingen har jobba med orddeling på
> lenge, så eg kan ikkje garantera resultatet.
> 
Betyr det at vi IKKE skal legge det på nettet? Jeg tror vi bør teste det før
vi bytte det gamle. Jeg kan prøve å lage en automatisk test og i tilfellen sende
resultatene til Trond og Lene.
Comment 11 Trond Trosterud 2017-03-02 22:59:15 CET
Vi har altså to hyph: "Min" (reint fonologisk) og "Sjur sin" (også morfologisk og leksikalsk). Sjur sin er betre - viss den fungerer. Eit testoppsett, som Cip nemnar, er absolutt fint, og vi må gjerne teste før vi skiftar, men så vidt eg veit er den vi har på nett ikkje i ivrigi bruk, så om Sjur sin kjem på nett (for å bli testa) trur eg ikkje det gjer så mykje.
Comment 12 Sjur Nørstebø Moshagen 2017-03-03 11:07:51 CET
(In reply to Trond Trosterud from comment #11)
> Vi har altså to hyph: "Min" (reint fonologisk) og "Sjur sin" (også
> morfologisk og leksikalsk). Sjur sin er betre - viss den fungerer.

Det er ikkje eit spørsmål om den fungerer - det gjer den. Spørsmålet er berre kor bra den er, dvs eg har ikkje testa han systematisk - men han burde vera betre enn Trond sin, i og med at det er både leksikon og reglar i lag.

> Eit
> testoppsett, som Cip nemnar, er absolutt fint, og vi må gjerne teste før vi
> skiftar, men så vidt eg veit er den vi har på nett ikkje i ivrigi bruk, så
> om Sjur sin kjem på nett (for å bli testa) trur eg ikkje det gjer så mykje.

Høyrest bra ut, eg stemmer for å leggja han ut på nett slik at det blir lettare å testa det eg har laga.
Comment 13 Trond Trosterud 2017-03-12 22:53:48 CET
(In reply to Sjur Nørstebø Moshagen from comment #12) 
> Høyrest bra ut, eg stemmer for å leggja han ut på nett slik at det blir
> lettare å testa det eg har laga.

Heilt i orden for meg, berre skift, du.
Comment 14 Sjur Nørstebø Moshagen 2019-05-27 14:16:11 CEST
Flytta over til Chiara, veit ikkje om det er ho som har andsvaret for cgi-tenestene no etter at Ciprian har slutta, men det er i alle fall ikkje Ciprian. Flytt vidare ved behov.

Eg planlegg å laga ei REST-basert teneste for orddeling, som etter kvart vil koma i staden for cgi-bin. REST-delen gjer Gøteborg, resten gjer vi (Børre, Chiara?).
Comment 15 Trond Trosterud 2019-05-29 14:38:35 CEST
(In reply to Sjur Nørstebø Moshagen from comment #14)
> Flytta over til Chiara, veit ikkje om det er ho som har andsvaret for
> cgi-tenestene 

Eg vart litt lurt av bugtittelen. Situasjonen er altså slik at den regex-baserte orddelinga (referert til som "Trond sin modell") ovafor er den som er online.
Begge modellane fungerer, jf. køyring på gtweb:

bin>echo sánis|lookup -q hyph-sme.fst # FST-basert ("Sjur")
sánis	sá^ni

bin>echo sánis|lookup -q hyphenation.xfst # regelbasert ("Trond")
sánis	sá^ni>s

Det vi har online er den regelbaserte er desse to linjene i gt/script/cgi-script/conf.pl (fila som brukast er /var/www/cgi-bin/smi/conf.pl)

#    $hyphenate = "$preprocess | $utilitydir/lookup $fstflags $hyph_fst | $commondir/hyph-filter.pl"; # this out                                                                                       
    $hyphenate = "$preprocess | $utilitydir/lookup $fstflags $hyphrules_fst ";  # this in, until hyph-filter works

Viss vi kommenterer ut $hyphrules_fst og inn $hyph_fst får vi ikkje noko output, trass i at vi får output på kommandolinja.

Mogleg problem: Kanskje cgi-bin og nettsida ikkje liker symbolet ">" som hyph-sme.fst bruker som suffiksgrense?