Orddeling fungerer ikke på web-tjenesten, hverken sme, sma eller smj f.eks. her: http://giellatekno.uit.no/cgi/d-sme.sme.html
Hva slags resultat venter du? Hva slags resultat får du?
Jeg får ingen output Jeg forventer f.eks. ceal^ka^gis
Jeg testa i teminalen. Hvis det er hyph-sme.save som skal brukes: sme$ lookup bin/hyph-sme.save 0%>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>100% ***** LEXICON LOOK-UP ***** cealkagis cealkagis cealkagis +? Kanskje det er en makefile feil?
Ja, jeg har nettopp tested på victorio og fikk samme resultater. FSTen for hyphenate funker ikke. Kvem har endret/oppdatert sist FSTene på victorio? Jeg har nevnt ofter før at vi bør ha ein kontrolle på det slikt jeg hadde foreslått for victorio ADMIN/ xserve ADMIN installasjoner. Jeg skal kompilere en ny FST og teste det på victorio lokalt. (In reply to comment #3) > Jeg testa i teminalen. Hvis det er hyph-sme.save som skal brukes: > > > sme$ lookup bin/hyph-sme.save > 0%>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>100% > > ***** LEXICON LOOK-UP ***** > > cealkagis > cealkagis cealkagis +? > > Kanskje det er en makefile feil?
Nå har jeg kompilert alle FSTene lokalt på victorio på nytt men resultaten er det samme. sme>lookup bin/hyph-sme.save ***** LEXICON LOOK-UP ***** 0%>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>100% Vectorization .... transducer 0: 571 out of 347706 states vectorized (0.16 %) cealkagis cealkagis cealkagis +? Hva nu?
Passed the bug to Trond, the FST is the cause of this bug, not the infrastructure.
Det er to orddelingsprogram: regelbasert og leksikonbasert. Den siste er den beste, men fungerer ikkje i nyinfra enn. Den første ("Trond sin") er no sett opp att på nettsidene, og fungerer. I dei fleste tilfella gjev dei same resultat, men ikkje alltid. Vi prioriterer ned.
Eg sett Sjur på denne, i og med at "min" orddelar no fungerer, mens "sjur sin" (som er betre enn min) ikkje gjer det.
Eg har no - endeleg - fått på plass leksikonbasert orddeling i ny infra. Resultatet er: $ echo cealkagis | hfst-lookup -q tools/hyphenators/fstbased/hyphenator-gt-desc.hfstol cealkagis ceal^ka^gis 0,000000 cealkagis ceal^kagis 60,000000 cealkagis ceal^ka^gis 500,000000 (returner alltid berre det beste / fyrste orddelingsforslaget til brukaren.) Der ser de òg kor orddelings-fst-en ligg. For å byggja orddelings-fst-ar skal de konfigurera slik: ./configure --with-hfst --without-xfst --enable-fst-hyphenator Med dette sender eg lusmeldinga over til Ciprian - eg reknar med det er han som har andsvaret for den siste delen med å få fst-en på plass på nettsidene. NB! Dei nye orddelings-fst-ane er ikkje systematisk testa! Dei skal vera like gode som reglane + leksikon, men ingen har jobba med orddeling på lenge, så eg kan ikkje garantera resultatet. Eg vil etter kvart leggja til testar i make check for orddeling, slik at vi i det minste kan sjå at den nye orddelinga ikkje er verre enn den gamle, men inntil vidare er det berre manuell testing på kommandolina som gjeld.
> > NB! Dei nye orddelings-fst-ane er ikkje systematisk testa! Dei skal vera > like gode som reglane + leksikon, men ingen har jobba med orddeling på > lenge, så eg kan ikkje garantera resultatet. > Betyr det at vi IKKE skal legge det på nettet? Jeg tror vi bør teste det før vi bytte det gamle. Jeg kan prøve å lage en automatisk test og i tilfellen sende resultatene til Trond og Lene.
Vi har altså to hyph: "Min" (reint fonologisk) og "Sjur sin" (også morfologisk og leksikalsk). Sjur sin er betre - viss den fungerer. Eit testoppsett, som Cip nemnar, er absolutt fint, og vi må gjerne teste før vi skiftar, men så vidt eg veit er den vi har på nett ikkje i ivrigi bruk, så om Sjur sin kjem på nett (for å bli testa) trur eg ikkje det gjer så mykje.
(In reply to Trond Trosterud from comment #11) > Vi har altså to hyph: "Min" (reint fonologisk) og "Sjur sin" (også > morfologisk og leksikalsk). Sjur sin er betre - viss den fungerer. Det er ikkje eit spørsmål om den fungerer - det gjer den. Spørsmålet er berre kor bra den er, dvs eg har ikkje testa han systematisk - men han burde vera betre enn Trond sin, i og med at det er både leksikon og reglar i lag. > Eit > testoppsett, som Cip nemnar, er absolutt fint, og vi må gjerne teste før vi > skiftar, men så vidt eg veit er den vi har på nett ikkje i ivrigi bruk, så > om Sjur sin kjem på nett (for å bli testa) trur eg ikkje det gjer så mykje. Høyrest bra ut, eg stemmer for å leggja han ut på nett slik at det blir lettare å testa det eg har laga.
(In reply to Sjur Nørstebø Moshagen from comment #12) > Høyrest bra ut, eg stemmer for å leggja han ut på nett slik at det blir > lettare å testa det eg har laga. Heilt i orden for meg, berre skift, du.
Flytta over til Chiara, veit ikkje om det er ho som har andsvaret for cgi-tenestene no etter at Ciprian har slutta, men det er i alle fall ikkje Ciprian. Flytt vidare ved behov. Eg planlegg å laga ei REST-basert teneste for orddeling, som etter kvart vil koma i staden for cgi-bin. REST-delen gjer Gøteborg, resten gjer vi (Børre, Chiara?).
(In reply to Sjur Nørstebø Moshagen from comment #14) > Flytta over til Chiara, veit ikkje om det er ho som har andsvaret for > cgi-tenestene Eg vart litt lurt av bugtittelen. Situasjonen er altså slik at den regex-baserte orddelinga (referert til som "Trond sin modell") ovafor er den som er online. Begge modellane fungerer, jf. køyring på gtweb: bin>echo sánis|lookup -q hyph-sme.fst # FST-basert ("Sjur") sánis sá^ni bin>echo sánis|lookup -q hyphenation.xfst # regelbasert ("Trond") sánis sá^ni>s Det vi har online er den regelbaserte er desse to linjene i gt/script/cgi-script/conf.pl (fila som brukast er /var/www/cgi-bin/smi/conf.pl) # $hyphenate = "$preprocess | $utilitydir/lookup $fstflags $hyph_fst | $commondir/hyph-filter.pl"; # this out $hyphenate = "$preprocess | $utilitydir/lookup $fstflags $hyphrules_fst "; # this in, until hyph-filter works Viss vi kommenterer ut $hyphrules_fst og inn $hyph_fst får vi ikkje noko output, trass i at vi får output på kommandolinja. Mogleg problem: Kanskje cgi-bin og nettsida ikkje liker symbolet ">" som hyph-sme.fst bruker som suffiksgrense?