Bug 2152

Summary: SME/Voikko-testing gjev feilmelding på čáđa når voikkodata blir lese
Product: Testing Reporter: Sjur Nørstebø Moshagen <sjur.n.moshagen>
Component: Speller testingAssignee: Børre Gaup <borre.gaup>
Status: ASSIGNED ---    
Severity: major CC: sjur.n.moshagen
Priority: P2 - As soon as possible    
Version: unspecified   
Hardware: All   
OS: All   
Deadline: 2016-01-25   

Description Sjur Nørstebø Moshagen 2016-01-21 08:45:44 CET
For å gjenta:

1) cd $GTBIG/prooftesting/sme/voikko
2) svn up ..
3) make

Då får eg meldinga:

$ make
/Users/smo036/langtech/main/gtcore/scripts/speller-testres.pl \
		--engine=vk \
		--lang=sme \
		--input=../all-gs-sme.txt \
		--output=goldstandard.spout.txt \
		--document=all-gs-sme.txt \
		--date=20160120-1503 \
		--version="se-4.0-20151217" \
		--toolversion="`cat sp-version.txt`" \
		--corpusversion="`cat ../corpusrevisions.txt`" \
		--memoryuse="`cat spellermemusage.txt`" \
		--timeuse="`cat spellertimeusage.txt`" \
		--corrsugg \
		--xml=corpus-gs-results.xml
Reading typos from ../all-gs-sme.txt
/Users/smo036/langtech/main/gtcore/scripts/speller-testres.pl: Reading Voikko output from goldstandard.spout.txt
Use of uninitialized value in string eq at /Users/smo036/langtech/main/gtcore/scripts/speller-testres.pl line 606, <FH> line 131026.
Use of uninitialized value in concatenation (.) or string at /Users/smo036/langtech/main/gtcore/scripts/speller-testres.pl line 607, <FH> line 131026.

These suggestions do not seem to belong here
Current orig: čáđa:
Index: 99323
Original word at this index: 
Suggestions: čađa cára cába c-áđa čađat

Data som krevst for å få fram feilen blir sjekka inn snart.
Comment 1 Sjur Nørstebø Moshagen 2016-01-21 08:51:00 CET
Gjentakingsdata sjekka inn i r3413 ($GTBIG).
Comment 2 Børre Gaup 2016-01-23 18:15:54 CET
Linje 7809-47 i filene ../all-gs-sme.txt og goldstandard.spin.txt begynner med #. Disse filene er på 99331 linjer.

Disse linjene ble sendt inn i spelleren og lager output.

Når man leser inn ../all-gs-sme.txt inn i arrayet originals i funksjonen read_typos, blir disse linjene fjernet. Lengden på originals blir da 99331 - antallet linjer som starter på #. Deretter blir resultatet fra 99331 input-linjer lest inn i funksjonen read_voikko, og lengden på orig har da blitt 99331. Input og output har da kommet ut av sync.

Dette er forhåpentligvis fikset i langtech r128603, der fjerningen av disse linjene blir flyttet fra read_typos i speller-testres.pl til spell-preprocess.pl. Da jeg kjørte hfst-mso-testen, var input/output i xml-filen synkront.
Comment 3 Børre Gaup 2016-05-30 15:56:24 CEST
Ble denne fikset, eller?
Comment 4 Børre Gaup 2018-05-04 20:26:26 CEST
ping
Comment 5 Sjur Nørstebø Moshagen 2018-05-07 09:39:32 CEST
Med dei instruksjonane for reproduksjon som er ført opp her, så er eg ikkje i stand til å reprodusera, så for meg ser det bra ut. Du kan lata att.