UIT The arctic university of Norway > Giellatekno
 

Meeting_2011-04-04

Meeting setup

  • Date: 04.04.2011
  • Time: 10.00 Norw. time
  • Place: Internet
  • Tools: SubEthaEdit, iChat

Agenda

  • infrastruktur (Sjur)
  • korpus (Børre)
  • ordbøker (Trond)
  • forvaltningsordboksprosjektet (Berit)
  • vårprogrammet (Trond)
  • Divvun 2.2 (Tomi)
  • vikar for Maja

Opening, agenda review, participants

  • Opened at 10.
  • Present: Berit Merete, Børre, Lene, Sjur, Tomi, Trond
  • Absent: Biret-Anne, Ciprian, Maja, Thomas
  • Secretary: Trond; Berit Merete

Korpus

Parallellføring

Sist veke: Tall for parallellkorpora

Kategori Nordsamisk Lulesamisk Sørsamisk
Samiske ord i tospråkleg korpus 2 825 160 51 807 50 452
Samiske ord i einspråkleg korpus 18 055 008 622 994 437 507
Prosent av korpuset med norsk parallell 16 % 8 % 12 %

(korrigert for ¶ er storleiken på sme-korpuset 17,6 mill.)

Sett på det grafiske grensesnittet for tca2, forstå korfor vi får feila vi får, og rette på dei.

Lene: tca2 tar ikkje 3: 1-par (jf. Lene sin artikkel)

The program supposes that these kinds of alignments are possible:

  • 1-1: one sentence in the first bitext is aligned with one sentence in the second bitext
  • 1-2: one sentence in the first bitext is aligned with two sentences in the second bitext
  • 2-1: two sentences in the first bitext are aligned with one sentence in the second bitext
  • 1-0: one sentence in the first bitext is not aligned to any sentence in the second bitext
  • 0-1: one sentence in the second bitext is not aligned to any sentence in the second bitext

Det er naturlig å se spesielt på 0-1 og 1-0 setninger ved manuell sjekk, de kan være den manglende 3. setninga (3-1, 1-3)

The program gives scores to the sentence combinations according to these criteria:

  • anchor word list, also with wild cards. Phrases are possible. The current list contains 1096 word pairs (2009).
  • proper nouns (words with uppercase first letter and the same spelling).
  • string similarity, with the Dice coe cient
  • sentence length (the number of characters for each sentence candidate sme/smj, eventually multiplied with a length factor (sentences in language B expected to be e.g. 1.1 times longer than sentences in language A)) -- OBS her er et parameter!

TODO:

  1. Få tca2 til å fungere på alle relevante maskiner (Berit Merete, Børre, Trond, ...)
  2. sjekke om det er eit tak på 2-1/1-2, og diskutere med Øystein Reigem (Børre, Trond)
  3. sjå på preprosesseringa (Ser vi på etterpå)

Konvertering av feilmerking i gullkorpuset.

Rapportering for goldstandard fungerte ikkje. £, ¥ osb. vart ikkje konvertert. Cronjobben er på, men sender ikkje e-post (til Sjur, i det minste) 02: 05 kvar natt skal det gå ein e-post. Den kjem til Børre men ikkje til Sjur (mystisk).

Det konverterte gullstandardkorpuset inneheld framleis dei originale feilmerkingsmerka, og ikkje xml-merking.

Børre ser 43 filer med feil i gullkorpuset.

TODO

  • få konverteringa operativ igjen: 18.4. (Børre)
  • retta opp konvertering av nøsta feilmerking (?)

Konvertering av det allmenne korpuset.

Det er framleis konverteringsfeil, men langt færre systematiske, no er dei meir filspesifikke.

TODO:

  1. Se på filspesifikke missing-lister for å finne feil.

Cronjob-analysene på xserven

Siste køyring er 28.3.

TODO

  • Eget møte om korpora og alle detaljene. Torsdag 7.4 kl 10 (Trond, Berit, Børre, Ciprian)

Infrastruktur

Sjur, Børre, Brandon Molloy har jobbet med å lage et veldig bra normativt verktøy for å teste input og output av lookup og hfst-lookup, mao. man ser om analyse og ordform stemmer overens og får opp feilmeldinger dersom det er noe som ikke stemmer. Dette verktøyet er laget for sørsamisk, lulesamisk og nordsamisk.

Dette verktøyet skal brukes til å teste det du selv spesifiserer at du skal teste. Dette kan bli et nyttig verktøy for oss etterhvert. Her er dokumentasjonen

Kommandoene er:

  • make fsttest GTLANG=sma, test av Xerox-transdusere
  • make hfsttest GTLANG=sma, test av HFST-transdusere

Abbr, acro, der, sms, osb

Testing Xerox FST dictionaries
[PASS] - Test 0: Noun - gåetie (Lexical/Generation)
[FAIL] - Test 1: Noun - gåetie (Surface/Analysis)
[PASS] - Test 2: Noun - gåata (Lexical/Generation)
[FAIL] - Test 3: Noun - gåata (Surface/Analysis)
[PASS] - Test 4: Noun - maana (Lexical/Generation)
[FAIL] - Test 5: Noun - maana (Surface/Analysis)
[PASS] - Test 6: Noun - bearkoe (Lexical/Generation)
[FAIL] - Test 7: Noun - bearkoe (Surface/Analysis)
[FAIL] - Test 8: Noun - nïejte (Lexical/Generation)
[FAIL] - Test 9: Noun - nïejte (Surface/Analysis)
[PASS] - Test 10: Noun - gierehtse (Lexical/Generation)
[FAIL] - Test 11: Noun - gierehtse (Surface/Analysis)
[PASS] - Test 12: Noun - daktere (Lexical/Generation)
[FAIL] - Test 13: Noun - daktere (Surface/Analysis)
[PASS] - Test 14: Adj - noere (Lexical/Generation)
[FAIL] - Test 15: Adj - noere (Surface/Analysis)
[PASS] - Test 16: Verb - båetedh (Lexical/Generation)
[FAIL] - Test 17: Verb - båetedh (Surface/Analysis)
Total fails: 38

Feilmelding til Sjur : -) ===> svn up, og prøv på nytt

gt$HfstTester.py -C -x -i -c sma/testing/sma-tests.yaml
Traceback (most recent call last):
  File "/home/trond/gtsvn/gt/script/HfstTester.py", line 43, in ?
    import os, json, traceback
ImportError: No module named json

Ny versjon:

~/gtsvn/gt$HfstTester.py -C -x -i -c -t 'Noun - gåetie' sma/testing/sma-tests.yaml
Testing Xerox FST dictionaries
[PASS] - Test 0: Noun - gåetie (Lexical/Generation)
[FAIL] - Test 1: Noun - gåetie (Surface/Analysis)
Total fails: 8

TODO

  • En liten feil som skal rettes opp før verktøyet er perfekt (Børre)
  • Legge inn flere testsett (HVOR?). Testsett=blokk med ordform og analysekode. (Lene, Berit Merete, Thomas)
  • Lage både et normativt og et deskriptivt testverktøy (Sjur, Børre)
  • Samle normeringsvedtakene til sørsamisk språkråd i $GTPRIV og sjekke om disse er innlemmet i våre programmer (Trond, Sjur)

Ordbøker

Vi må diskutere tre ting når det gjelder ordbøker:

  • to vs. tre nivå
  • dei finale nodene i <tg>
  • Neste deadline for publisering (Samling for språksentrene i Tjeldsundbrua 4.5, og Sametingets språkkonferanse 11.-12.5 )

TODO

  • Møte denne veka (Berit Merete, Ciprian, Lene, Trond, ...?)

Forvaltningsordboksprosjektet

Trond har levert ein rapport til FAD om prosjektet 31.3 (plan/externalprojects/fad/fadv.tex)

Fordelinga av korrekte former i kvar tidel av konfidensintervallet (0.0 < 0.1 ; 0.1 < 0.2 < …). Dårleg nytt: Formene er jamnt fordelt i forhold til probability-verdien

TODO

  • Sjå på dette på nytt (Berit, Trond, Lene)
  • Analysere heile korpuset (ikkje berre gullkorpuset) (Berit, Trond)
  • Gå attende til ny parallellføring (Ciprian?)

Divvun 2.2

Tomi's bugs are fixed. Now going to compile a new speller.

  • Vi venter på støtte for InDesign, 64-bits Office
  • Vi støttar 32-bits Office for 32-bits Windows.
  • Vi ventar på støtte 32-bits Office for 64-bits Windows.
  • 64-bits Office vil ikkje bli støtta av Polderland.

Divvun 2.2 vil innehalde

  • nye versjonar av alle språk
  • 64-bits Windows og for InDesign.

TODO

  • Compile new speller (Tomi, report on friday this week 8.4)
  • Divvun på Facebook og Twitter (Børre)

Vikar for Maja

Vi diskuterte ulike alternativ.

Divvun-omorganiseringa

Artikkel om Divvun-omorganiseringa i avisa Ságat i forrige uke.

Det ser ut til å bli fart i arbeidet fra FADs side for å få omorganiseringa gjennomført.

NoDaLiDa 2013

Vil vi Tromsø arrangere konferansen i mai 2013? 100-120 deltakere.

samisk-finskugrisk workshop?

Samarbeid med Senter for samiske studier, IS? Få hjelp av studenter og andre frivillige

TODO

  • Trond snakker med Endre
  • Trond gir positivt svar til Janne om at vi er interesserte

Vårprogrammet

  • Milepælar
    • 11-13.4. LexC-kurs i Budapest (Sjur, Børre, hfst-gjengen)
    • 12.4. sma-oahpa deadline (tekniske ting, lokalisering) - Trond og Lene i Røros 12-13.4 (Trond, Lene, Ryan, Ciprian)
    • 14.4. dep-workshop (førebuing) (xserve-korpuset må vere analysert til då) (Børre:analyse, Trond, Lene, Linda:arrangement)
    • 30.4. NordPlus-språk-prosjekt / spellertestbenk (Sjur, Børre, Ciprian, Tomi)
    • 1.5. (omtrent) Divvun-rerelease - lanseres på sametingets språkkonferanse 11.5, ihverfall språklige oppdateringer (Tomi, Sjur, Børre, Thomas)
    • 4.5. samisk språksenterkonferanse på Tjelsundbrua <-- nye ordbøker og operativ smX-oahpa (Aajege deltar)
    • 11.-12.5 Sametingets språkkonferanse i Tromsø - presentasjon av muligheter med språkteknologi, brukerstøttepanel divvun, ordbøker etc (Berit Anne, Børre, Berit Merete, Thomas, Tomi, Ciprian)
    • 11.5. Riga-paper <-- godt sma-korpus og låg sma-missing til det (Lene, Trond, missing:Også Thomas)
  • Arbeid gjennom semesteret
    • Barents
    • forvaltningsordbok (parallellkorpus, sma- og smj-korpus)
    • sme-oahpa NU - en god del ting skal være i boks før neste semester (Ryan, Trond, Berit Anne, Lene, Ciprian)
    • infrastruktur (Sjur, Børre, Tomi, Ciprian(?))
    • Talesyntese (Berit Anne, Sjur, Tomi)