UIT The arctic university of Norway > Giellatekno
 

course Februar2016

MT-beaivvit guovvamánu 8-11. b

Sandra, Maja, Trond, Lene, Ciprian
Marja-Liisa fra onsdag

Mandag

Bidix:

  • bidix-sanity (test som tester generering av alle sma/smj/smn ord i bidix):
    sh bidix-sanity.sh > sanityoutput (når man står i dev). Les mer om tolking av output
    • dette gir grunnlag for å rette lemma i bidix og å legge til ord i FST
    • vanligvis er mesteparten av linjene i sanityoutput propernouns. Start med de viktigste slik:
      grep -v "<np>" sanityoutput |less
    • Francis skal lage bidix-sanity som tester generering sme i bidix
  • missinglister
    • fra tekstene i texts/ - lag sjøl med denne kommandoen
    • fra relevante tekster i hele korpuset (Trond lager)
      • prioriter substantiv-lister uten sammensetning, og verb- og adjektiv-lister uten derivasjon
      • kommando for å fornye missinglista (ordene som får analyse kan fjernes), eksempel fra smj:
        cat dev/sikor.sme.V.freq.noder.missing |hfst-proc sme-smj.automorf.hfst |less

Missinglist-barggus lea vejolaš geavahit min sátnegirjjiid (ovdamearka sma-katalogas):

  • jorgalit buot missing-sániid darogillii:
    cat dev/missing_v_noder |smenob |see
  • Jos vastádus lea
    Lexicon file '...bin/smenob-all.fst' could not be found or opened
    de don fertet dan kompileret
    cd $GTHOME/words/dicts
    see make-bildict
    (... ja bija SLANG ja TLANG , linjjus 27, 28 dego háliidat, sme + nob lea default)
    make -f make-bildict
    ... ja de dus lea sátnegirji

Vær OBS på tagger i bidix:

  • ordklasse
  • NomAg, G3, G7
  • Sg vs Pl (andre vegen er ikke nødvendig å merke)
  • fra ett ord til multiword expressions:
    • mellomrom merkes med <b/>
    • MWE må legges til i FST, gjerne merkes med Use/MT

Parallelltekster:

  • hva og hvordan bruke dem (når du er i apertium-sme-smX)
    • python check_mt-otpt.py -d tmx_data/
    • cat otpt_dir/* > allefiler.html
    • open allefiler.html (åpnes i Safari)

Lex-sel

Tirsdag

Praktisk arbeid med mandagens temaer

Derivasjoner fra kildespråk til målspråk, diskusjon om harmonisering, se nederst på denne siden

Onsdag

Stille diagnose, med eksempler fra Majas og MLs lister

Testing (regression og pending)

Viktig å legge inn eksempelsetninger for lexical selection og transfer

Transferregler

  • tilpassing av lexc-tagger til MT, og harmonisering av derivasjontagger
  • sammensetninger fra kildespråk til målspråk, harmonisering
  • omorganisering av transferregler (skal gjøres)

sme-disambigueren

  • forbedre konvertering fra divvun/gt til apertium (Sjur)
  • oppdatere regler (Lene)

hva andre enn Maja og Sandra kan gjøre i MT og lexc-koden

  • legge til sme-propernouns
  • transferregler

Torsdag

Forskningsspørsmål for MT-prosjektet

  • hvilke språklige forskjeller finnes?
    • statistikk over forskjellige språkpar
  • hvilke språklige forskjeller er vanskelige å løse?
  • hvor god er lrx-modellen kontra lex-modellen?
  • hvor god er Apertium systemet for språkpar med stor syntaktisk forskjell (sme-sma)?
  • forskjell mellom idiomer og språkbilder mellom de samiske språkene?
  • sme-smn: tekster skrevet på norsk side vs finsk side
  • hvilke samfunnsmessige konsekvenser kan dette ha?
    • er rele-modellen en brukbar modell? (for hvert språkpar, hvorfor?)
    • hvor stor interesse/nytte for intersamiske ordbøker osv.
  • interferens: er nordsamisk interferens verre enn anna interferens?
  • forske på posteditprosessen
    • oversettingsprosessen menneske + maskin vs. menneske
    • sammenlikne arbeidsmåter (f.eks. hele tekster vs setning for setning)

Faglige mål i 2016 (i forhold til NFR-prosjektet)

Mulige domener

  • årsrapporter, sametingsprotokoller (departementer) (som rele)
  • samisk høgskole: sme til andre samiske språk
  • sme-sma: samfunnsfagskolebøker (ungdomsskole) (Mii dáppe dál) - kommer ut på sme og sma på våren. "Multi" (matematikk) til sma (finnes på smj).
  • sme-smj: skal sjekkes ut
  • sme-smn: kommer nye skoleplaner i Finland => nye oversettinger

Valgt domene til sept. 2016:årsrapporter, sametingsprotokoller

Milepæler i forhold systemets brukbarhet

  • mål: systemet er så pass bra sametingsoversettere vil posteditere (redigere)
  • når: 1. september skal være klart for evaluering som rele-språk med WER osv.

Praktisk plan framover

Tekster

  • finne i korpus tekster som vi har (innafor domenet): 1. april
    • 3-språklige: tmx-format (Ciprian)
    • 2-språklige: ( Ciprian)
    • lage fin-smn ankerliste (Trond) 25.2
  • samle inn tekster som vi mangler (innafor domenet), vi trenger folk! (Trond): 10. mars
  • ta kontakt med sametinget for å finne ut av oversettinger (Sandra): 15.2

FST

  • harmonisering av tagger (Der): Der/voete, Der/vuohta, Der/vuota Der/AN Der/AdjN (denne uka)
    Lene: lager liste over flere
    • Cmp (Lene skriver bugzilla)
    • teste med pronomensetninger i texts/ (Maja, Sandra)
    • partikkel vs. adverb (kan være forskjellig PoS i bidix, men man bør vurdere harmonisering i FST) (Maja, Sandra, ML)

Bidix

  • bidix - mål er å halvere missingprosenten fram til neste samling
    • missinglist (fra domenet) (Trond lager og Maja, Sandra, ML oversetter)
    • rydde direkte i bidix (Maja, Sandra, ML)
    • bidix sanity (Maja, Sandra, ML)
    • MWE i smX må legges inn i FST (Maja, Sandra, ML)
    • bidix i hht. til tospråklige tekster (Erika)

LexSel

  • lage regler utfra behov man ser i bidix, legge eksempelsetninger i pending test, (Maja, Sandra, ML)

Transfer

Løse de mest frekvente problemene:

  • reorganisering: merke chunking med syntaktiske tagger, endre klitika, lage et mønster for navning av chunkene, skal dokumenteres på nett (Lene, Trond)
  • sjekke konstruksjonstyper: ( alle samler eksempler og dokumentasjon)
    • objekt- og adverbialplassering
    • NP-intern kongruens
    • numeral-fraser
    • kasusbruk
    • hjelpeverb

Forbedre sme-analyse inn i apertium

  • ordne konvertering av * (Sjur snarest mulig)
  • forbedre CG analyse (Lene snarest mulig)
  • forbedre sme FST i forhold til tekster skrevet i Finland (Thomas)
    • Trond lager missinglister

Møter

Hangout-tid:mandag 10-12, med temaer

Trond eller Lene holder
Første gang: 22. februar

Neste samling:25-29. april

Derivasjoner:Endring av tagger, harmonisering

( Maja, Sandra, Lene, Trond)

Alle sme-taggene:

Dagens tagger som forteller funksjon:

  • Der/A
  • Der/Adv
  • Der/Dimin
  • Der/NomAct
  • Der/NomAg
  • Der/PassL
  • Der/PassS

Forslag om nye tagger som forteller funksjon:

  • kaus: Der/ahtti Der/ahtte Der/dehte => Der/Caus
  • inch: Der/goahti => Der/InchL
  • pass: Der/halla Der/PassD => Der/PassH Der/PassD Der/PassT
  • Der/at Der/at Der/avt => Der/AAdv

Forslag om nye tagger som med suffikser:

  • Der/st Der/stidh => Der/st
  • Der/l Der/lidh => Der/l
  • Der/laš => Der/lasj
  • Der/alla - Der/alle (sma) => Der/alla
  • kaus: Der/h Der/d Der/htidh => Der/h Der/ht Der/d Der/tt
  • Der/d Der/didh => Der/d
  • Der/lágan Der/laakan Der/lagan => Der/laakan
  • Der/lágaš => Der/laagasj
  • Der/las +Der/lis (vearba => adj) => Der/las Der/lis
  • Der/saš Der/sasj Der/sas => Der/sasj
  • Der/vuohta Der/voete Der/vuota => Der/vuota
  • Der/t smj: Der/k => Der/k
  • Der/upmi -- Der/NomActPass , eller er det nok at vi har Der/PassL i strengen før Der/NomAct:
    fuomášit+V+TV+Der/PassL+V+IV+Der/upmi+N+Sg+Nom: fuomášupmi
    => fuomášit+V+TV+Der/PassL+V+IV+Der/NomAct+N+Sg+Nom
    fuomášit+V+TV+Der/NomAct+N+Sg+Nom: fuomášeapmi

Resten av sme-taggene - ikke diskutert, og mange av dem er ikke så viktige for MT

  • Der/meahttun
  • Der/heapmi +Der/ahtes
  • Der/jagaš Der/jagáš => Der/jagasj
  • Der/keahtta <=== marginal ikke-normativ derivasjon for substantiver, samme form som VAbess
  • Der/adda
  • Der/amoš
  • Der/asti
  • Der/at
  • Der/dáfot
  • Der/eamoš
  • Der/easti
  • Der/geahtes
  • Der/has
  • Der/heapmi
  • Der/huhtti
  • Der/huvva
  • Der/muš
  • Der/nuolus
  • Der/náittot
  • Der/seagat
  • Der/stuvva
  • Der/stávval
  • Der/supmi
  • Der/suttat
  • Der/veara
  • Der/viđi
  • Der/viđá
  • Der/ár