UIT The arctic university of Norway > Giellatekno
 

141008

Prosjektmøte sme2smn 8.10, 10.10.

Til stades: Fran, Lene, Marja-Liisa, Trond.

Saksliste

  • Administrativt
  • Arbeid framover

Administrativt

  • Trond skrive rapport (gjort)
  • Lyse ut på nytt --> viss smn så datalingvist i neste omgang
    • Trond snakkar med Jorun

Arbeid framover

Teknisk oppsett

  • Få maskineriet til å fungere
  • Integrere Giellatekno + Apertium
$ echo "sámit" | apertium -d . sme-smn-debug
säämih


$ echo "Sámiin álgoálbmogin lea vuoigatvuohta" | apertium -d . sme-smn-debug
Saamijn #algâaalmug<n><ess> lii vuoigâdvuotâ.

Correct: Sämmilijn algâalmugin lii vuoigâdvuotâ.

TILTAK: Francis skal skrive dokumentasjon for teknisk installering.

/doc/mt/smesmn/NorthSaamiInariSaamiMachineTranslation.html

Analysator

Nordsamisk analyse i orden

Bidix

sme-smn

  • sme-smn generelt i words/dicts/smesmn/src
  • sme-smn bidix i apertium/nursery/apertium-sme-smn

TILTAK:

  • Trond skal sjekke inn i apertium og i words/dicts

Neste steg:

  • Introduksjon: gå gjennom sme2sma-presentasjonen
  • Nordsamisk frekvensordbok: Omsetje til enaresamisk

Tag-harmonisering

Sjå til at språka har like taggar / at vi gjer greie for ulikheiter

Generator

Generere smn

Transfer

Grammatiske skilnader:

  • Morfologi: Skilnader sme-smn
  • Syntaks: Korpus over malsetningar med skilnader mellom sme og smn

Metoden: Omsetje til enaresamisk, sjå på resultatet.

Vi starar med andre ord ut utan ein transfer-komponent.

Maskinomsetjing smn2sme?

Vi manglar disambiguering for smn, og må vente med det.

Andre ting

Etiske problem: Vil dette programmet endre enaresamisk?

Det må vere ein sosial kontroll for å hindre folk i å publisere dårleg enaresamisk på nett. i

Plan

Fordele arbeidsoppgåver på personar

  • Miina (MA1): fst, bidix
  • Marja-Liisa (postdoc): fst, bidix, grammatiske skilnader
    • . Følgje opp Miina
  • Ilmari: Korpus, evaluere output
  • Mervi:
  • Francis: Teknisk oppsett, alt MT
  • Lene: fst,
  • Trond: fst.
    • Følgje opp Miina
  • Ciprian: Pan-samisk ordnett, relevant for bidix
  • Jussi: Grammatiske skilnader
  • Phd: datalingvistikk
  • MA2: Fennougristar?

Meir pengar -- kva skal vi prioritere?

  • Generator: smn fst må bli god
  • Bidix: Auke frå 3000 -> 30000
  • Morfologiske skilnader
  • Transfer: Kjem etterpå
  • Skilnader: Marginale skilnader er ikkje så interessante, vi har nok med dei vanlege

Publikasjonar

Litt tidleg