UIT The arctic university of Norway > Giellatekno
 

Meeting_2011-11-24

Møte 24.10 2011.

Sjur, Trond

Saksliste

  • Orienteringssaker
    • sma-oahpa
    • sma-ordbok
    • Internskolering, sma
  • Komi
  • Korpus
  • Tastatur
  • sma-terminologi (Elgå)
  • eXist-kurs
  • stavekontroll

Orienteringssaker

Røros.

sma-oahpa

Røros-lanseringa.

Kjempebra konferanse, 70 deltakarar, dei fleste presentasjonane på sma, heldt tida, mange gode presentasjonar. Sissel presenterte sma-Oahpa, deretter Lene og Trond om dei andre verktya våre: paradigmegenerator, stavekontroll, ordbok (både på nett og avnettes).

sma-ordbok

Mac-versjonen ferdig, men ikkje Stardict-versjonen - det som står att er formattering av visse delara av miniparadigma (som er StarDict-spesifikk).

Internskolering, sma

Hovudsaker:

  • kommandolina: cd, pwd, cat, cut, sort, uniq, rev
  • litt regex
  • bruk av analysator (usma, dsma) for tekstanalyse
  • make GTLANG=sma, smanob$ make -f make-dict ==> bin/smadict.fst

Komi

fst

Prosedyre for leksikonarbeid

  1. We copy the kt/kom/src/working-files to words/dicts/komfin and komeng, evt. komfineng
  2. We strip the translations (perhaps save one word) from the working-files, and get a lexc-encoded-as-xml.
  3. We add words from kvru/ to the stripped files
  4. We remove contlex-information from the komfineng dict files
  5. We keep the lexc.xml and dict.xml in synch in the same way as we do for our Sami dictionaries. The computer prints a daily/weakly/svnversion-ly report on discrepancies between the two.

Ting å vere merksam på:

  • Den lingvistiske analysen attom
  • testbenken

Arbeidet blir dokumentert her

Jaska

  • Prioritet no: analysator: morfologi og leksikon.
  • November: Konen säätiö

EAMT:MT-prosjekt

Uklår situasjon.

Syktyvkar:Språkteknologisk senter

Oppstart november.

Tastaturprosjektet

  • Budsjett framleis ope.
  • ME har levert ein del tastatur. (sjd_ru, sjd_sa, kom_kv, yrk, ural_fyvaproldzhe)
  • MR: 1 lingvist + 1 samisktalande

Framskritt på kildinsamisk wikipedia. Kjøpe Mac-ar til testing? Windows-versjon?

Barentsprosjektet

Neste steg er møte med STR. Trond: 8, 14, 15, 23, 24, 25, 30 er ute.

Korpus

Mykje er sjekka inn i prestable. Ca 1 mill ord på kvart av NOB og SME.

firpmá: digraphar blir ikkje løyste opp.

ccat -r sme/ | grep fi | wc -l

Neste:

  1. fiks fi
  2. framleis manuell inspeksjon - fi og struktur i lovtekstar
  3. NB! Sametingsprotokollane
  4. test parallellføringa

sma-terminologi (Elgå)

Elgå vil ha terminologien sin synleg <=> i nobsma-webdict. + Divvun, andre ordbøker.

Jf. Bugzilla.

eXist-kurs

Xquery vs. xslt

Konvertering frå xml til lexc vil ha enklare kode med Xquery.

Tyskland, 1. & 2. desember (ev. 30 nov for grunnintro)

Stavekontroll

  1. Nederland
    1. 64-bits
    2. uovervaka installering (allereie fiksa, kjem med neste versjon)
    3. Orddeling
  2. plx-konvertering
    1. plx-konverteringstesting
    2. plx-buggar
  3. hfst
    1. Voikko: hfst ikkje bra nok enno (for treg, mykje RAM)
    2. bruk + bugzilla
    3. Lage installeringspakke -- etter at problemet med fart er ordna i Hfrs

Grafisk statistikk

Dei viktigaste tala frå stavekontrolltestinga opp som grafar.

Sametingsnytt (budsjett 2012)

  1. risten 2 er i budsjettet. Der bør vi bruke eXist.
  2. Talesyntese. jf. phon-sma.xfst

Sjur - neste reise til Tromsø

7-11 eller 14-18 november.