UIT The arctic university of Norway > Giellatekno
 

160914

Giellateknomøte 14.9. 2016

Til stades: Ciprian, Lene, Marja-Liisa (på dei tre siste sakene), Tiina, Trond

Saker

  • Møterommet
  • Oahpa-veka
  • Korpusarbeid og Korp
  • Rutine for janmleg køyring av analyser
  • Clarino
  • MT-møtet i Helsingfors
  • Brasil
  • Ressursar til MT-prosjektet
  • Andre saker

Møterommet

  • Førebels liste nesten i orden.
  • Manglar: Skøyteledning til prosjektør (Trond spør FL)
  • Kyrre og besøk til Handelshøgskolen el.l. (Trond)
  • Tidspunkt: Ikkje under ume-førelesinga, ikkje neste veke.

Oahpa-veka

Lene tar kontakt med Reidun for å ordne overnatting for Ryan og Heli

Vi alle setter av tid for å forberede workshopen (Heimelekse: sjå på sida til workshopen)

http://giellatekno.uit.no/ped/common/NotesForNewOahpaCode.html

Ciprian er på seminar onsdag-fredag. Det bør settes av tid en kveld for å diskutere dokumentasjon av NDS: Trond, Ciprian og Ryan. Dokumentasjonen som finnes, må leses på forhånd. Ansvar: Trond (brev til Ryan)

Order rom til Oahpa-veka. TODO: Trond

Korpusarbeid og Korp

Saker som ikke er løst i Korp-grensesnittet vårt:

  • lemmasøk (for extended search)
  • lemgram (som gir brukeren muligheta til å velge lemma etter å ha skrevet inn en ordform)
  • søk på syntaktiske tagger (for extended search)
  • forbedring av grensesnittet, hvis mulig?
  • brukerdokumentasjon: legge inn eksempel på relevante søk

Testing av den nye preprocesseren og den gamle og deretter diffe: biggies/gt/sme/corp/sme-goldcorpus.txt

New preprocessor (standing in sme):

... | hfst-tokenize tools/preprocess/tokeniser-disamb-gt-desc.pmhfst | ...
... | preprocess --abbr=tools/preprocess/abbr.txt

Postprocessing

hfst-lookup --with-some-cg-output-flag sme.hfst | ...

Trond discusses this with Sjur:

  1. check gold corpus
  2. check analysis on
  3. Missing lists for sme, sma, smj

Nye tekstar

http://www.riista.fi

Clarino

Vi diskuterte dette. Trond og Ciprian følgjer opp.

Brasil

Trond skriv ein kort presentasjon av Giellatekno og Divvun

Rutine for janmleg køyring av MT-oversettinger

Compiling: Compile sme, smX, apertium-sme-smX.

giella-core/scripts
sh make-sme-smn.sh
sh make-sme-smj.sh
sh make-sme-sma.sh

wercheck_mt-otpt.py (wer FALSE)

python wercheck_mt-otpt.py -d tmx_data/
python check_mt-otpt.py -d pseudo_tmx_data/

Run them every night, put them in an apertium directory, with link from the MT pages

  • Put them in the svn - where?
  • which svn: apertium or gt?
apertium-sme-smj$ cat tmx_data/* | wc -l
   10564
apertium-sme-sma$ cat tmx_data/* | wc -l
   11499
apertium-sme-smn$ cat tmx_data/* | wc -l
    7630
apertium-sme-smn$ cat fi.samediggi/* | wc -l
  113841

We will have to do that in a way that

  • makes the text accessible to the linguists
  • without spending too

Finding unused texts and parallel texts

  • http://www.riista.fi (Finnish - North Saami - Swedish)
  • Programs for political parties (offer the tool to the parties)
    • Also consider a party programs' corpus
  • Textbooks for schools

Trond and Ciprian to look at the technical issue with storage, and Ciprian implement afterwards

MT-møtet i Helsingfors

Trond orienterte om .... i Helsinki 12. sept.

Ressursar til MT-prosjektet

  • Diskutere med Laura om tidsdisponering
  • Korpusarbeid
  • Andre prosjekt
  • Lingvistar, Petter*
  • Francis, Kevin

Trond tar med innspel til møte med instituttet.

Neste møte

onsdag 28. sept. 2016 (Lene vil sannsynligvis være bortreist 29-30.9)