UIT The arctic university of Norway > Giellatekno
 

161019

Giellatekno-møte 19.10.

Til stades: Ailo, Ciprian, Lene, Trond

Saksliste

  • Morgonsamling
  • Programmerarstilling
  • Oppsummering av Svalbard-seminar
  • High north-søknad
  • Planar for korpusarbeid
  • Se på teknologi for møterom

Morgonsamling

08: 30 om morgonen -- inntil 15 min.

På det store kontoret. Fra i morgen.

Programmerarstilling

Innrettinga vi hadde: Oahpa. Denne innrettinga, eller ei anna?

Tilsetjingsmåte: Programmerar hit? Akkord frå programmerartorg? Fjernarbeid? Kombinasjon? Tilsetjing med arbeidsprøve?

Møte neste veke: tysdag 25.10. kl. 11-12.

Oppsummering av Svalbard-seminar

Hovedtemaene var

  • evt nedlegging/omlegging av studieprogram på bachelor
  • evt nye studieprogram på bachelor
  • forbedring av PhD-utdanning

Språkteknologi var med i to av forslagene som blei lagt fram. Merete har sendt ut forslagene til alle ansatte over mail.

High north-søknad

Bommet på søknadsfristen, derfor ingen søknad.

Planar for korpusarbeid

Ailo jobber for Giellatekno full tid ut januar 2017.

  1. Samle tekst: einspråkleg og parallell
  2. Konvertere tekst
  3. Setningsparallellisere tekst

Teksttypar:

  • Parallellisert tekst
  • L1-tekst (

Innsamling

  • Internett-tekstar forsvinn, og må samlast inn
  • Skjønnlitterære tekstar i digital form (diskettar, ...) i forlaga
  • Samisk høgskoles tekster (det meste er L1)
  • annet

Forbetre metadatafil.doc + fil.doc.xsl

Viktigste metadata

  • title
  • year
  • translated_from
  • author (hvis originalspråket er samisk)
  • author_nat (hvis originalspråket er samisk)
  • translator (hvis oppgitt)
  • translator_nat (hvis oppgitt)
  • place
  • translator_from

Møte om metadata:

  • Trond, Ailo, Børre (snarest mulig)

Møte om korpusstrategi, neste uke

  • Giellatekno + Sjur og Børre

Setningsparallellisering

  • Nyttig for ordbok: nob-sme, potensielt fin-sme
  • MT: Primært sme-smX, sjangeravhengig

Ciprian og Ailo ser på kva som er merka som parallelt

  1. kva er merka
  2. kva er umerka

Desse tilfella er ok:

  • setning = setning
  • setning setning = setning
  • setning = xxx
  • kortsetning = langsetning

Problematisk:

Tilfelle 1:

  • setningA setningB = setningA
  • xxx = setningB

Tilfelle 2:

  • setningC = xxxx
  • xxx = setningC

Tilfelle 3:

  • avbrutt setning = setning
  • andre halvpart = xxx

Teknisk for TCA2: Forbetre anchor.txt?

Se på teknologi for møterom

Kyrre foreslår at vi møtes torsdag 20.10. kl. 13.00

Med: Trond, Lene, Ciprian + Sjur