UIT The arctic university of Norway > Giellatekno
 

150422

Giellatekno-møte 22.4. 2015

Ciprian, Lene, Trond

Saksliste

  • korpus
  • undervisning på bachelorprogrammet språk-sinn-samfunn
  • oppsummering Ulan-Ude-reisa
  • smenob/nobsme attributter
  • frekvenssorterte lister for sme-tekster

Korpus og Korp

Korp

Ciprian arbeider med

  • Korp-grensesnittet må bli oppdatert
  • Lemgram / Ordbild må på plass.
  • translations: _xxx, må rettes eller oversettes fortest mulig
    • (corpora-LG.json locale-LG.json)
  • translating news: korp/frontend/news/gt_news.json
    • Denne fila skal også lokaliserast (Cip)
newsdata([  
  {  
    "h":{  
      "en":"<p>The Korp interface has been updated to version 4.0. </p>",
      "sv":"<p>The Korp interface has been updated to version 4.0. </p>",
      "nb":"<p>Korp grensesnittet ble oppdatert til versjon 4.0. </p>",
      "fi":"<p>The Korp interface has been updated to version 4.0. </p>",
      "se":"<p>The Korp interface has been updated to version 4.0. </p>",
    },
    "t":{  
      "en":"Korp interface updated ",
      "sv":"Korp interface updated ",
      "nb":"Korp grensesnittet oppdatert ",
      "fi":"Korp interface updated ",
      "se":"Korp interface updated ",
    },
    "d":"2015-04-20"
  },

Problem med lokalisering:

Viss du ikkje har like mange original: omsetjing i json-fila kjem ingenting på nett.

main/apps/korp/frontend/translations

locale-nb.json:    "show_diagram" : "Visa trenddiagram_xxx",
locale-nb.json:    "non_time_before" : "Saknar tidsuppmärkning: _xxx",
locale-nb.json:    "non_time_after" : " av valt material_xxx",

Tiltak: Forbetre omsetjing fortest mulig

  • Legge til xxx: Cip
  • fi: Trond
  • nb: Lene
  • se: Lene
  • sv: Trond

Refere til Korp (SIKOR) bør oppdateres fortest mulig.

Her er infoboksen:


  • SIKOR. UiT Norgga árktalaš universitehta ja Norgga Sámedikki sámi teakstačoakkáldat. <http: //gtweb.uit.no/korp/> (veršuvdna 01.03.2015)
  • SIKOR. UiT Norges arktiske universitets og det norske Sametingets samiske tekstsamling. <http: //gtweb.uit.no/korp/> (versjon 01.03.2015)
  • SIKOR. UiT Norjan arktisen yliopiston ja Norjan Saamelaiskäräjien tekstikokoelma. <http: //gtweb.uit.no/korp/> (versio 01.03.2014)
  • SIKOR. UiT Norges arktiska universitets och norske Sametingets samiske tekstsamling. <http: //gtweb.uit.no/korp/> (version 01.03.2015)
  • SIKOR. UiT The Arctic University of Norway and the Norwegian Saami Parliament’s Saami text collection. <http: //gtweb.uit.no/korp/> (version01.03.2015)

Korpus

Dette må følges opp:

  • Setningsparallisering
  • Legge inn samiske tall forteller (nr 3)
  • Ikke maskinlesbare Dieđut-tekster (Børre?)
  • Oppfølging av Kimberli (Trond)

Undervisning på bachelorprogrammet språk-sinn-samfunn

Gillian R har tatt kontakt om å tilby et nytt bachelorprogram språk-sinn-samfunn med engelsk om undervisningsspråk

  • 1000 nivå kurs:
  • 2000 nivå kurs: derav ett til tre kurs med språkteknologi (à 10 poeng)

Vi gir allerede nå kurs i språkteknologi, men dette kan evt formaliseres i offisielle kurs. Vi ser det ikke som hensiktsmessig at engelsk er undervisningsspråk.

Aktuelle temaer for 10-sv-kurs i språkteknologi til bachelorgrad i språk-sinn-samfunn:

  • Eksisterende kurs: 10-poeng-fst (HIF-30xx, vekt på automatteori
  • Eksisterende kurs: språkteknologi for samisk (mindre hands-on, meir bruk av språkteknologi)
  • Kurs i unix for lingvistar, regulære uttrykk, korpusgrensesnitt + søkespråk

I tillegg har vi eit framlegg til språkteknologi for samisk, eit kurs med ei litt anna innretting enn bachelor i lingvistikk:

SAM-30xx

  • "Emnet gir innføring i språkteknologi for samisk ved UiT. Denne kunnskapen vil gi studenten innsikt i datalingvistisk modellering og forståelse for språkteknologien bak sluttbrukerprogrammer og et automatisk analysert korpus. Studenten vil også få innsikt i utforming og testing av formelle språkmodeller. Studenter som ønsker det, kan arbeide videre med f.eks. endelige tilstandsautomater eller føringsgrammatikk på kurset SAM-3090 Spesialemne i samisk språkvitenskap."

Oppsummering Ulan-Ude-reisa

Arrangør: Buryaad statlige universitet v/ Jargal Badagarov: http://giellatekno.uit.no/conf/ulanude15/UlanUde.html

Trond og Francis holdt kurs i FST for 15 personar for følgende språk:

  • tyv: tuvinsk (tyrkisk)
    • Resultat: Analysator, leksikon på 6500 ord, morfofonologi, 85% dekning av eit korpus 1M ord, sjekka inn i Apertium
  • bxr: burjatisk (mongolsk)
    • Resultat: twolc, substantivbøying, leksikon på 400 ord
    • Resultat 2: Start på program for konvertering frå burjatisk til IPA
  • khk khalkamongolsk (med personer fra Ulan Bator)
    • Resultat: PC-KIMMO-versjon av morfofonologien overført til twolc, leksikon på 500 ord
  • evn: evenkisk (tungusisk)
    • Resultat: Analysator, 550 ord, storparten av morfofonologien, og 25% dekning av eit korpus på 13500 ord
  • xwo: todo oirat (mongolsk)
    • Resultat: demo-analysator med eitt ord (!), men inkludert i analysator med mongolsk -> latinsk under og latinsk -> mongolsk over, etter oppsettet frå præriecree (takk til Sjur for hjelp)
  • xal: Kalmyk (mongolsk),
    • Resultat: rudimentær analysator, 50 ord
  • kjh: Khakas (tyrkisk),
    • Resultat: ikkje innsjekkingar

Dessutan laga vi demoversjonar av stavekontrollar for bxr, khk, evn, xal. Merk at det er ein bug i Libreoffice-voikko for val av språk via ISO-kode, den er rapportert til Harri.

Oppfølging:

  • Rådgivning, de gjør arbeidet med FST sjøl
  • Forslag om nettverk for å finansiere samlinger og studentutvekslinger
    • Jargal suggests building a so-called “Thematic Network” (http: //www.uarctic.org/media/817524/uarctic-guidelines-for-establishing-new-tns-oct2014.pdf) within the University of Arctic. The theme will be what unites us (building grammatical models and making both research and practical applications based on those models).
  • Møte i arktisk universitet med delegasjon fra UiT til Ulan-Ude i juni i år.

smenob/nobsme attributter

Merking godkjente oversettinger og samiske stedsnavn

  • Vi bör merke namn etter autoritativ kjelde (Kartverk, Giellagáldu, ..)
  • Vi bör ikkje stryke ord vi ikkje kjenner eller rettskriving vi er skeptisk til, som er vedtatt

Merking av namn

  • Geo: Lene + Cip har diskutert, og har kontroll
  • Normativt attributt
    • attributtnamn: norm
    • attributtverdi: SGG = Sámi giellagáldu, SR = Sámi giellaráđđi, Lov = vedtatt i hht til lov om stadnamn , SGL = Sámi giellalávdegoddi
  • Kjelde-attributt
    • attributtnamn: src
    • attributtverdi: SK = Statens kartverk, KAL = Kåven et al, Qv = Qvigstad, PS = Pekka Sammallahtis ordbok, SA = Sámi atlas, ...
  • Giellagáldu lister er innsjekka i smenob/inc/placenames og smenob/inc/ready_togo. Der er det bl.a. 250 namn på ei liste, SGG_Eurohpa_riikkat.xlsx

Dette skal vere dokumentert på sida vår for ordbøker.

Attributtene for src og norm legges på t-nivå.

Konklusjon:

  1. FAD som attributt blir flytta frå <e> til <t>
  2. Lista over opprinnelege ord frå FAD blir greppa ut og lagra som ei liste under heimesida til FAD-prosjektet
  3. Skilnaden ( alle - FAD ) kjem dermed fram av å diffe total lemmaliste og FAD-liste
  4. I tillegg legg vil comment="..."  som attributt for kommetarer i alle elementer der vi ser behov for det

Freqkvenssorterte lister for sme-tekster

Vi bør ha en deadline for denne? Cip har gjort det men ikkje lagt det på serveren

  1. Cip lagar skript på servaren
  2. ... og gjev lenkje til Lene
  3. ... og dermed til side / vidare