UIT The arctic university of Norway > Giellatekno
 

141105

Giellateknomøte 5.11.14

Saker:

  • smenob/nobsme
  • Paradigmegeneratoren i cgi-bin
  • Big data -konferanse i Oslo
  • Samarbeid om Sameting og Giellagáldu om e-ordbøker
  • sme til nyinfra ~ fst-testing via VD-pipeline
  • forrest og hjemmesida
  • orienteringssaker: sjur/trond-møte

smenob/nobsme

På nett: Frå juni:

  • nds: Gamle NSS,
  • web: Gamle NSS, FAD-only,

smenob: state-of-art:

  • src/
  • src_fad2merge/ (6202 ord)
tf-hsl-m0016:src ttr000$ cat *.xml|grep '<e '|cut -d"<" -f2-|sort|uniq -c|sort -nr
13112 fad
6373 vd
4344 nj
 520 sk
 153 gt_fad
  42 ps,sa
   6 gt
   5 no
   2 nou94
   2 mt
   2 kal
   1 ps
   1 other
Umerka:
<e> 11431

Tiltak

  • Normalisering av filnamn (cipian)
  • Slå saman filene i src/ (ciprian)
  • Fjern <e> frå src/ og legg dei i ein separat katalog not_in_dict (ciprian)
    • README i katalogen
  • Unifisering av fad2merge, algoritme
    • Lage 3 kolonner: Lemma - VD - MERGE
    • Legge til OK/NEI/RED i kolonne 4 (Lene, ekstern)
    • Maskinelt unifisere alle med OK, osv.

Namna i xml-katalogen i Geo

cat geo_smi.xml|grep '"sme"'|wc -l
    5922
cat nounProp_smenob.xml |grep '<l '|wc -l
     502

Mogleg måtar å hindre at namna blokkerer for andre ord:

  1. skilnad store/små bokstavar, og, viss vi ikkje liker det:
  2. kryss "også med eigennamn"

Metadata

Vi må oppdatere metadata, både for NDS og for webdict (?)

Vi må lenkje ordbøkene i mellom for same språk.

  • Lenkje: Fleire ordbøker for nordsamisk i kvar ordbok, lenka til ei fellesside
  • Denne fellessida må vere ein ny versjon av dicts.uit.no

Tiltak

  • Lene ser på dette.

Paradigmepresentasjon i NDS

I paradigmegeneratoren eller i NDS? Vi prøver å få elevane til å bruke NDS i staden for paradigmegeneratoren.

Paradigmegeneratoren i cgi-bin

Vi legg arbeidet inn i NDS, og gjer relativt små endringar i cgi-bin-scriptet.

Tiltak for å gjere den betre:

  • Legge til "med varianter" i tittelfeltet over paradigmene ("šuhkoláda")
  • Forbetre presentasjon
    • Endre pluss til mellomrom
    • fst-ar med ulike taggar (regex for norsk og samisk ==> basis for en db for taggar)
    • cgi-bin-skriptet endre taggar
    • Match lokaliserte taggar med lokaliseringsspråk
  • Liste som før, ikkje to tabeller
  • Fjerne lemma heilt til venstre i tabellen
  • Lenkje til paradigmegeneratoren frå ordboka
  • Endre Send skjema / Sádde skovi ==> Send / Sádde

Tiltak

  • Trond og Ciprian gjer dette.

Paradigmegeneratoren: Fjerde kulepunkt. Trond: Lag bug.

Samarbeid om Sameting og Giellagáldu om e-ordbøker

Sametinget skal satse på e-ordbøker, Giellagáldu normerer

Tiltak

  • Lene og Trond ser på dette.

Tidsplan

  • Små endringar til neste møte
  • Oppsummering og vidare plan på det møtet

Common Crawl Foundation-workshop i Oslo

Börre dit? Trond tar det vidare.

CCF workshop in Oslo

sme til nyinfra ~ fst-testing via VD-pipeline

Paradigmetesting

Ciprian har skrive i e-post.

Plukk ut 20 ord med ulike taggar (Allegro, miniparadigme, v1, v2) og test dei.

Vi har testa Oahpa og analysen.

Lage yaml av gamle VD-oppsett, eitt ord frå kvart kontleksikon.

abbr.txt

  • Trond: 1100 i gammal, 813 i ny
  • Lene: 1100 i gammal, 1100 i ny

Use/MT

Use/MT -- skal fjernast overalt, men vere med i apertium-generator-fst-ar Ei anna sak er at den må bli merka for målspråk

Use/LexSub

Dette er ei sak for Divvun: Desse strengane skal ikkje med i Divvun-kontrollar. og ikkje med i den normative analysatoren.

5100 Err/Sub, 700 Use/LexSub

Vi ville endre denne til Err/LexSub i vår, jf møtereferat

Strengen Use/LexSub må bli fjerna for den normative analysatoren (Divvun). Det er altså ei Divvun-sak.

Konklusjon: For Gt sin del kan vi gå over til ny infra. Vi må flytte kildefilene for å ta vare på svn-historikken.

  1. Lag ein kopi av gammal infra, for referanse. Frys den.
  2. Flytt gammal til ny, med svn-historikk

Trond tar det opp med sjur.

Korp

Ciprian kan trykke på knappen. Vi ser om det er nye ting i dag.

Oppdatere korpus, og deretter Korp.

forrest - hjemmeside

Fra møte 8.10.14:

  • forbedre innholdet i ramma som er (Trond, Ciprian 15.10)
  • forbedre oversettelser (Jussi, Ivan, Laura/Detmar), deretter
  • forbedring layout pluss tekniske ting i Forrest (Trond tar opp med Sjur 14.10)
  • endre layout innafor forrest (også lage ny forside, bilde etc.), ekstern person, januar 2015

tabs

I dag:

Tab Går til
Hjem Home Heimesida
Språklæring oahpa.no
Divvun korrektur divvun.no
Ordbøker dicts.uit.no
Oversetting gtweb.uit.no/mt
Tekstkorpus gtweb.uit.no/korp
TechDoc Techdoc-sidene

Alternativ:

Ha Verkty for samiske språk (osb.) i tabbane der oppe

Nye tabbar:

  • Desse vil vi ha
    • Hjem Home
    • Divvun
    • Verktøy for samiske språk
    • Verktøy for andre språk

Desse går då ut (dei er dekt av andre lenkjer)

  • Språklæring
  • Ordböker
  • MT

Tiltak

  • Lene implementerer det.

Dei fire framsidene

Status for dei fire sidene:

  • forsida: her er det engelsk som gjeld. nno og sme er ulike
  • giellatekno.eng.xml er parallell
  • On oss er parallell
  • samarbeidspartnarar: nno, eng er parallel, og er utgangspunkt

Tiltak

  • Lene synkroniserer samisk og norsk
  • Trond ser på resten
  • Trond gjer om til bokmål

Sjur/Trond-referat (4.11):

  1. kløyv gtuit-forrest i to likt Divvun
  2. bygg ut gtuit til å vera fleirspråkleg slik Divvun er det
  3. lag felles techdoc

Tidsplan: Denne/neste veke.

Bugzilla

Betre politikk for prioritering:

  • Den som meldar inn buggen set alvorlegheitsgrad
    • (feature request ... blocker).
    • Så kan sjølvsagt alle involverte revidere alvorlegheitsgraden viss det viser seg at buggen er meir/mindre alvorleg enn vi først trudde.
  • Trond/Sjur/eigaren set prioritet
    • (P1 ... P5)
  • Vi tar prioriteringane alvorleg, og lar det vere samsvar med P og realitet.

Flytte bz-diskusjon over til dokumentasjonen? I visse tilfelle bør vi gjere det.

Tiltak

Orienteringssaker

Sjur/trond-møte Enare

Møtereferata

main/techdoc/admin/giellatekno/ /doc/admin/meetings.html

Terminologi

Utlysing

1.12. språkrådet

SDÁ

SDÁ-terminologi: Vaske ut akademisk tekst Vi vil ha SDÁ i Korp.

Lene kontaktar redaksjonskomitéen.

Neste möte

Om ei veke: Planar.