UIT The arctic university of Norway > Giellatekno
 

171213

Møte 13.12.2017

Overordna planlegging framover

Vi presenterer først eit par moment til diskusjon, og har eit oversyn til slutt

ICALL

Det er ulike typar ICALL, som vi her kallar opne/lukka (evt. studentstyrte vs. systemstyrte ):

  • Studentstyrte system:
    • Konteaksta (nesten ferdig) -- autentiske tekstar for å lage oppgava
    • Oahpa 1.0: Studenten vel kva som skal øvast på
  • Systemstyrte system:
    • Kursa fungerer som ei lærebok som gjev progresjon (læringssti + opent program Oahpa 1.0)
    • Ordlæringsprogram (systemet presenterer ord for studenten basert på progresjon)
    • Oahpa 2.0: Systemet legg til rette for grammatisk oppgåve

Positivt med systemstyrte:

  • Dei hjelper studentane

Negativt med systemstyrte:

  • Mykje arbeid å lage
  • Skjørt system: Viss ein liten ting ikkje fungerer har det store konsekvensar
  • Systemet treng samarbeid med lærar om progresjonen
  • Viss det er "for lukka" kan det utelukke studentar som ikkje passar

Positivt med studentstyrte system

  • Dei er robuste mot feil
  • Dei er fleksible for ulike studentar som veit kva dei vil ha
  • Grammatikkyndige studentar finn det dei vil ha

Negativt med studentstyrte system

  • Det stiller høge krav til strukturering

Samarbeid

Moglege samarbeidspartnarar

  • Med UITs samiskavdeling
  • ALTlab
  • ABC-Company er mogleg.
  • ...

Arbeid før oppstart av Oahpa 2.0

  • Kartlegge andre program
  • Diskutere med samtalepartnarar
  • Chiara dra til Torsby og diskuterer med Heli (Lene tar kontakt med H)

Målgrupper

  • Vaksenopplæring
    • Universitetsstudentar
    • Vaksenopplæring, språksenter
    • Sjølvstudium
  • Grunnskole (dette er noko anna)
    • L2-elevar i grunnskolen
    • L1-elevar i grunnskolen (?)

Konteaksta

Prinsipp: Vi vil prioritere den siste finishen på ting vi har nesten ferdig

Plan for å arbeide med Konteaksta:

  • Samarbeide med lærarar (L1 i vidaregåande?)
  • Finne fleire online-tekstar (bokselskap.no og ovttas.no som nye tekstkjelde?)
  • Fornye og revidere grammatisk analyse og programmering
  • Samarbeide med Konteaksta med andre
  • Hvorfor ikke bruke Korp for å lage tekster for Konteaksta?
    • Legge på server, kan testes og tilpasses på forhånd.

NDS

Innspill til mer pedagogikk i NDS

  • add gram link (casus)
  • add link to Korp in paradigm
  • add link in verb paradigm (title to gram)
  • description/pop up
  • pop up to 'search in text' button
  • slå på/av tooltip

Eksempel frå sme-nob over i sme-fin?

Nye FST-ar

Vi vil trenge spansk, evt. også svensk FST. Vi vil vere i stand til å legge til ord i desse FST-ane.

TILTAK

Liste over nye ting (skal inn i NDS-dokumentasjonen)

Opne saker for NDS:

  • Installere NDS på gtlab (testing)

Søknad om pengar

  • Dette må vi sjå på, frå ulike kjelder

MT

  • sme-nob
  • sme-smj
  • sme-smn
  • smn-sme, sma-sme, smj-sme

Analysatorer

Kontinuerleg arbeid

Leksikografi

Kontinuerleg arbeid

Lyd

Vi kjem til å ta i bruk TTS for ordbok og ICALL.

Språk

  • Samisk
  • Nordsamisk
  • Andre samiske
  • Sirkumpolare

korpus og Korp

  • lyd med transkripsjon
    • vi venter på LIA (avsluttes sommeren 2018)
    • se hva andre miljøer gjør
  • Filtrere bort støy i korpus
    • legge inn filtrering i den daglige analysen
    • mer filtrering i konverteringa
  • loggdata
  • ta vare på og gi linker til tidligere versjoner
  • alternativ sortering av resultater
  • sma: underdomene for tradisjonelle tekster
  • ordbilde

Infrastruktur

Vi har for små virtuelle servarar!

Trond diskuterer med R og evt. E. Ciprian tar det vidare.

Vi trenger en server til for samarbeidsparter i hele verden, hvor samarbeidspartnere skal ha root-rettigheter for å installere sine egne verktøy, sette opp web-applikatjoner, etc.

Artiklar

  • NDS som språklæringsverkty
  • MT med nob perspektiv
  • MT : problemer med input (sme perspektiv)
  • MT: sme-smn, kontrastiv grammatikk
  • smn-stavekontroll
  • korpusartikkel
  • kompleksitet i tekst, basert på dependensanalyse
    • sjangere innafor samme språk
    • sammenlikne tekster på samiske språk
    • hva gjør en tekst komplisert? sammenlikne oppfatninger hos lærer, elever og analyse

Bakgrunnsdokument

Underlagsmateriale til diskusjon om plan for Giellatekno, onsdagsmøtet 13.12.2017

Tidlegare plandokument er mellom anna:

  • private/plan/strat/doc/2010plan.pdf
  • private/plan/strat/doc/2010plan_augustkommentar.pdf
  • private/plan/hsl_forskningsgrupper/2014/giellatekno_fg14.docx

Parameter å planlegge etter

Desse momenta er i seg sjølv ikkje ein plan, men det inneheld ein del faktorar vi bør ha i mente når vi drøftar prioriteringar.

  • I kor stor grad skal vi satse på eitt (eller nokre få) prosjekt, og i kor stor grad fleire?
  • Korleis skal vi fordele arbeidet på språk: nordsamisk, andre samiske, andre sirkumpolare?
  • Kva er ei god fordeling mellom grunnlagsarbeid, arbeid for fungerande program, og publikasjonar?
  • I kor stor grad skal vi arbeide som gruppe, og i kor stor grad kvar for oss?
  • Kva tema skal vere viktige for oss:
    • icall, mt, leksikografi, (ulike nivå av) grammatisk analyse, korpusbygging, korrektur, TTS, ...?
  • Korleis skal vi vidareutvikle samarbeidet med Divvun, med samiskavdelinga, med andre på UiT?
  • Kva slags eksterne miljø skal vi prøve å få eit samarbeid med?

Poenget er sjølvsagt ikkje å svare på desse spørsmåla kvar for seg (dei heng saman, og dei har ulike svar når dei blir kombinert på ulike måtar), men å vurdere dei som parameter i planarbeidet.

Evaluering av oss

Humeval

NFR evaluerte humaniora i Noreg, m.a. UiT, der UiT presenterte CASTL-Fish, Giellatekno og

s. 62.

"Measurable societal impact is mainly achieved by Giellatekno and LAIDUA. With its enormous production of language technology applications for the Sámi languages in particular, but also for many other languages spoken in the circumpolar region in general, Giellatekno has measurably revitalised the Sámi languages, and its importance cannot be overemphasised." (...) Research is of a very high level in all areas, and the work done by CASTL-Fish in theoretical linguistics and by Giellatekno can be especially singled out.

Avsnitt 4.7 handlar om Giellatekno.

Fakultetet

Giellatekno fekk nettopp endra status frå nivå 3 til nivå 2, der grunngjevingane var at vi er meir utviklings- enn forskingsorientert, noko som vart reflektert i at ikkje alle gruppemedlemmene var forskarar, og at i samband med to NFR-prosjekt vart "mye arbeid (...) viet til utvidelsen av det samiske språkkorpuset og i mindre grad til forskning på dette materialet".

Første tankar

Evalueringa av oss er stort sett dekkande (sjølv om ikkje alle framlegga til endring av praksis er like gode). Vi bør med andre ord halde fast på og gjennomføre eitt av dei sentrale måla vi har og har hatt, nemleg å publisere om det arbeidet vi gjer. Vi bør legge til rette for at Lene og Ciprian blir ferdig med avhandlingane sine, og vi bør på ein målretta måte vurdere arbeidet vårt med tanke på publikasjonar, både kvar for seg og i lag. Vi er flinke til å halde føredrag (jf. art-mappa), men ikkje like flinke til å publisere.

Overordna tematiske prioriteringar

Dette er den viktigaste delen av diskusjonen vi har framfor oss. Konklusjonane her er dels avhengig av kva vi vil satse på av vitskapleg interesse, dels av kva område vi kan få interesserte samarbeidspartnarar, dels av behova ute i samfunnet, og dels av korleis vi vurderer kva vi kan prioritere innad i gruppa.

Grunnressursar

Grunnressursar er tekstressursar (korpora), leksikalske ressursar (ordlister, leksika) og analyseprogram

Arbeidet med grunnressursar må sjølvsagt halde fram. Moglege prioriteringar:

  • Publiserte samiske tekstar (Skjønnlitteratur, lærebøker, ...)
  • Parallellkorpora

Dette vil sjølvsagt vere avhengig av dei overordna prioriteringane, poenget er at utviklinga av grunnressursar går sakte, og ein mogleg strategi er å ta ei spesifikk undergruppe, og så verkeleg prioritere det.

Til diskusjonen

Det viktigaste med plandiskusjonen her og no er å få ein plan for korleis vi skal arbeide i lag den næraste tida, det næraste halvåret, og dei næraste tre åra. Vi må utnytte det at vi har Chiara på ein god måte.

Årshjul

(liten x = arbeid, stor X = prioritet?)

Tema Namn 2018 vår 2018 høst 2019 vår 2019 høst 2020 vår 2020 høst  
ICALL Chiara, Lene Konteaksta,
mot Oahpa2
Oahpa2 Oahpa2 Oahpa2      
ICALL art Chiara, Lene Konteaksta
som fenomen
Konteaksta
i bruk
             
NDS - frontend Chiara, Lene x              
NDS - innhold Lene, Trond, Cip smn-fin, sme-spa              
NDS evaluering art alle x                
MT sme-nob Lene, Trond   x     x  x   x       
MT sme-nob art Lene, Trond ..     x          
MT sme-smX, smX-sme Lene, Trond ..     x          
Korp Cip ..   x          
Korpusarbeid div                  
Korpus art Cip, Trond   x   x          
PhD -arbeid Lene,   x              
PhD-arbeid Ciprian   x   x x   x   x   x  
Lingv skuffe Trond   x   x     x   x        
smn-FST Lene, Trond   x     x          
smn-artikkel Lene, Trond ..     x          
sme-smn artikkel Lene, Trond ..     x          
dependensanalysator Lene, Trond, Cip                  
tekstkompl art Cip, Lene, Trond                   
Canada Lene, Trond ..     x          
Russland Trond   x     x          
Norden Lene, Trond, Cip   x     x          
Undervisning Lene                
Konf, workshops       Samsymp          
Foredrag Lene                
Grafisk form Chiara   x     x          
REST Cip, Chiara   x     x   x        
samarb institusjoner ..                
NAV (og andre) Trond                

 

Namn 2018-I 2018-II 2018-III 2018-IV
Chiara konteaksta
NDS
REST
Grafisk form
oahpa2
REST
art
Grafisk form
oahpa2
REST 
oahpa2
Ciprian Korp
phd-arbeid
artikkel til Santiago
Korp oppdatering
phd-artikkel
REST
undervising phd-seminar i Santiago (?)
phd, korpusart
undervising phd-seminar i Santiago (?)
meänkieli
smn2fin-dict
korpusartikkel
phd
Korp
smn2fin-dict
phd
Korp 
Lene phd
Konteaksta
Oahpa2
(MT)
Oahpa2
undervisning
MT, NDS
Oahpa2
Samsymp
MT
Konteaksta
Oahpa2
MT
Trond smn-fst, lingart
admin, phd, korpus, samarb
MT, NDS, korpusart
admin, phd, korpus, samarb
?
admin, phd, korpus, samarb
?
admin, phd, korpus, samarb 

Andre ting

  • Lingvistisk forum

Ting i kalendaren

  • Veke for sme-nob

Konkrete mål

Korpusarbeid

Pengar vil vi ha!