UIT The arctic university of Norway > Giellatekno
 

Meeting_2018-02-06

Møte mellom Trond og Sjur 6. og 8.2. 2018

Saker

  • kal
  • oppdaterte stavekontrollar for sme, sma, smj?
  • pakkehandterar for macOS startar
  • chat
  • divvunserveren
  • virtuelle servarar
  • SMS-tastatur
  • plan for våren/året

KAL, kompileringstid og alfabetstorleik (sigma)

KAL har hatt multichars som +ABC=DEF+vv, som eigentleg er det same som +ABC+vv+DEF+vv. Tino har automatisk konvertert til det siste formatet, og kompileringstida har gått dramatisk ned,

Lærdom: Eit stort alfabet gir lang kompileringstid.

Løysinga er å ha ein taggstruktur som gjev så få taggar som mogleg. Bør vi tenkja om korleis vi organiserer semantiske taggar i sme? Dei er bygde på same måten som dei grønlandske, sjølv om vi enno ikkje har så mange taggar.

  • SME i dag: 500 taggar
  • KAL før omlegginga: 3776 taggar
  • KAL etter omlegginga: 392 taggar

Byggetid etter omlegginga:

conf: ./configure --with-hfst --without-xfst --enable-hyperminimisation --enable-alignment --with-backend-format=foma

Sjur  real         4m 9.347s
bøtte real        10m10.679s

Meir byggjestatistikk:

  • Med tokeniser: +2 min
  • Full pakke (Tino-konfig for nattleg bygg): 13min
  • Før omlegginga tok nattlege bygging meir enn fire timar!

Konklusjon: eit stort alfabet (=mange multichar) fører til lang byggjetid, særleg for tokeniser og nokre filter. KAL har gått ned frå knapt 4000 taggar til knapt 400, og byggjetida er nede i minutt istf timar. Bør vi sjå ein gong til på SME og dei semantiske taggane? Kva med annan leksikalsk informasjon som er spreidd på ulike kjeldefiler i dag?

Oppdaterte stavekontrollar for sme, sma, smj?

Denne veka, helst i morgon (pga Staare-opplegget).

Pakkehandterar for macOS

Prosjekt for å byggha pakkehandterar for macOS har starta med Brendan, via firmaet han jobbar for i Göteborg. Pakkehandterar for Windows har han alt laga, men den er ikkje testa enno.

Pakkehandterarane er installerings-, konfigurerings- og oppdateringsprogram for alt som vi gjev ut. Pakkehandteraren kan installera alt vi har, og kan oppdatera både seg sjølv og alle installerte pakker. Det blir det viktigaste verktyet for å installera og spreia verktya våre ut til brukarane.

Dette impliserer ferdigkompilerte FSTar for alle interesserte, til ulike formål, om dei no er språkbrukarar eller lingvistar, og der målet er alt frå tastatur via ordbok og grammatisk analyse (for lingvistar) til stave- og grammatikkontroll.

Idé etter Trond sin tur til Paris førre veka: eit (grafisk) program for å analysera tekst med fst-ane våre (ev heile pipeline).

Dette har vi faktisk allereie, i grammatikkontrollinfrastrukturen, men retta mot grammatisk analyse og ikkje framlegg. Så kombinasjonen av grammatikkontrollinfrastrukturen og nedlastbare fst-ar frå nightly build vil faktisk gje oss det vi vil ha.

TODO: Spesifisere, lyse ut og rulle ut opplegg for dette i løpet av våren

chat

Pga diskhavariet på XServen har vi ingen fungerande chat for tida, særleg ettersom mange ikkje lenger har fungerande GTalk etter den siste macOS-oppdateringa. Vi må rydde opp, kollektivt.

Kva er alternativa:

  • google hangout?
  • Skype for Business
  • GoogleTalk for Messenger
  • GoogleTalk i andre kanalar

Sjur har sendt ut e-post om at alle nyttar Skype for Business inntil vidare. Børre jobbar med å få på plass ny jabber-server.

divvunserveren

Manglar pr i dag:

  • pålogging
  • oppdatera stavekontrollservaren
  • tilgang til analyserte data
  • see

virtuelle servarar

Børre arbeider med saka, det har kome brev frå Steinar, saka går framover.

SMS-tastatur

Trond har hatt møte med sms-gjengen om tastaturutforming. Dei likte prinsippa for tastaturutforming som Trond presenterte. Dei kom fram til eit forslag, som no ligg i svn.

Nivå 3 og 4 er uferdig, men dei skoltesamiske bokstavane er ferdig plassert. Trond og Sjur gjer ferdig sms-tastaturet, og legg det ut på nett.

plan for våren/året

Sjå over, fleire detaljar seinare.