181121

Giellateknomøte 21.11.2018

Til stades Chiara, Ciprian, Lene, Trond

Saker:

  • Oppsummering konferanser
    • NLP4CALL
    • Gjenbruk av data
    • Samling for finsk- og kvensklærarar
    • Uleåborg (anna enn Korp)
  • Oppsummering Korp (Workshop og SIKOR og Korp)
  • Vidare arbeid med Korp
  • Servarar
  • Diaspora-fst-ar
  • Eventuelt

Oppsummering konferansar

NLP4CALL

Lene har vore her tidlegare, dei har det ein gang i året. No var Lene og Chiara der med artikkel og poster.

Presentasjonen av posteren gjekk fint, mange såg på Konteaksta.

Sjölve konferansen var interessant relevant feedback om retting av språk: Logg in på Googledoc og få viss type hjelp

Fokus var automatisk retting og karaktersetting av studentoppgåver.

Alle artiklane ligg på nett.

Workshop: Adriane Boyd, som skreiv ein del av koden på Konteaksta, som Chiara deretter kan kontakte.

  • Keynote 1: Jill Berstein. Enkel språkteknologi (ordliste, regex)
  • Keynote 2: Innfallsvinkel det europeiske rammeverket A1-C2 for språkferdigheit.
    • Bruk av dette rammeverket for å evaluere ikkje berre L2, men også L1.

Vi vil ha postarane (denne og tidlegare) på veggen.

Gjenbruk av data -- på Nasjonalbiblioteket

Lene og Börre var der. Interessant møte.

Samling for finsk- og kvensklærarar.

Trond føredrag: Utfordrende bokstaver og språklyder

Uleåborg (anna enn Korp)

Vi oppsummerte.

Oppsummering Korp (Workshop og SIKOR og Korp)

Vi oppsummerte.

Vidare arbeid med Korp

Oppdatering av rettleiing

Oppdatere Korp-side for brukarar:

  • Skrive: For dei andre språka er ikkje analysen like god.
  • Forbetre cqp-sida
  • Sjå meir på dokumentasjon for nybyrjarar
  • Korpuslingvistikk fr dummies: Referere til litteratur om korpuslingvistikk?

Ting som kom opp under workshopen

lenkje til http://victorio.uit.no/freecorpus/orig: dette er nå gjort

kor mange treff per side er borte

Det fungerte for versjon 5.

(i) infoknappen til høgre på utvida søk er borte

Det fungerte for versjon 5.

På (i)-lista manglar infinitte verbformer (og også andre former)

Ciprian kjem med ei ny liste som vi kan oppdatere.

Korfor har vi "ikkje regex" som valg under søk?

Dette betyr ikkje "fråver av regex" eller "tolk bokstavleg." Derimot betyr det "negasjonen av den regexen du har skrive" Grunnen til det har kanskje med negasjonsoperatoren for parallellkorpus å gjere?

Det er opent kva som er funksjonen til dette. Ciprian undersøker, og vi forbetrar dokumentasjonen eller fjernar.

Scrambling av setningane

Det har vi ikkje.

Last ned resultatet i form xy

Dette er ikkje implementert.

Jussi vil ha 10000 per side som opsjon

Det skal han få (av Ciprian).

Advarsel for cookies

Dette er ikkje implementert, men det er krav om det. Dette kan vi evt. få hjelp med frå IT-avdelinga. Jf. også http vs. https.

Tiltak:

Chiara tar http vs. https opp med IT-avdelinga.

Ting å arbeide med framover

Oppdatering til versjon 7

Chiara og Ciprian gjer det.

Tekstattributt for debugging

Vi legg til attributta Wordcount og Sentencecount for å sjå kor mange ord og setningar ei fil har. Dette for debugging.

Desse minimale filene kan ha problem med dependensrelasjonar. Det skal vi rydde opp i på grammatikksida.

Arbeid med korpuset i seg sjølv.

  • Fjerne marginale filer (f.eks. høgare terskel for sme enn for andre språk)
  • Arbeide med metadata.

Attendemelding frå oppdateringa

Ciprian skriv ein rapport om erfaringar frå oppdateringa, og vi tar opp det. Dette gjeld ulike aspekt ved korpusprosesseringa.

Servarar

Vi tar ein gjennomgang.

Overordna

Vi har fått purringar om servar-flytting.

Dependensar

satni.org er oppdatert Dei andre servarane er nye.

Oahpa-versjonar i bruk:

http://giellatekno.uit.no/ped/common/logextraction.html

Vurdering av kva som er i bruk og ikkje (sjå Oahpa-punktet nedanfor)

Gamle servarar:

  • gtoahapa:
  • gtweb
    • Oprdbøkene ventar på flytting
  • gtsvn
    • denne ventar på å få fjerna /home
  • gtlab
    • Innhaldet i /home skal hit

Nye servarar

  • ny gtlab-servar (skal vere home/)
  • ny svn-servar
  • ny gtoahpa
    • kveeni -- har brukarar
    • erzya, moksha

http://giellatekno.uit.no/ped/common/GtlabRestart.html

Flytting

  • oahpa til gtoahpa
  • NDS: sme og smn til satni.org
  • gtsvn til ny gtsvn.
    • Vegen fram for gtsvn er uklår: Ciprian og Chiara snakkar med Børre, deretter tar vi diskusjonen med IT-avdelinga. Mål: svn-innhaldet skal til ny servar uavhengig av alle flytteprosessar.

Oahpa

  1. Chiara legg ut ei side med melding om kontaktinformasjon til
    1. alle gtlab-lenkjene på panic-sida
    2. alle gtweb-lenkjene på panic-sida
  2. Trond får passord og ser på loggen til Oahpa-instansane
  3. Chiara og Ciprian sendar ordna liste med oahpa-instansar
  4. Lene og Trond vurderer kva vi gjer med dei.
  5. Chiara og Ciprian flyttar.

Dette i løpet av november.

Diaspora-fst-ar

Vi satsar på Jaska sine dagar og inviterer Josh også. Viss Josh ikkje kan vurderer vi etter jul.

Eventuelt

Tospråklig tmx-filer fra ordbokmateriale

Vi bør lage tospråklige tmx-filer fra ordboksmaterialet, eksempelsetningene med oversettinger. Lage pipeline for dette: Ciprian.