UIT The arctic university of Norway > Giellatekno
 

150929_ja_16XXXX

Møte, Börselv 29.9.15

Hilde, Mari, Sindre, Anna-Kaisa, Trond

Innholdsfortegnelse:

  1. Gjøreliste og prioriteringer fremover
  2. Oversikt fra forrige møte
  3. Oversikt over hvor vi står og forskjellige tester
  4. Appendix

GJØRELISTE og prioriteringer fremover

Korpus

  • Legg til et par store tekster i paralellkorpuset (Prioritet)
    • Forskningsartikkelen?
  • Sjekk me Merethe om Idar Kristiansen. Mangler det i korpus? Eller i ordboka? (OK)
  • Er dette alt, Merethe?: freecorpus/orig/fkv/ficti/fiction/idar_kristiansen.docx (OK)
  • Få tekster fra Nasjonalbiblioteket (Prioritet)

Språktinget

  • Hvordan kan vi legge til rette for en mer effektiv prosess av vokabulardiskusjon?
  • Språktingsordlister må legges til

Retteprogram

  • Lag prosess for å rapportere feil i analysator, spesielt fra Merethe og Pirjo (Prioritet)
  • Se på feil-"poengene" basert på skriveleifene vi får inn (Presicion & Recall. Type 1 og type 2 feil i statistikk)
  • Rette vekter i editdistance, strings, words (filene)
  • Finn naturlige feil fra fjasboka?
  • Analysere feilkorpus fra studenter (søk om lov først) & Oahpa!

Norsk-Kvensk ordbok

  • Legg til ord fra Sanapuohi (Prioritet)
  • Legge til en funksjon som gjør at man kan rapportere feil/mangler i ordbøyinger (med en NB melding om at analysatoren ikke e perfekt/ferdig). (Prioritet)
  • rydde i norske lemma (mellomrom). (litt)
    • Ingen oppslagsord med 7 mellomrom lengre! Fortsatt 19 ord med 3 mellomrom, og 116 med 2!
    • La faste uttrykk som vi ser at oftes søkes etter være der (Gratulerer med dagen - jeg heter - jeg er)
  • Legge til vanlige ord som mangler, hvordan finner vi vanlige ord som mangler? Diskuter kommandoen m/Trond.
  • Ordlister? Oahpa? Legge til ord fra språkkafé? Sanapuohi? Katso tammikuun referaatti.
  • Legg til lemmaer funnet i Appendix under.
  • facebookista sanoja?

Kvensk-Norsk ordbok

  • Legg til ordboksfunksjonen på hjemmesiden (Prioritet)
  • Sørge for at hele Ruijan Kaiku alltid skal være fullt lesbart med ordboka?
    • se hva vi mangler fra RK ved Nasjonalbiblioteket

Analysator

  • Lag script som telle antall ord i forskjellige kategoria. (Prioritet)
  • flertallsfeil i nouns. (Prioritet)
  • adjektivsfeil. (Prioritet)
  • Nimet! (Prioritet)
  • Fiks yaml-formattering. White space matters. (OK)
  • twolc
  • adjektiivit (resten av YAML-ene)
  • johdokset
  • Kattavuus

Oversikt over prosjektene

For brukerne

  1. nobfkv
  2. korjausohjelma
  3. fkvnob

Grunnmateriale

  1. analysaatori
  2. korpus
  3. rinnakkaiskorpus

Oversikt fra forrige møte:

Analysator

Gruppe 2: Trond, Lena, Sindre, Anna Kaisa

Retteprogram

  • Analysatoren: Lydreglan, bøyingsreglan og flere ord. (OK)
  • Lag prosess for å rapportere feil i analysator, spesielt fra Merethe og Pirjo (Prioritet)
  • Top 5 på forslag, Precision & Recall
  • Analysere feilkorpus fra studenter (søk om lov først) & Oahpa!

Språkopplæring

  • Legge til en funksjon som gjør at man kan rapportere feil/mangler i ordbøyinger.
  • Åpne tekstene som er i Fronter til allment bruk for alle!
  • Integrere dette i et språkkurs via universitetet.

Ordbok

kvensk-norsk ordbok

Korpusarbeid

  • Øk størrelsen på korpuset (OK)
  • Lag frekvensliste fra Korpuset (OK)
  • sjekk hvilke ord som mangler(OK)
  • oversett og legg til i ordboka (delvis)

norsk-kvensk ordbok

Gruppe 1: Bjørnar, Tove, Mari, Merethe, Karin

Puohi (fra en norsk frekvensordbok)

  • ta norske ord fra ulike temaområder (OK)
  • oversett enkle ord som mangler til kvensk (litt)
  • Send til språklærere
  • oversett komplekse ord som mangler til kvensk
  • rydde i norske lemma

Hvordan sjekke ordene?

  • Få flere til å oversette lister
  • Ha et parallellkorpus klart
  • Søk ordene i parallellkorpuset, først og fremst et par store tekster (Prioritet)
  • Gi over til Kventinget for politisk drøfting

Felles for begge ordbøker

  • Legg til den finske disambiguatoren (etter sammarbeidsprosjektet med esterne), (OK)
  • og gjør den kvensk
    • Eksempel: kommando: fkvdis "Se tuli."
 "<Se>"
	"se" Pron Pers Sg Nom
"<tuli>"
	"tulla" V Act Ind Prt Sg3
"<.>"
	"."

https://victorio.uit.no/langtech/trunk/langs/fkv/src/syntax/disambiguation.cg3

less src/morphology/root.lexc

Andre ting gjort siden sist:

  • Fulle paradigmer i ordboka!
  • Korpusintegrasjon i ordboka.
  • Lagt til nye ord i ordboka.
  • Begynt å få user feedback fra Ruijan Kaiku
  • Språkkafe!

Oversikt over hvor vi står og forskjellige tester

Analysator, hvor mye av korpuset klarer analysatoren vår?:

  • kun fkv: 81,4%
  • fkv eller nob eller sme: 84,0%
  • fkv eller nob eller sme tai fin: 90,1%

Topp-ti manglande av 90,1%:

 184 Porsangi
  46 olkhoon
  46 oikheen
  45 siittä
  42 institutti-Kvensk
  34 Varengin
  30 miitä
  30 elläimile
  29 Pohjas-Ruijassa
  28 mihiin

Montako sanaa:

cat test/data/fkv.txt|preprocess --corr=test/data/typos.txt|grep '[a-z]'|wc -l

Millaiset sanat ovat aidosti virheitä?

cat test/data/fkv.txt|preprocess --corr=test/data/typos.txt|grep '[a-z]'|ufkv|grep '?'|cut -f1|unob|grep '?'|cut -f1|ufin|grep '?'|cut -f1|sort|uniq -c|sort -nr|head -30

Yaml, hvor mange av våre tester for hele paradigmer klarer analysatoren? (bøyingsformer)

  • SUBSTANTIV: FAILS - 44 / 2758
  • VERB: FAILS - 66 / 2786
  • ADJEKTIV: FAILS - 709 / 2227

Jos haluaa YAML-testata pelkästään teittyjä YAML: eita (esim. pelkästään adjektiivit), voi siirtää kaikki muuta YAML: it pois folderista /main/langs/fkv/test/src/gt-norm-yamls/ , tehdä "make check", ja muista siirtää ne takas sen jälkeen tai svn up.

Check_lemma (alle grunnformene)

Tre sentrale adjektiv er feil:

  • lyhyt+A+Sg+Nom lyh
  • ohut+A+Sg+Nom oh
  • vanha+A+Sg+Nom vanhae

Adjektiva er ikkje like godt dekka som substantiva:

hyvä+A+Pl+Par
hyvä+A+Pl+Par	hyvi
hyvä+A+Pl+Par	hyvväi


cat src/morphology/stems/adjectives.lexc |grep a_21|tr ':' ' '|cut -d" " -f1|sed 's/$/+A+Pl+Par/'|dfkv|see

Vi klare nominativ av alle substantiv! De (16) verban som fortsatt mangle er ikke ofte bruke verb.

Missing list for ordbok

  • Hva slår folk opp, uten å få svar. Vi har en logg med 50 000 oppslag. Hvor slår folk opp ifra, IP nummer? Hvor mange brukera?
cat test/data/dict_nobfkv_user_log_150929.txt |grep False|cut -f1|unob|cut -f2|cut -d"+" -f1|nobfkv|less
cat test/data/dict_nobfkv_user_log_150929.txt |grep False|cut -f1|nobfkv|grep '?'|cut -f1|ufkv|grep '?'|cut -f1|sort|uniq -c|sort -nr|less

Oversikt til slutt i referatet.

Tiltak: Sjå på denne og fylle ut.

Spellchecker feil?

less test/data/typos.txt
echo " se on kväänitten asia" | preprocess --corr=test/data/typos.txt

see tools/spellcheckers/fstbased/hfst/words.default.txt 
see tools/spellcheckers/fstbased/hfst/strings.default.txt 
see tools/spellcheckers/fstbased/hfst/editdist.default.txt

1) Notater fra siste møte:

Analysator

Gruppe 2: Trond, Lena, Sindre, Anna Kaisa

Retteprogram

  • Analysatoren: Lydreglan, bøyingsreglan og flere ord. (OK)
  • Lag prosess for å rapportere feil i analysator, spesielt fra Merethe og Pirjo (Prioritet)
  • Top 5 på forslag, Precision & Recall
  • Analysere feilkorpus fra studenter (søk om lov først) & Oahpa!

Språkopplæring

  • Legge til en funksjon som gjør at man kan rapportere feil/mangler i ordbøyinger.
  • Åpne tekstene som er i Fronter til allment bruk for alle!
  • Integrere dette i et språkkurs via universitetet.

Ordbok

kvensk-norsk ordbok

Korpusarbeid

  • Øk størrelsen på korpuset (OK)
  • Lag frekvensliste fra Korpuset (OK)
  • sjekk hvilke ord som mangler(OK)
  • oversett og legg til i ordboka (delvis)

norsk-kvensk ordbok

Gruppe 1: Bjørnar, Tove, Mari, Merethe, Karin

Puohi (fra en norsk frekvensordbok)

  • ta norske ord fra ulike temaområder (OK)
  • oversett enkle ord som mangler til kvensk (litt)
  • Send til språklærere
  • oversett komplekse ord som mangler til kvensk
  • rydde i norske lemma (Prioritet)

Hvordan sjekke ordene?

  • Få flere til å oversette lister
  • Ha et parallellkorpus klart
  • Søk ordene i parallellkorpuset, først og fremst et par store tekster (Prioritet)
  • Gi over til Kventinget for politisk drøfting

Felles for begge ordbøker

  • Legg til den finske disambiguatoren (etter sammarbeidsprosjektet med esterne), (OK)
  • og gjør den kvensk
    • Kommando: fkvdis "Se tuli."
 "<Se>"
	"se" Pron Pers Sg Nom
"<tuli>"
	"tulla" V Act Ind Prt Sg3
"<.>"
	"."

https://victorio.uit.no/langtech/trunk/langs/fkv/src/syntax/disambiguation.cg3

less src/morphology/root.lexc

Andre ting gjort siden sist:

  • Fulle paradigmer i ordboka!
  • Korpusintegrasjon i ordboka.
  • Lagt til nye ord i ordboka.
  • Begynt å få user feedback fra Ruijan Kaiku
  • Språkkafe!

2) Oversikt over hvor vi står, Testing

Analysator, hvor mye av korpuset klarer analysatoren vår?:

  • kun fkv: 81,4%
  • fkv eller nob eller sme: 84,0%
  • fkv eller nob eller sme tai fin: 90,1%

Topp-ti manglande av 90,1%:

 184 Porsangi
  46 olkhoon
  46 oikheen
  45 siittä
  42 institutti-Kvensk
  34 Varengin
  30 miitä
  30 elläimile
  29 Pohjas-Ruijassa
  28 mihiin

Montako sanaa:

cat test/data/fkv.txt|preprocess --corr=test/data/typos.txt|grep '[a-z]'|wc -l

Millaiset sanat ovat aidosti virheitä?

cat test/data/fkv.txt|preprocess --corr=test/data/typos.txt|grep '[a-z]'|ufkv|grep '?'|cut -f1|unob|grep '?'|cut -f1|ufin|grep '?'|cut -f1|usme|grep '?'|cut -f1|sort|uniq -c|sort -nr|head

Yaml, hvor mange av våre tester for hele paradigmer klarer analysatoren? (bøyingsformer)

  • SUBSTANTIV: FAILS - 44 / 2758
  • VERB: FAILS - 66 / 2786
  • ADJEKTIV: FAILS - 709 / 2227

Check_lemma (alle grunnformene)

Tre sentrale adjektiv er feil:

  • lyhyt+A+Sg+Nom lyh
  • ohut+A+Sg+Nom oh
  • vanha+A+Sg+Nom vanhae

Adjektiva er ikkje like godt dekka som substantiva:

hyvä+A+Pl+Par
hyvä+A+Pl+Par	hyvi
hyvä+A+Pl+Par	hyvväi

Vi klare nominativ av alle substantiv! De få (16) verban som mangle er overhode ikke ofte bruke verb.

Missing list for ordbok

  • Hva slår folk opp, uten å få svar. Vi har en logg med 50 000 oppslag. Hvor slår folk opp ifra, IP nummer? Hvor mange brukera?

cat test/data/dict_nobfkv_user_log_150929.txt |grep False|cut -f1|nobfkv|grep '?'|cut -f1|ufkv|grep '?'|cut -f1|sort|uniq -c|sort -nr|less

Oversikt til slutt i referatet.

Tiltak: Sjå på denne og fylle ut.

Spellchecker feil?

X

3) GJØRELISTE og prioriteringer fremover

Korpus

  • Sjekk me Merethe om Idar Kristiansen. Mangler det i korpus? Eller i ordboka?
  • Er dette alt: freecorpus/orig/fkv/ficti/fiction/idar_kristiansen.docx
  • Legg til et par store tekster i paralellkorpuset (Prioritet)

Språktinget?

  • Hva kan vi gjøre med farten?
  • Språktingsordlister må legges til

Retteprogram

  • Rapporter feil i analysator, spesielt fra Merethe og Pirjo (Prioritet)

Norsk-Kvensk ordbok

  • rydde i norske lemma (Prioritet)
  • PLANLEGG NOE FOR NORSK KVENSK ORDBOK HER! Ordlister?

Kvensk-Norsk ordbok

X

Analysator

  • Fiks yaml-formattering. Fire mellomrom. White space matters.

Appendix

  • Anna-Kaisa
  • Sindre
  • Mari
  • Merethe
  • Karin
  • Tove

Missing fkvnob:

  10 ihan
   8 vaatheet
   8 sivu
   8 myös
   8 meila
   7 puuhaa
   7 pitä
   7 keitellä
   7 alottaat
   7 None
   6 lajela
   6 festivaalin
   6 asia
   5 suanto
   5 siili
   5 sammaa
   5 pyy
   5 pykkään
   5 puuha
   5 pian
   5 paussin
   5 osoittheen
   5 melkein
   5 lähte
   5 kävellä
   5 kuinka
   5 jotain
   5 ittesti
   5 fuonet
   5 ajjat

Missing nobfkv

  36 gratulerer
  19 gratulere
  16 liker
  14 norge
  13 jeg
  12 heter
  12 gratulerer med dagen
  12 burde
  11 tror
  11 hoved
  11 din
  11 både
  11 Gratulerer
  10 lunsj
  10 har
  10 hallo
  10 grønlandske
   9 tusen takk
   9 jeg er
   9 informasjon
   9 ha
   9 bamse
   8 nyte
   8 leilighet
   8 flott
   8 fikk
   7 samfunn
   7 oppleve
   6 ønsker
   6 uansett
   6 sønn
   6 sliten
   6 slem
   6 prosjekt
   6 oppføre
   6 nei
   6 nasjonal
   6 medfødt
   6 lenke
   6 klem
   6 jeg heter
   6 inngang
   6 hade
   6 foredrag
   6 drift
   6 bo
   5 våken
   5 utvalg
   5 utstilling
   5 studie
   5 snyte
   5 salg
   5 oppmerksomhet
   5 offentlig
   5 mist
   5 levne
   5 kott
   5 kose
   5 gøy
   5 god natt
   5 flertall
   5 enten
   5 ekte
   5 bygge
   5 broderi
   5 anbefale
   5 Velkommen
   5 Hallo
   4 vesen
   4 travel
   4 temperatur
   4 tema
   4 takk for oss
   4 sverige
   4 stadig
   4 service
   4 oppf
   4 omalle
   4 nitti
   4 mosjon
   4 krise
   4 hei jeg heter
   4 hadde
   4 god dag
   4 får
   4 forestilling
   4 fantastisk
   4 er
   4 ekspert
   4 drikking på gang
   4 dessverre
   4 bøttekott
   4 bolig
   4 balle
   3 å ha
   3 wc
   3 vårt
   3 vanhaa
   3 valp
   3 vagina
   3 utgang
   3 unik
   3 tygge
   3 tromsø
   3 trampe
   3 tisse
   3 til lykke
   3 talosvankka
   3 søppel
   3 synonym
   3 symaskin
   3 stigen
   3 speider
   3 soldat
   3 skamme
   3 sjark
   3 sarpsborg
   3 regering
   3 projekt
   3 produsere
   3 pizza
   3 oversikt
   3 ovenfor
   3 oslo
   3 oppvekst
   3 oppskift
   3 oppmerksom
   3 opplæring
   3 nordlys
   3 nittenhundre
   3 nasjonale
   3 møttes
   3 mormor
   3 milepæl
   3 mett
   3 metsi
   3 meny
   3 meitemark
   3 lykke til
   3 los
   3 lilla
   3 lar
   3 landsby
   3 lafte
   3 kun
   3 kraftig
   3 kompis
   3 kalkun
   3 kalender
   3 jakte
   3 insekt
   3 innerst
   3 innen
   3 ifølge
   3 høflig
   3 hurra
   3 hilsen
   3 handel
   3 hadet
   3 ha det bra
   3 gømme
   3 gi ut
   3 følelse
   3 friste
   3 fotograf
   3 finnmark
   3 feig
   3 eksistere
   3 eik
   3 dusje
   3 do
   3 diskutere
   3 det er sant
   3 deres
   3 caldera
   3 båten
   3 brakk
   3 blid
   3 bleie
   3 bidra
   3 bestikk
   3 arrangement
   3 and
   3 ananas
   3 aktivitet
   3 God natt