UIT The arctic university of Norway > Giellatekno
 

smaformat

Konvertering til sma-stil

Heli har tatt over heile koden frå sma for numra (jf. game.py)

TILTAK

  • Ingen rører nu_oahpa-koden
  • Ciprian lagar ein ny katalog, univ_oahpa, i pedversions. done
  • Ciprian lagar ein ny katalog for kjeldefiler, ped/sme/univ_oahpa_data/data_sme/sme. done Dette er no gjeldande katalog for sme-kjeldefiler.
  • Heli lagar ein ny database done
  • Heli tilpasser navner fra oahpa til univ_oahpa og teste det på victorio "tilpassning av navner" mostly done, testning ikke klar
  • Dokumentasjon: Alle, særleg Ryan og Heli
    • Ei separat dokumentasjonsside for denne konverteringsprosessen:
    • Eiga jspwiki-fil (denne)
    • Katalogen inneheld ein kopi av smaOahpa, og blir fylt med sme-innhald
  • Lene går gjennom entriane i leksikon og merker <mg> osv (til måndag morgon 14.11) done
  • Ciprian overfører til sma-format og legg inn i univ_oahpa done

Leksikonfilene

Leksikonfiler i sme/xml

  • Legge til oversettelser og bokinfo fra AA-listen fra Oulu - Lene: done
  • Dele opp i entryer når entryen bør ha minst 2 <mg>, sjekke mot normfst (done)
    • adv_smenob.xml - ikke brukt i smeOahpa tidligere - oppdatert - flytta til tmp_towards-sma-format/data_sme/sme/adv_smenob.xml
    • multiword_smenob.xml - bare for Leksa - ikke brukt i smeOahpa tidligere - oppdatert - tmp_towards-sma-format/data_sme/sme/multiword_smenob.xml
    • adjectives.xml - oppdatert og flytta til tmp_towards-sma-format/data_sme/sme/a_smenob.xml
    • verbs.xml - oppdatert og flytta til tmp_towards-sma-format/data_sme/sme/v_smenob.xml
    • nouns.xml - oppdatert og flytta til tmp_towards-sma-format/data_sme/sme/n_smenob.xml - obs - denne bør deles til g3, actor og n ?
    • prop_nouns.xml - stedsnavn som var i nouns.xml. Det var meninga at de skulle inngå i MorfaS, men generinga har ikke fungert pga av disse krever N+Prop. Men det kunne være lurt å ha dem med i MorfaS, som nouns. - ny fil tmp_towards-sma-format/data_sme/sme/n_prop_smenob.xml
    • propernouns.xml - denne skal ikke genereres - kun for Leksa, flytta til tmp_towards-sma-format/data_sme/sme/prop_smenob.xml
    • numerals.xml - i denne er det er både N+Coll, A+Ord og Num - for MorfaC, flytta til tmp_towards-sma-format/data_sme/sme/num_smenob.xml
    • fillings.xml - kanskje vi ikke trenger den i sma-oppsettet? - flytta til tmp_towards-sma-format/data_sme/meta/fillings.xml
  • Endre attibutter og elementer til sma-stil (Lene, Ciprian)
    • <noleksa/> til exclude="smenob" - Lene: done
    • første nob-oversettelse og fin-oversettelse skal ha stat="pref" - Ciprian: done
    • <only-pl/> til gen_only="Pl" - Lene: done. (De som er igjen nouns.xml er slike som har lemma i sg. Dette er noe som ikke finnes i sma, vi får se på hvilken løsning vi velger.)
    • <only-sg/> til gen_only="Sg" - Lene: done
    • tcomm="yes" - Lene: done
    • N type="Actor" - Lene: done
    • N type="G3" - Lene: done
    • N type="Prop" - Lene: done
    • entry –> e, lemma –> l - Ciprian: done
    • <pos class="N"/> osv –> pos="n" i l-element - Ciprian: done
    • stem-attributter flyttes til l-element: trisyllabic –> 3syll, bisyllabic –> 2syll contracted –> Csyll (denne finnes ikke i sma) - Ciprian: done
    • tomme 'book name' gis dummy xxx og tomme 'sem class' gis YYY etter mønster fra sma - Ciprian done
    • tomme '<tr xml: lang="eng"/>' gis dummy-t-element med FIN-VERDI_ENG etter mønster fra sma; also for deu from nob - Ciprian done
    • add pos attributes to t-elements with default of the sme-lemmata - Ciprian: done

Utviding av smeX leksikonfilene

  • Leksikonfilene utvides med ped/sme/inc/morelemmasfromfin.csv - Ciprian done
    • hvis semantisk sett mangler -> legges foreløpig YYY (manuelt redigering etter utvidinga)
    • bokinformasjon finnes i words/dicts/smefin/inc i
      • cealkke1.csv -> c1
      • cealkke2.csv -> c2
      • cealkke3.csv -> c3
      • cealkke4.csv -> c4
      • AA.csv -> AA
    • stem, gradation, compare, diphthong, rime attributer og dialect elementer må legges til separat
    • for stat="pref" gjelder samme prinsipp som for overføring av xml-filene i smaoahpa-format: første oversetting får stat="pref"

NB: smenob/smeX leksikonfiler bør utvides med ped/sme/inc/morelemmasfromfin.csv før konvertering til nobsme og finsme.

Leksikonfiler nobsme og finsme:

  • Skal konverteres fra smenob til nobsme og finsme på samme måte som smanob til nobsma og finsma - algoritme med hensyn til statpref. Ciprian done
    • angåend filene med proper nouns, bare prop_smenob.xml skal snus til nobsme. Alle lemmaene (bortsett fra ett) i n_prop_smenob.xml finnes i prop_smenob.xml
  • Legg til ekstra sme-synonymer fra de gamle nobsme- og finsme-filene på samme som det gjort i sma fra smanob til smafin - Ciprian todo

Andre filer i sme/xml

Feedback-filer for Morfa i sme/xml - oppdateres til samme struktur som for smaOahpa - alle er flytta/kopiert til tmp_towards-sma-format/data_sme/meta/

  • feedback_adjectives.xml - Lene: done
  • feedback_adjectives_eastern.xml - Lene: done
  • feedback_nouns.xml - Lene: done
  • feedback_numerals.xml - Lene: done
  • feedback_verbs.xml - Lene: done
  • feedback_verbs_eastern.xml - Lene: done
  • messages.eng.xml - har samme struktur som sma
  • messages.fin.xml - har samme struktur som sma
  • messages.sme.xml - har samme struktur som sma
  • messages.xml - har samme struktur som sma

Filer for MorfaC i sme/xml - de har samme struktur som sma

  • grammar_defaults.xml, kopiert til tmp_towards-sma-format/data_sme/meta/
  • questions_adjectives.xml, kopiert til tmp_towards-sma-format/data_sme/meta/adjective_questions.xml
  • questions_nouns.xml, kopiert til tmp_towards-sma-format/data_sme/meta/noun_questions.xml
  • questions_numerals.xml, kopiert til tmp_towards-sma-format/data_sme/meta/noun_questions.xml
  • questions_verbs.xml, kopiert til tmp_towards-sma-format/data_sme/meta/verb_questions.xml

Filer for Vasta i sme/xml

  • cealkka.xml - påbegynt arbeid for Vasta Cealkka
  • questions_vasta.xml

Filer for Vasta og Sahka i sme/xml

  • messages_vasta.eng.xml - også for Sahka
  • messages_vasta.fin.xml - også for Sahka
  • messages_vasta.sme.xml - også for Sahka
  • messages_vasta.xml - også for Sahka

Filer for Sahka i sme/xml

  • dialogue_firstmeeting.xml
  • dialogue_firstmeeting_boy.xml
  • dialogue_firstmeeting_girl.xml
  • dialogue_firstmeeting_man.xml
  • dialogue_grocery.xml
  • dialogue_shopadj.xml
  • dialogue_visit.xml
  • dialogues.dtd

Andre viktige filer i sme/xml

  • comments.nob.xml - kommentarer til brukeren
  • semantic_sets.xml - for Leksa - oppdatert, flytta til tmp_towards-sma-format/data_sme/meta/

Diverse filer i sme/xml - ikke i bruk?

  • outcommented_propernouns.xml
  • verbs.css
  • verbs.dtd

Filer i sme/src

Pronomen i Morfa - har ikke vært implementert i smeOahpa tidligere

  • sme/src/pronounforms.csv som inneholder både lemma+morfology og ordform. Fila er konvertert til pron_nob.xml og ligger i data_sme/sme/ done
    • Added forms which should be accepted as answer from students, but not presented as facit. They are marked with the tag Use/NG.
    • Kommentar fra Ryan: me treng ikkje semantiske sett lengre, fordi det er lettare å nytta tag-setter i sme/data_sme/meta/tags.txt, slik at man kan velja 3 person eller 1 og 2 person pronomener. Det er heller ikkje noko pronomen-oppgåver i Leksa, då treng me ikkje semantiske setter for å skilja mellom deim.

Andre filer i sme/src

  • Makefile - for Sahka / Vasta
  • paradigms.txt - denne har vært brukt i smeOahpa, men erstattes nå av egne filer for hver PoS
  • a_paradigms.txt - skal brukes, kopiert til tmp_towards-sma-format/data_sme/meta/
  • n_paradigms.txt - skal brukes, kopiert til tmp_towards-sma-format/data_sme/meta/
  • v_paradigms.txt - skal brukes, kopiert til tmp_towards-sma-format/data_sme/meta/
  • prop_paradigms.txt - skal brukes, inneholder både Sg og Pl, men gen_only - attributter i leksikonfilene styrer dette, kopiert til tmp_towards-sma-format/data_sme/meta/
  • num_paradigms.txt - skal brukes, kopiert til tmp_towards-sma-format/data_sme/meta/
  • comments.nobsme - kommentarer til bruker
  • comments.sme - kommentarer til bruker
  • grammatikklinker.txt - for grammatikkmenyen - samme struktur som smaOahpa, kopiert til tmp_towards-sma-format/data_sme/meta/
  • sme-ped.cg3 - for Vasta og Sahka
  • tags.txt, kopiert til tmp_towards-sma-format/data_sme/meta/
  • adv.txt - skal ikke brukes, bør flyttes i en doc-mappe
  • pp.txt - skal ikke brukes, bør flyttes i en doc-mappe
  • conj.txt - skal ikke brukes, bør flyttes i en doc-mappe
  • prongeneration.txt - skal ikke brukes, bør flyttes i en inc-mappe

Forskjeller mellom sma vs. sme

  • Filplassering. sme: Alle leksikonfiler, oppgavefiler, feedbackfiler ligger i ped/sme/xml. sma: spredt i pedversions og ped/sma/xml og ped/sma/src.
  • Generering i sme: generering med ped/sme/src/paradigms.txt, dessuten ped/sme/src/prongeneration.txt, i sma: i meta: a_paradigms.txt, num_paradigms.txt, v_paradigms.txt, n_paradigms.txt, prop_paradigms.txt
  • Begrense generering: sma: gen_only, sme: <only-sg/> <only-pl/>
  • sma: stat_pref - sme: første t er default stat_pref
  • sma: exclude="nobsma" sme: <noleksa/>
  • sma: l-element sme: lemma-element
  • morfologisk info - sma: l-element. sme: stem-element
sma: <l margo="e" pos="n" soggi="e" stem="3syll">
sme: <stem class="bisyllabic" diphthong="yes" gradation="yes" soggi="i" rime="0"/>
  • sma: spell relax ï/i, ö/ø, osv.
  • sma: installeringsprosessen genererar alle formane som vert innført i databasen ein gong på byrjinga, sme: genererar paradigmer til kvar ord ein gong per ord