Samisk språkteknologi ved Universitetet i Tromsø
Samandrag
Samisk språkteknologi ved Universitetet har som mål å utarbeide grunnleggjande analyseverkty for ulike samiske språk, og å lage program og språkressursar til bruk i forsking, undervisning, og for samiske språkbrukarar generelt.
Arbeidet vårt kan også overførast til andre språk, og vi samanarbeider med eit tilsvarande prosjekt for grønlandsk.
Vi har laga analysatorar som er tilgjengeleg for alle på internett, og ferdig analyserte tekstsamlingar med eit brukargrensesnitt som gjer det mogleg å forske på samisk språkstruktur. Arbeidet vårt er med og dannar grunnlaget for Sametinget sitt prosjekt for ein samisk stavekontroll.
Dei analysatorane vi utarbeider for dette prosjektet er føresetnader for anna arbeid med samiske EDB-løysingar, som t.d.
- språksensitiv informasjonssøk
- tekst-til-tale
- maskinomsetjing
- automatisk handsaming av terminologi, namn, osb.
- automatisk dokumentklassifisering og anna dokumenthandsaming, skriving av samandrag, osb.
- ressursar for samisk språkforsking, som baklengsordbøker, frekvensordbøker, osb.
- interaktive pedagogiske program, til bruk både i det samiske skoleverket og for andrespråkslærarar
Fleire av desse arbeidsområda inngår i framtidsplanane våre.
Den morfologiske parsaren er basert på såkalla tonivåmorfologi, utvikla av m.a. Kimmo Koskenniemi, Lauri Karttunen og Ken Beesley. Vi tar utgangspunkt i programverkty utvikla av Xerox, framforalt twolc, lexc ogxfst.Den morfologiske disambigueraren er basert på såkalla føringsgrammatikk.
Bakgrunn
Ved Universitetet i Tromsø har det sidan 2001 vore drive forsking og utvikling innafor samisk språkteknologi.
I perioden 2001-2004, i prosjektet "Prosjekt for utarbeiding av samisk språkteknologi" utarbeidde Trond Trosterud, på grunnlag av arbeid utført av Pekka Sammallahti i 1993, ein morfofonologisk analysator for nordsamisk, ein delvis analysator for lulesamisk, og (i lag med Sjur Moshagen) ein analysator for sørsamiske substantiv.
I vår andre prosjektperiode, 2004-2006 (finansiert via NFR sitt KUNSTI-program) utarbeider vi ein disambiguator for nordsamisk og eit elektronisk søkbart korpus. I tillegg deltar vi i prosjekt for å lage pedagogisk programvare basert på analysatorane våre.
Språkteknologiske verkty
Morfologisk parsing og disambiguering
Prosjektet byggjer vidare på arbeid utført av Pekka Sammallahti, og bruker ein morfologisk parsar for nordsamisk (basert på den såkalla tonivåmodellen for morfologisk analyse), komplettert med ein parsar for lulesamisk, og evt. med utkast til parsarar for andre samiske språk.
Den morfologiske analysatoren vår for nordsamisk (og andre samiske språk) blir brukt på mange ulike vis. Den er grunnleggjande 'tovegs', dvs. at han kan nyttast både til å analysera ordformer og til å generera dei. Her følgjer ei liste med moglege bruksområde:
Ved Helsingfors universitet er det òg utvikla ein teknologi for morfologisk disambiguering og syntaktisk analyse. Han baserer seg på den såkalla føringsgrammatikken, eller Constraint Grammar-modellen, utvikla av prof. Fred Karlsson.
Det er den same teknologien Tekstlaboratoriet ved UiO bruker for å kunna laga eintydig tagga korpus for norsk (cf. http://decentius.hit.uib.no:8005/cl/cgp/test.html ). Prosjektet vil utvikla ein syntaktisk parsar for nordsamisk. Sidan dei fleste samiske språka er syntaktisk like (det er framforalt sørsamisk som skil seg frå dei andre språka her), er overføringsverdien frå eitt språk til eit anna stor, og det vil på bakgrunn av dette arbeidet vere mogleg å utarbeide tilsvarande parsarar for andre samiske språk. Ein slik syntaktisk parsar kompletterer den morfologiske modellen, og vil kunna nyttast til m.a.:
- eintydiggjering av eit morfologisk tagga korpus (fjernar analysar som ikkje er rimelege i konteksten)
- grunnteknologi i ein grammatikkontroll
- å identifisera NP-ar i setningar (det siste aspektet er veldig nyttig i terminologiarbeid, noko som er særleg viktig for samisk leksikografi og språkplanlegging no når nordsamisk blir eit administrasjonsspråk)
Språkteknologi blir sett på dagsorden i stadig nye samanhengar, og språkverkty som korrekturlesarar, staveprogram, osb. blir ein del av standardutstyret på skriveborda våre. Med innføringa av Det Universale Teiknsettet (UCS, eller Unicode) vil for første gong bokstavane i alle verdas språk vera like godt representert i maskinene, teknisk sett. Det blir dermed ei viktig oppgåve å følgje opp dette arbeidet med gode språkteknologiverkty.
I samband med eit evt. prosjekt for å utarbeide skriveverkty som ord- og grammatikkrettingsprogram trengst det og ulike slag feilkorpus:
- rettskrivingsfeil
- bøyingsfeil (manglande kongruens m.m.)
- andre feil
Slike feilkorpus er viktige, både for utviklinga av stavekontrollar (ein må kunna sjekka i kor stor grad stavekontrollen gjev korrekte forslag til rettingar), til forsking (kva feil er typiske, og kvifor), og til undervisning.
Nytte: Vitskapleg: Morfologisk og syntaktisk parsing inneber ein svært presis grammatisk analyse av samisk, i seg sjølv eit mål. I tillegg vil parsaren gjøra det mogleg å tagge det store tekstkorpuset morfologisk automatisk, og prosjektet kan dermed tilby syntaktisk forsking eit stort tagga korpus for samisk. Praktisk: Praktisk vil ein slik parsar vera av uvurdelig nytte. Det vil bli mogleg å lage pedagogiske program, t.d. i form av eit morfologisk oppslagsverk, der det er mogleg å slå opp kva bøyingsform som helst av kva samiske ord som helst. Interaktive læringsprogram vil gjere sjølvstudium lettare. Det vil og bety at det for det samiske samfunnet blir mogleg å utarbeide avanserte ordrettingsprogram. Orddeling vil kunne bli automatisert, og det vil bli mogleg å sette i gong arbeid med sikte på automatisk omsetting. For samiskstudentar som driv med sjølvstudium, distansestudium, o.l. vil ein automatisk ordrettar gjera sjølvstudiet lettare. Prosjektintern: Parsaren vil levere programvara som skal til for å lemmafisere ordformene i korpuset, og er dermed ein forutsetnad for å kunne lage frekvensordbøker innafor ramma av dette prosjektet.
Arbeid med korpus
Datamaskinelt lagra tekst er flyktig materie. Når teksten er publisert i papirformat blir han ofte liggjande på harddisken til han av ein eller annan grunn slettast, enten det skjer med ein gong, eller etter kvart som harddisken blir full eller datautstyret skifta ut. Viss materiale som i dag er lagra på harddisk skal bergast for ettertida, må det samlast inn no. Materiale som jamleg blir publisert bør komme inn i ordningar med elektronisk avlevering, evt. CD-brenning.
For samisk, som eit relativt ferskt administrativt språk, er forsking på faktisk språkbruk til stor hjelp i terminologiarbeidet. Det vil frå eit korpus vera mogleg å dra ut informasjon direkte relevant for språkplanlegging og leksikografi: Ei presis kartlegging av nyord, av lånord, og av avleiingar, vil gjera det lettare for terminologar å kartleggje dei skandinaviske og finske termane det trengst nyord for, det vil gjera det mogleg å publisere samlingar av typen "Nyord i samisk" (for å følgje utviklinga i ordforrådet).
Samisk språkteknologi i Tromsø samlar inn tekstkorpora for nordsamisk, og delvis og for dei andre samiske skriftspråka. Dette forutset avtaler med tekstprodusentar om jamnleg levering av tekstar til forsking. Heldigvis startar ikkje prosjektet på bar bakke, dei sentrale samiske avisene (Min Áigi, Áššu, Sápmeláš) har allereide avtaler med Nordisk Samisk Institutt om avlevering av materiale, dette arbeidet har pågått over fleire år . Av store eksisteriande elektroniske tekstmengder som ikkje er samla inn har vi framforalt offentlege dokument (offentlege utgreiingar og stortingsmeldingar, lover, møteprotokollar og plandokument for ulike administrative nivå), Bibelen, og skjønnlitteratur og sakprosa..
Dei samiske språka har ei lita skriftlegheit, og utvalet i korpora vil delvis vera styrt av kva som er teknisk og juridisk tilgjengeleg.
Målsettinga med det samiske korpusarbeidet er å halde fram med korpusinnsamlinga som del av Universitetet i Tromsø si verksemd også etter at prosjektperioden er over. Frå eit dokumentasjonsvitskapleg synspunkt er det viktig at korpora ikkje berre er rein tekstmasse, men representerer komplette samlingar av relevant informasjon, t.d. komplette lovstekstar, komplette møtebøker for sametinget, osb. Ein bieffekt av utviklinga av morfologiske analysereidskap (sjå ovafor) vil dermed vera at desse materiala vil bli søkbare på ein svært effektiv måte. Prosjektet vil med andre ord gjøra det mogleg å arbeide med samisk frå ein dokumentasjonsvitskapleg synsvinkel, også ovafor elektronisk lagra materiale.
Prosjektet vil overføre det innhenta elektroniske tekstmaterialet til ein harmonisert teiknkoding (dette er ein enkel automatiserbar prosess), og (så langt opphavsrettar tillet det) gjera råteksten elektronisk tilgjengeleg for forskarar frå Universitetet sine nettsider, etter mønster av andre vitskaplege korpora. Tekstane blir lagra i xml-format, dvs. med informasjon om dokumentstruktur, og med metainformasjon om tekstane.
Analyserte samiske tekstkorpora er relevant for syntaktisk og morfologisk forsking, og for stilistikk. Med store korpora er det lett å lage konkordansar (ord-i-kontekst), noko som er ei stor hjelp for ordboksforfattarar, læremiddelforfattarar og terminologar. Korpusmaterialet dannar testmateriale for dei grammatiske språkverktya og for arbeidet med ordretteprogram, og dei er råmateriale for frekvensordbøkene
Grunnlagsressursar
Ordbøker
Ordbøker som grunnlagsdokument for baklengsordbøker, med talet på oppslagsord i parantes.
Sørsamisk: Bergsland, Knut og Lajla Mattson Magga: Åarjelsaemien-daaroen baakoegærja Sydsamisk-norsk ordbok. Idut. (ca. 23500 ord)
Lulesamisk: Spiik, Nils Eric 1994: Lulesamisk ordbok. (ca. 13000 svenske oppslagsord, (kvart svenske oppslagsord har ofte fleire tilsvar på lulesamisk) til saman gir det ca. 16000-20000 lulesamiske leksem)
Nordsamisk: Sammallahti, Pekka 1989: Sámi-suoma sátnegirji Saamelais-suomalainen sanakirja. Ohcejohka, Jorgaleaddji Oy. (ca. 35000 ord)
Enaresamisk: Sammallahti, Pekka ja Matti Morottaja 1992: Inarinsaame-euomi sanakirja, evt. Itkonen, Erkki / Lea Litinen: Inainsamisches Wörterbuch.
Skoltesamisk: Sammallahti, Pekka & Jouni Mosnikoff 1991: Suomi-koltansaame sanakirja / Lää´dd-sää´m sää´nnke´rjj. Ohcejohka: Girjegiisá
Kildinsamisk: Sammallahti, Pekka & Anastasija Xvorostuxina 1991: Unna sámi-sám' sátnegirjjáš. Ohcejohka, Girjegiisá Oy. (ca. 2900 ord). I tillegg eksisterer det ei større ordbok (8000 ord); Saamsko-russkij slovar', av Rimma Kurutsj, men arbeidet med å skanne eller skrive denne ordboka inn manuelt fell utanfor ramma av dette prosjektet.
Gramatisk litteratur over nordsamisk
Magga, Ole Henrik 1982: Modalverb og infinitiv innen verbalet. Diedut 1/82.
Nickel, Klaus Peter 1989: Samisk grammatikk Oslo: Universitetsforlaget.
Sammalahti, Pekka: Norjanlapin Itä-Enontekiön murteen äänne-oppia. Memoires de la sociètè Finno-Ougrienne. Helsinki.
Nilsen, Konrad 1979 [1926-29]: Lærebok i lappisk (samisk) I-III.
Litteratur om tonivåmodellen og modellen for syntaktisk parsing:
Koskenniemi, Kimmo 1983: Two-Level Morphology: A General Computational Model for Word-Form Recognition and Production. University of Helsinki Department of General Linguistics Publications No. 11.
Karlsson, Fred, Atro Voutilainen, Juha Heikkilä & Arto Anttila (eds.) 1993: Constraint Grammar. A Language-Independent System for Parsing Unrestricted Text. Berlin: Mouton de Gruyter.
Anna relevant literatur:
Lönngren, Lennart: Chastotnyj slovar' sovremennogo russkogo jazyka. Acta universitatis upsalensis. Studia Slavica Upsaliensia 32.
Tuomi, Tuomo 1980: Suomen kielen käänteissanakirja - Reverse Dictionary of Modern Standard Finnish. Helsinki: Suomen kirjallisuuden seura.
Burnard, L. (red.) (1995): Users Reference Guide for the British National Corpus, Oxford University Computing Services
Last revision: $Date: 2006-08-02 19:31:02 +0200 (gask, 02 borg 2006) $, by $Author: trond $
by Trond Trosterud

