UIT The arctic university of Norway > Giellatekno
 

Čállinmeattáhusaid guorran – Tracking misspellings

Čállinmeattáhusaid guorran

Lean guorahallan davvisámegiel teavsttaid maid lean viežžan interneahtas Norggas ja Suomas oaidnin dihte mo čállit hálddašit čállingiela, ja mat leat dábáleamos čállinmeattáhusat. Dutkanmateriálas 4 % sániin eai leat čállojuvvon norpma mielde, ja analysa čájeha ahte ii leat doarvái dušše máhttit iežas dadjama ja čállingiela njuolgga oktavuođa, muhto eksplisihtta grammatihkkamáhttu lea maiddái dárbbašlaš. Stuorimus čuolmmat leat earuhit čállingiela a ja á, ja čállit konsonántaguovddáža riekta, ja erenoamážit sániin main lea i-mátta bohciidit váttisvuođat sojahangehčosiin. Čálli dárbbaša maiddái diehtit mo heivehit loatnasániid ja lasihit kásusgehčosiid initiálaoanádusaide ja loguide. Sátnedárkkistanprográmma fuomášuhttá 78 % čállinmeattáhusain, ja 82 %:s dain dáhpáhusain, de prográmma fállá čállái rivttes hámi.

Artihkal lea almmuhuvvon dás: Sámi dieđalaš áigečállagis 2013/2.

Lene Antonsen

Tracking misspellings

The article presents a study of North Saami texts published in Norway and Finland and collected from the Internet in order to see how native writers master the orthography, and what kind of misspellings are the most frequent ones. In the material 4% of the words are not written according to the norm. The analysis of the material reveals that it is not enough to know the relationship between one's pronunciation and the rules of the orthography, but knowledge of formal grammar is also necessary. The biggest problem is to distinguish between a and á, and to write the consonant centre of the word correctly. Finding the correct combination of stem and suffix is problematic, especially for i-stems. The writer also needs to know how to adapt loan words to the orthography, and the existent of a wide range of possible variants of some frequent loan words only makes it worse. The relatively biggest group of misspellings contains incorrect case suffixing of acronyms and numbers. The rules are complex, and contra intuitive. The North Saami spell checking program discovers 78% of the misspellings, and offers the correct spelling among the 5 first candidates, in 82% of the cases.

The article is published in Sámi dieđalaš áigečála 2013/2.

Lene Antonsen

Dutkanmateriála

Dutkanmateriálan leat teavsttat maid lean čoaggán interneahtas jagiid 2010–2012. Vuolábeal fiillas leat cealkagat maidda lean merken čállinmeattáhusa.

Dutkanmateriála

Fonotávttalaš posišuvnnaid merken:

  • coninit: álgu
  • vowc: vokálaguovddáš
  • conc: konsonántaguovddáš
  • vowlat: soggi
  • conm: konsonántaravda
  • vowm: vokálaravda
  • fin: loahppa
  • cons: skárru

Testenbohtosat – Testbench results

Dutkanmateriála lea analyserejuvvon testenprográmmain masa lean lasihan Divvuma veršuvnna 2.3 oaidnin dihte man bures prográmma máhttá evttohit relevánta sáni čállái.

Artihkkalis in leat beroštan sániid oktii dahje sierra čállimis. Testenprográmma váldá dattetge dan vuhtii, ja dan dihte čájehit testenbohtosat eanet čállinmeattáhusaid go daid maid mun lean váldán vuhtii artihkkalis.

Háliidin guorahallat man muttus prográmma lea čállái veahkkin, ja dan dihte lean annoteren maiddái duohta-sátni-meattáhusaid. Divvun-prográmma ii máhte daid gávdnat danne go prográmma ii váldde konteavstta vuhtii. Lean maiddái guođđán eanaš sátnemeattáhusaid merkekeahttájin. Dán ládje dát testen spiehkasta dábálaš sátnedárkkistanprográmma testemis.

Juohke evttohussii lea merkejuvvon lohku ruođuid siste, omd. (220) Máhttodepartemeantan. Lohku muitala galle čuoggá prográmma algoritma lea addán evttohussii. Čuoggát vuođđuduvvet divvungaskii, bustávaid rievdadannjuolggadusaide ja maiddái Microsoft iežas njuolggadusaide mat eai leat dihtosis, ja mo dát bealit leat vuoruhuvvon nubbi nuppi ektui. Mađe stuorit lohku, dađe badjeleappos listtus lea evttohus.

Testenbohtosat