UIT The arctic university of Norway > Giellatekno
 

unix_korpus_kursa

Unix ja Divvunkurssat

1. Unix-gohččumat korpusohcamii

Fiillat maiguin sáhttá stoahkat

info ja man (= manual) ja --h

Dieđut gohččumiid birra

  • info cat
  • man cat
  • kwic-snt --h

cat (= concatenate)

"váldde"

  • cat fiila1.txt (váldde ovtta fiilla)
  • cat fiila1.txt fiila2.txt (váldde máŋga fiilla)
  • cat *.txt (váldde buot fiilla main lea .txt loahpas)
  • cat skuvla* (váldde buot fiilla main lea skuvla álggus)
  • cat -n fiila.txt (váldde fiilla ja nummirastte linnjáid)

pipe (boallobeavddis:Alt 7)

"ja de"

|
cat fiila.txt | less
cat fiila.txt | sort | uniq > boadus.txt

less (= opposite of more) (modus)

"čájet sisdoalu"

  • space (bláđe vulos)
  • b (bláđe bajás)
  • g (mana fiilla álgui)
  • G (mana fiilla lohppii)
  • nummir g (mana linnjánummárii)
  • /xxx (oza sreaŋgga xxx)

wc (= word count)

"rehkenastte"

  • -l (galle linnjá)
    • wc -l
  • -w (galle sáni)
    • wc -w

kwic-snt

"čájet xxx ja dan birrasa"

  • -w (= width) (viidodat, default = 80)
    • kwic-snt -w 150 xxx
  • -m (= most)(galle dáhpáhusa, default = 100)
    • kwic-snt -m 500 xxx
  • -b (= before) (sortere gurutbeal konteavstta mielde)

grep (= get regular expression), egrep (= extended grep)

"atte buot linnjáid mat sisttisdollet xxx"

  • -c (galle linnjá)
    • grep -c xxx
  • $ (linnjá loahpas)
    • grep "xxx$"
  • ^ (linnjá álggus)
    • grep "^xxx"
  • -v (mat eai sisttisdoala xxx)
    • grep -v xxx
  • grep-ovdamearkkat:
			(Váldde linnjáid mat sisttisdollet:)
grep "láhk[aá]i" 	(láhkai dahje láhkái)
grep "[A-ZČŠŽŊĐŦ]" 	(ovtta dáin bustávain: ABCD....)
grep "[0-9]" 		(ovtta dáin loguin: 0123...)
grep -v "[0-9]" 	(main ii leat lohku)
grep "[139]" 		(ovtta dáin loguin: 139)
grep "139" 		(139)
  • egrep (viiddiduvvon)
    • egrep "(xxx|yyy)" (main lea juogo xxx dahje yyy)

regex

Moadde regex-vejolašvuođa:

.		vaikko makkár mearka
*		vaikko man galle
\ 		dahká ahte ii dulkojuvvo regex:n, omd. \* mearkkaša *

grep "A.*A"	(váldde linnjáid main leat unnimusat guokte A)

tr

"buhtte x y: in"

  • tr "x" "y"

preprocess --abbr=abbr.txt

  • skripta mii juohká teavstta nu ahte juohke linnjás lea dušše okta sátni.
  • --abbr váldá vuhtii oanádusaid ja multi word expressions (juohke gielas lea iežas abbr-fiila)

sort

"sortere linnjáid alfabehtalaččat"

  • -nr (sortere nummára mielde)
    • sort -nr
  • -u (sortere ja unifisere)
    • sort -u
  • -r (sortere reverserejuvvon alfabehta mielde)
    • sort -r
  • -o (= output, vurke fiilan)
    • sort -o infile.txt outfile.txt

uniq

"unifisere linnjáid"

  • -c (= count, galle dáhpáhusa)
    • uniq -c

rev

"reversere linnjáid"

sed

"buhtte xxx yyy: in"

  • sed "s/xxx/yyy/g"

cut

"čuohpa linnjá"

  • -d (= delimiter, default lea TAB)
    • cut -d " "
  • -f (= field, ja váldde vára)
    • cut -d " " -f2
    • cut -d " " -f2,3,5
    • cut -d " " -f2-

Repetišuvdna

  • kommando -vuohki objekta
  • man kommando
  • info kommando
  • pipe

Bargobihtát:

Gieđahallat muhtun txt-fiilla:

  1. iskka fiillaid sturrodagaid
  2. oza dihto sreaŋggaid lessas
  3. oza dihto sániid, gehčosiid, prefivssaid. Geavat grep ja kwic-snt, ja buohtastahte bohtosiid
  4. oaččo ovtta sáni juohke linnjái: buohtastahte preprocess ja preprocess --abbr
  5. ráhkat frekveansaslisttu
  6. váldde sániid dihto prefivssain: sortere ja unifisere sihke sáni álggu ja loahpa mielde
  7. oaččo ovtta cealkaga juohke linnjái

2. Divvun-kursa

Bargat Divvun-serveris

Divvun korpus – galle sáni 30.11.12

šládja sme sma smj
admin 7.860.863 110.581 124.795
bible 505.352 50.746 83.971
facta 1.244.686 190.874 128.286
ficti 231.908 144.582 41.507
laws 797.721 0 0
news 11.004.732 281 8.346
oktiibuot 21.645.262 497.064 386.905

Oassi davvisámegiela teavsttain leat jorgalusat dárogielas, ja mii bálddalaston sámi/dáru cealkagiid:

  • sme: 2.121.438, nob: 2.449.382

korpus

Mo beassat korpusii:

cd ../hoavda/Public/corp/

Analysed-máhpain leat dákkár fiillat:

  • ccat: buhtes teaksta
  • preprocess (rievtti mielde multi): buot vejolaš morfologalaš analysat
  • dis: doaivvu mielde rivttes morfologalaš analysa pluss syntávttalaš gilkor
  • dep: dependeansanummáriin

huksehus, ja mo navigeret

gos lean ja gosa áiggun?

  • pwd (= print working directiory) (gos lean?)
  • ls (= list) (čájet dán máhpa sisdoalu)
  • ll (= long list) (čájet dán máhpa sisdoalu buot dieđuiguin)
  • mkdir (= make directory)
    • mkdir kurssadir (ráhkat kursadir-nammasaš máhpa)
  • cd (= change directory)
    • cd kurssadir (mana kursadir-nammasaš máhppii)
    • cd .. (mana ovtta ceahki ruovttoluotta)
    • cd ../.. (mana guokte ceahki ruovttoluotta)
    • cd (mana ruovttumáhppii)

ccat

"váldde xml-fiilla tevstta"

alias

mo doaibmá, mo ráhkadit

  • less .bashrc
  • emacs .bashrc / see .bashrc

svn up

"ođasmahte buot fiillaid dán máhpas ja buot máhpain mat leat dan vuolábealde"

  • svnup (skripta mii ođasmahte buot fiillaid dihto máhpain)

analysáhtoriid kompileren

"ráhkat davvisámi morfologalaš analysáhtora"

  • make GTLANG=sme (go leat gt-máhpas)
  • Beassat analysáhtor-modusii aliasa bokte:
    • usme (deskriptiiva analysáhtor) ja usmeNorm (normatiiva analysáhtor)
    • dsme (deskriptiiva generáhtor) ja dsmeNorm (normatiiva generáhtor)
  • Beassat eret dán modusis: Ctrl c

"ráhkat lullisámi/julevsámi morfologalaš analysáhtora"

(go leat main/langs/sma dahje main/langs/smj -máhpas):

  • dáid gohččomiid maŋŋelaga:
    • ./autogen.sh
    • ./configure
    • make
  • Beassat analysáhtor-modusii aliasa bokte:
    • usma dahje usmj (deskriptiiva analysáhtorat) ja usmaNorm dahje usmjNorm (normatiiva analysáhtorat)
    • dsma dahje dsmj (deskriptiiva generáhtorat) ja dsmaNorm dahje dsmjNorm (normatiiva generáhtorat)
  • Beassat eret dán modusis: Ctrl c