Om statistisk analyse

Du kan laste ned dataene og de statistiske analysene som presenteres i “Njealji davvisámi adposišuvnna geavahus”. På denne måten kan du se alle dataene og kjøre statistiske analyser på din egen datamaskin. Her viser vi deg alle trinn og gir noen kommentarer om hvordan man kan tolke resultatene, men hvis du ønsker å lære mer om statistisk analyse av lingvistiske data, anbefaler vi følgende bøker:

Baayen, R. Harald. 2008. Analyzing Linguistic Data: A Practical Introduction to Statistics Using R. Cambridge: Cambridge UP.
Gries, Stefan Th. 2009. Statistics for Linguistics with R. Berlin: Mouton de Gruyter.
Johnson, Keith. 2008. Quantitative Methods in Linguistics. Blackwell: Malden, MA.

Hvordan du kan laste ned R

Du kan laste ned R-programmet til din egen datamaskin fra denne websiden: R project webpage. På denne websiden har du tilgang til filen adp.R. Denne filen er en “R-skript” som slutter på “.R”. Denne R-skripten inneholder alle kommando som R trenger for å kjøre analysen. Du kan åpne R-skriptet og se på alle kommandoene. I tillegg har vi satt inn kommentarer til hver kommando, for å hjelpe deg å forstå analysen. Kommentarene står på linjer som begynner på “#”, og R-programmet ignorerer disse linjene.

Nå har du to valg:

Du kan bruke høyre-klikk på adp.R og laste den ned til hjemmekatalogen i datamaskinen din, hvor programmet R skal finne den. Hvis ikke du vet ikke hvor du har hjemmekatalogen, må du ta valg 2. Etter at du har lastet ned adp.R til din hjemmekatalog, skal du åpne R på datamaskinen din. Ved ">", skriv: source("adp.R") og trykk på linjeskifttast. Nå skal R hente adp.R, kjøre analysen, og gi deg resultatene.
Du kan bruke høyre-klikk på adp.R og laste den ned hvor som helst i datamaskinen din. For å kjøre adp.R, så må du gi R stien til adp.R slik at R kan hente den. For eksempel, ved ">" kan du sette inn noe som ligner på: source("/Users/janedoe/Downloads/adp.R") hvis du er Mac-bruker, eller source("C://Documents/adp.R") hvis du er PC-bruker. Hvis du kan ikke stien, så kan du finne adp.R i finderen din, slippe den over til “>” i R vinduet, og R skal vise deg stien. Da kan du kopiere stien og sette den inn i source-kommando og trykk på linjeskifttast. Nå skal R hente adp.R, kjøre analysen, og gi deg resultatene.

Hvordan du kan evaluere resultatene

Den anvendte statistiske modellen er chi-kvadrat-testen som gir oss en p-verdi. P-verdien angir sannsynligheten for at den distribusjonen vi fikk (eller en som er enda mer ekstrem) i vårt data-utvalg skyldes tilfeldigheter (dvs. sannsynligheten for at det ikke er noen forskjell i det hele tatt). Vi får også en Chi-squared verdi og hvor mange frihetsgrader (“df”) vi har, men p-verdien er viktigst her. P-verdien regnes som statistisk signifikant når det er mindre enn 0.05. For veldig små verdier brukes “vitenskapelig notasjon”: e-X, hvor X står for hvor mange plasser man flytter kommaet bakover. For eksempel er 2e-5 = 0,00002, fordi man tar 2 og flytter kommaet fem plasser bakover. 2.2e-16 er den minste tall som “R” kan regne ut for chi-squared test, og er da det samme som null.

Fordi det er mulig å få statistisk signifikans selv om effekten er veldig liten, viser vi også effektstørrelsen (Cramers V; King og Minium 2008: 327-330). Effektstørrelsen regnes ut på denne måten: kvadratrot(chi-squared verdi/summen på tabellen). Teoretisk kan effektstørrelsen variere mellom 0 og 1. Robuste størrelser er over 0.1, mindre verdier viser effekter som er for små til å rapporteres. 0.1 regnes som en liten (men robust) effekt, 0.3 som en middels stor effekt, og 0.5 som en stor effekt.]

Se på resultatene som du får fra adp.R. Rull opp i R-vinduet til du ser "maŋŋel+ aviissain ja čáppagirjjálašvuođas". Da ser du en slik tabell:

	[,1]	[,2]
[1,]	2535	1231
[2,]	90	261

Tabellen viser absolutt tall av maŋŋel+maŋŋil+maŋŋá som preposisjon og postposisjon aviissain ja čáppagirjjálašvuođas. Kolonnene er [,1] = preposišuvnda ja [,2] = postposišuvnda. Rekkene er [1,] = aviissain ja [2,] = čáppagirjjálašvuođas. Disse er tallene som står bak søylene for maŋŋel+ i Figurene 1 og 2.

Neste i R-vinduet kommer:

Pearson's Chi-squared test with Yates' continuity correction

data: mannel

X-squared = 239.4981, df = 1, p-value < 2.2e-16

Her får du chi-squared verdi, frihetsgrader og p-verdi. P-verdien er < 2.2e-16 som er liksom null. Det betyr at forskjellen i distribusjonen er statiststisk signifikant.

Neste i R-vinduet kommer:

[1] "Dette er summen på maŋŋel+-tabellen:"

[1] 4117

Her har R telt opp alle tallene i tabellen. Vi trenger denne summen for å regne ut effektstørrelsen.

Neste i R-vinduet kommer:

X-squared

0.2411907

[1] "Dette er effekt-størrelsen"

Her har R regnet ut effektstørrelsen på denne måten: kvadratrot(chi-squared verdi = 239.4981/summen på tabellen = 4117) = 0.2411907 Siden 0.2411907 er større enn 0.1, har vi en effektstørrelse som kan rapporteres som mellom liten og medium.

Det er fire mer lignende analyser i adp.R. Neste i R-vinduet kommer "Njealji ambiposišuvnna logut posišuvnna mielde golmma geográfalaš guovllus". Du får en slik tabell:

	[,1]	[,2]
[1,]	65	22
[2,]	66	87
[3,]	35	222

Tabellen viser absolutt tall som står bak Figur 3 for čáppagirjjálašvuohta. Kolonnene er [,1] = preposišuvnda ja [,2] = postposišuvnda. Rekkene er [1,] = oarjeguovllus, [2,] = guovddášguovllus, ja [3,] = nuortaguovllus.

Neste i R-vinduet kommer resultatene fra chi-squared analysen:

Pearson's Chi-squared test

data: geo

X-squared = 118.4816, df = 2, p-value < 2.2e-16

Her igjen p-verdien forteller oss at distribusjonen er statiststisk signifikant.

Neste må vi telle opp alt i tabellen:

[1] "Dette er summen på geo-tabellen:"

[1] 497

Og da kan vi regne ut effektstørrelsen:

X-squared

0.4882556

[1] "Dette er effekt-størrelsen"

Dette resultatet er større enn medium (0.3), nesten en stor effekt (0.5).

Neste i R-vinduet kommer: "miehtá: juohkin mearkkašumi mielde aviissain" og du får en slik tabell:

	[,1]	[,2]
[1,]	105	5
[2,]	16	0
[3,]	12	95

Tabellen viser tall fra Tabealla 3: Ambiposišuvnnat juohkin mearkkašumi mielde – aviissain ja čáppagirjjálašvuođas. Kolonnene er [,1] = preposišuvnda ja [,2] = postposišuvnda. Rekkene er [1,] = VIIDODAT, [2,] = LIHKADEAPMI, ja [3,] = ÁIGI.

Neste i R-vinduet kommer resultatene fra chi-squared analysen:

Pearson's Chi-squared test

data: miehta

X-squared = 170.0291, df = 2, p-value < 2.2e-16

Her igjen p-verdien forteller oss at distribusjonen er statiststisk signifikant.

Neste må vi telle opp alt i tabellen:

[1] "Dette er summen på miehta-tabellen:"

[1] 233

Og da kan vi regne ut effektstørrelsen:

X-squared

0.8542474

[1] "Dette er effekt-størrelsen"

Her har vi en verdi som er my større en stor (0.5).

Neste i R-vinduet kommer: "čađa: juohkin mearkkašumi mielde aviissain" og du får en slik tabell:

	[,1]	[,2]
[1,]	0	40
[2,]	38	78
[3,]	56	37

Neste i R-vinduet kommer resultatene fra chi-squared analysen:

Pearson's Chi-squared test

data: cada

X-squared = 45.4593, df = 2, p-value = 1.345e-10

Her igjen p-verdien forteller oss at distribusjonen er statiststisk signifikant.

Neste må vi telle opp alt i tabellen:

[1] "Dette er summen på čađa-tabellen:"

[1] 249

Og da kan vi regne ut effektstørrelsen:

X-squared

0.4272791

[1] "Dette er effekt-størrelsen"

Denne effektstørrelsen er mellom medium (0.3) og stor (0.5).

Neste i R-vinduet kommer: "rastá: juohkin mearkkašumi mielde aviissain" og du får en slik tabell:

	[,1]	[,2]
[1,]	23	44
[2,]	77	47

Neste i R-vinduet kommer resultatene fra chi-squared analysen:

Pearson's Chi-squared test with Yates' continuity correction

data: rasta

X-squared = 12.3558, df = 1, p-value = 0.0004396

Her igjen p-verdien forteller oss at distribusjonen er statiststisk signifikant.

Neste må vi telle opp alt i tabellen:

[1] "Dette er summen på rastá-tabellen:"

[1] 191

Og da kan vi regne ut effektstørrelsen:

X-squared

0.2543420

[1] "Dette er effekt-størrelsen"

Denne effektstørrelsen er mellom liten og medium.