Bug 2041 - Problematisk med en del ord med -ŋg-
Summary: Problematisk med en del ord med -ŋg-
Status: ASSIGNED
Alias: None
Product: Text-to-speech
Classification: Unclassified
Component: sme (Acapela) (show other bugs)
Version: unspecified
Hardware: Macintosh Other
: P5 - Later enhancement
Assignee: Sjur Nørstebø Moshagen
URL:
Keywords:
Depends on:
Blocks:
 
Reported: 2015-05-02 19:06 CEST by Lene Antonsen
Modified: 2017-03-02 16:01 CET (History)
5 users (show)

See Also:


Attachments

Note You need to log in before you can comment on or make changes to this bug.
Description Lene Antonsen 2015-05-02 19:06:34 CEST
Det er problematisk med en del ord med -ŋg- 
Grunnen er nok at den den samiske rettskrivinga ikke er helt logisk, fordi en del ord som uttales med -ŋŋ- likevel skrives med -ŋg-.

Eksempel på problematiske ord:
CD-siŋgel
balkoŋga
basseaŋga (men ordet kan også skrives basseaŋŋa)
betoŋga

 (eller kanskje uttalen i Kautokeinodialekta er slik???)
Comment 1 Sjur Nørstebø Moshagen 2015-08-17 12:59:30 CEST
Skal ta det opp med Acapela.
Comment 2 Sjur Nørstebø Moshagen 2015-09-21 10:32:07 CEST
No need to have Biret Ánne and Ritva on the CC list anymore.
Comment 3 Sjur Nørstebø Moshagen 2015-09-21 10:45:34 CEST
Eg var for kjapp med å fjerna Biret Ánne frå CC-lista. Denne meldinga gjeld talesyntesen, så eg reknar med at det er ok å få e-post dersom det skjer noko i saka.
Comment 4 Sjur Nørstebø Moshagen 2017-03-02 08:56:18 CET
Denne er ikkje løyst med siste versjon frå Acapela. I og med at ortografien er inkonsisten bør slike ord inn i ei unnataksordliste. Det har tydelegvis ikkje skjedd i oppdateringa, så vi må høyra med Acapela om vi kan få det med ein annan gong. Det å leggja inn slike ord i ei unntaksordliste burde ikkje vera ein stor jobb.

Dersom de finn fleire ord med same feil så ville det vera bra å leggja dei inn her.
Comment 5 Lene Antonsen 2017-03-02 09:50:21 CET
En del av ordene er lagt inn under lemma med ŋŋ i nouns-leksikonet:

Jeg ser at vi har både ŋg og ŋ'g på høyresiden av kolon, dette burde Thomas se på, 

egrep "ŋŋ.*:.*(ŋg|ŋ'g)" src/morphology/stems/nouns.lexc |cut -d '+' -f1 | sort -u 
 gir følgende liste:

asfáltabetoŋga
balkoŋga
balloŋga
baloŋgabuvssat
betoŋga
betoŋgalohkki
betoŋgaluodda
betoŋgamillu
diftoŋga
diftoŋganjuolgan
dálkeiskanballoŋga
dálvesesoŋga
ea-diftoŋga
geassesesoŋga
giđđasesoŋga
guolástansesoŋga
ie-diftoŋga
kartoŋga
kupoŋga
maŋgeroaŋga
monoftoŋga
oa-diftoŋga
saloŋgavovdna
saloŋgavávdna
sesoŋga
sesoŋgaáigi
sviŋga
tampoŋga
ua-diftoŋga
uo-diftoŋga
vuoktasaloŋga
čakčasesoŋga
šargoŋga
čuoigansesoŋga
šáŋger

I tillegg så er det nok noen ord som er oppført med -ŋg- i lemmaet, men her finner vi også ord som ikke har -ŋŋ- uttale, så denne lista må gjennomgås manuelt (og endres oppføring for de ordene som er aktuelle). Dette burde Thomas se på, derfor setter jeg Thomas som assignee

grep 'ŋg.*:' src/morphology/stems/nouns.lexc |cut -d '+' -f1 | sort -u |l

Kandidater er bl.a.:
basseaŋga
doŋgeribuvssat
Comment 6 Lene Antonsen 2017-03-02 09:54:04 CET
Jeg ser at et ord kom med på lista, men det hører ikke til i gjengen, men var resultat av en litt for lettvint UNIX-kommando
stryk: maŋgeroaŋga (maŋŋeroaŋga)
Comment 7 Thomas Omma 2017-03-02 12:57:15 CET
sme $ svn ci -m "no more normalizing for ŋŋ vs ŋg, bug2041" src
Sending    src/morphology/stems/nouns.lexc
Transmitting file data .
Committed revision 149376.
Comment 8 Lene Antonsen 2017-03-02 13:18:39 CET
(In reply to Thomas Omma from comment #7)
> sme $ svn ci -m "no more normalizing for ŋŋ vs ŋg, bug2041" src
> Sending    src/morphology/stems/nouns.lexc
> Transmitting file data .
> Committed revision 149376.

fra innsjekkinga:
+betoŋgalohkki+Sem/Obj:betoŋga#lohkki GOAHTI-I ;
+betoŋgaluodda+Sem/Route:betoŋga#luodda GOAHTI-A ;
+betoŋŋalohkki+Sem/Obj:betoŋŋa#lohkki GOAHTI-I ;
+betoŋŋaluodda+Sem/Route:betoŋŋa#luodda GOAHTI-A ;

Jeg prøver å forstå dette:
Begge er norm? ŋg og ŋŋ ?
1) selv om begge er norm, så er det en fordel at de er under samme lemma, så jeg er uenig i løsninga med å splitte i to lemmaer
2) Buggen gjelder lista over ord som skrives med ŋg men skal uttales som ŋŋ i Acapela.
Ved å bruke det opprinnelige systemet med ŋŋ i lemma også for ord som kan skrives med ŋg (altså legge slike former til høyre for :), så vil man lett kunne greppe ut ordliste til Acapella
egrep "ŋŋ.*:.*(ŋg|ŋ'g)" src/morphology/stems/nouns.lexc |cut -d '+' -f1 | sort -u | sed 's/ŋŋ/ŋŋ/'

3) Jeg tenkte det ville være lurt å se på ord som var oppført med ŋg som lemma (eks basseaŋga) også hører inn under kategorien som skal uttales med ŋŋ. Hvis det er så at norm også er basseaŋŋa, så burde slike ord legges inn på samme måte som vi hadde diftoŋŋa, med diftoŋga til høyre. 
Dessuten stusset jeg på at noen hadde ŋg og andre hadde ŋ'g til høyre for kolon.

Jeg reåpner buggen.
Comment 9 Lene Antonsen 2017-03-02 13:20:21 CET
> egrep "ŋŋ.*:.*(ŋg|ŋ'g)" src/morphology/stems/nouns.lexc |cut -d '+' -f1 |
> sort -u | sed 's/ŋŋ/ŋŋ/'

den siste skulle være sed 's/ŋŋ/ŋg/' 
hensikten er å få ŋg i lista til Acapella
Comment 10 Thomas Omma 2017-03-02 14:21:33 CET
sme $ svn ci -m "Bug2041, normalized ŋŋ vs ng and added more variants" src
Sending    src/morphology/stems/nouns.lexc
Transmitting file data .
Committed revision 149388.
Comment 11 Lene Antonsen 2017-03-02 15:26:20 CET
Sender denne tilbake til sjur, buggen er enda ikke løst i forhold til Acapella
Comment 12 Sjur Nørstebø Moshagen 2017-03-02 16:01:07 CET
Det er prinsipielt fire typar ord:

1) dei som skal skrivast ŋŋ og få ŋŋ-uttale
2) dei som skal skrivast ŋŋ og få ŋg-uttale
3) dei som skal skrivast ŋg og få ng-uttale
4) dei som skal skrivast ŋg og få ŋŋ-uttale

1) er ok, systemet oppfører seg rett
2) går eg ut frå ikkje finst - dei er i så fall skrivefeil, og då er ŋŋ-lesinga ok (slik at folk høyrer feilen)
3) er ok - systemet oppfører seg rett
4) må ein rekna som ortografiske unnatak, og må listast opp (dvs vi må senda ei liste med slike ord til Acapela)

Problemet er altså å skilja mellom 3) og 4), og det finst ingen andre måtar å gjera det på enn ved å laga ei liste. For alle ord utanfor denne lista vil talesyntesten gje ŋg-uttale, som i dei fleste fall er ok (det er anten korrekt eller avslører ein skrivefeil).

Kandidatar til denne lista kan de leggja inn i denne bugzilla-meldinga, så skal eg senda ho til Acapela ved passande høve.