Bug 2475 - all_langs: punctuation.lexc
Summary: all_langs: punctuation.lexc
Status: RESOLVED FIXED
Alias: None
Product: smi-lexicon
Classification: Unclassified
Component: Tags (show other bugs)
Version: unspecified
Hardware: All All
: P4 - Within a month normal
Assignee: Sjur Nørstebø Moshagen
URL:
Keywords:
Depends on: 2523 2525 2526
Blocks: 2524
  Show dependency treegraph
 
Reported: 2018-05-08 09:41 CEST by Lene Antonsen
Modified: 2019-03-13 22:38 CET (History)
7 users (show)

See Also:


Attachments

Note You need to log in before you can comment on or make changes to this bug.
Description Lene Antonsen 2018-05-08 09:41:15 CEST
Vi har snakket om dette på møte, men jeg lager bz fordi jeg regner med at det blir en del testing og diskusjon om løsninger. Ikke minst så må vi nok for de forskjellig språkene tilpasse fortsettelsesleksikonene for numeraler.

Jeg har sjekket inn i all_langs/src/morphology/stems : arabic_roman_digits.lexc og punctuation.lexc

Disse skal legges inn i bygginga for de samiske språkene (alle språk?):

punctuation.lexc istedenfor lokal punctuation.lexc
arabic_roman_digits.lexc i tillegg til numerals.lexc

Arabiske og romertall må så fjernes fra lokale numerals.lexc (ikke kasus-leksikoner). 

Det er en bra om dette arbeidet kan bli gjort nokså snart, fordi vi arbeider med syntaktisk analyse for sma, og numerals.lexc for sma mangler mye av det vi har bygd opp i sme. Burde vi kopiere fra sme til sma som en foreløpig løsning?
Comment 1 Lene Antonsen 2018-05-08 23:39:06 CEST
Forslag: en felles liste over acronymer som er propernouns (dvs NATO osv). Kanskje vi kunne legge dem i smi-propernouns (men til ACRO-leksikoner)?
Comment 2 Sjur Nørstebø Moshagen 2018-09-13 13:07:08 CEST
No har eg endra bygginga for dei aller fleste språka til å nytta felles punctuation.lexc. Det er nokre unnatak:

* alle smX-språka pga '7 - dette må det ryddast opp i
* fin - har kanskje den mest komplette og best dokumenterte lista over alle punktteikn - kan fungera som inspirasjon og kjelde for fleire teikn
* nokre andre språk som hadde veldig avvikande punktfil

Sjå kommentarar i loggmeldinga for innsjekkingane 170813, 170820 og 170821.
Comment 3 Sjur Nørstebø Moshagen 2018-09-14 08:56:07 CEST
For å gjera diskusjonen her lettare, her er det sentrale eg skreiv i dei innsjekkingsmeldingane:

Språk med avvikande punktteiknsfil:

startup-langs/:
epo, grn, hin, iku, tel, tgl

langs/:
ciw, ipk, nio, som, udm, vep

Alle desse språka har korte filer, med eit veldig lite utval teikn, og med heilt andre tæggar enn andre språk. Er det ein sakleg grunn til det, eller er det berre dårleg arv? Dersom det er det siste, så er det berre å hiva ut dei gamle filene, og peika til fellesfila. Peikaren ligg allereie i make-fila, men utkommentert.

Trond, kan du sjå på dette? Det er truleg du som kjenner til desse filene.

Når det gjeld finsk og samiske smX-språk, så er det viktigaste alt nemnt i den førre merknaden.
Comment 4 Sjur Nørstebø Moshagen 2018-09-21 12:51:03 CEST
(In reply to Sjur Nørstebø Moshagen from comment #3)
> Språk med avvikande punktteiknsfil:
> 
> startup-langs/:
> epo, grn, hin, iku, tel, tgl
> 
> langs/:
> ciw, ipk, nio, som, udm, vep
[...]
> Trond, kan du sjå på dette? Det er truleg du som kjenner til desse filene.

Vi prata om det på møte tidlegare i veka, og vart samde om at eg ryddar opp i dei. Det er gjort i og med innsjekkinga i rev. 171131.

Då er det berre dei samiske språka som står att. Dei vart òg prata om på møtet, og dei krev litt meir arbeid. Kjem etter kvart.
Comment 5 Sjur Nørstebø Moshagen 2018-10-24 19:43:02 CEST
(In reply to Sjur Nørstebø Moshagen from comment #4)
> Då er det berre dei samiske språka som står att. Dei vart òg prata om på
> møtet, og dei krev litt meir arbeid. Kjem etter kvart.

SMS og SMA er ordna, og over på ny felles punctuation-fil. Det som står att no er SME, SMJ og SMN.
Comment 6 Sjur Nørstebø Moshagen 2018-10-25 09:09:17 CEST
(In reply to Sjur Nørstebø Moshagen from comment #5)
> Det som står att
> no er SME, SMJ og SMN.

Dette er dei ekte Konrad Nielsen-språka, dvs dei treng eit KN-symbol intenrnt. Det beste er å byta til eit anna symbol, slik at enkel apostrof kan få vera seg sjølv. Eg føreslår at vi byter til:

º

Døme:

jođáhat+Sem/Dummytag:jođáhahºk JOHTOLAT ;

Argument for:
* det er lett å skriva (Alt-Skift-K på det norske tastaturet)
* det skil seg ut grafisk, og liknar _litt_ på det gamle (ein liten dings over tekstlina)
* det er lite sannsynleg at det er eit teikn som kan bli brukt i samisk
* det er ikkje eit punktteikn, og kjem dermed ikkje i konflikt med fellesfila
* det blir rekna som ein bokstav, slik at dobbeltklikk m.m. funkar

Argument mot:
* det er for stort og utydeleg, liknar for mykje på andre bokstavar

Andre alternative symbol:

† - jođáhah†k:
* mot:
** ikkje bokstav, dobbeltklikk funkar ikkje
* for:
** skil seg meir ut
** like lett å skriva (Alt-T)

• - jođáhah•k:
* mot:
** ikkje bokstav, dobbeltklikk funkar ikkje
* for:
** skil seg meir ut
** like lett å skriva (Alt-Q)

Alle tre forslaga har same plassering på det norske og finske tastaturet. MEN: INGEN av dei kan skrivast med dei samiske tastatura.

Synspunkt? Andre forslag?
Comment 7 Sjur Nørstebø Moshagen 2018-10-25 16:03:42 CEST
Ingen kommentarar?

(In reply to Sjur Nørstebø Moshagen from comment #6)
> º - jođáhahºk
> † - jođáhah†k
> • - jođáhah•k

Eg vil gjerne få unna dette her så fort som råd, så vi kan gå vidare med andre ting.

Eg hadde tenkt å føreslå • pga utsjånaden, men så kom eg på at det jo er eit punktteikn, så det går ikkje. Det same gjeld potensielt † og ‡ (dei er ikkje med i punktfila no, men om dei skal med i analysatoren, så er det rimeleg å leggja dei der).

Då er det anten º eller eit heilt anna teikn som gjeld. Dei aller fleste andre alternativa vil vera utanfor Latin1, og vil dermed vera vanskelege å skriva, så då blir det klypp og lim i staden.

Her er nokre forslag - men desse er alle punktteikn i Unicode, og er dermed problematiske:

′ - PRIME / U+2032
″ - DOUBLE PRIME / U+2033
‵ - REVERSED PRIME / U+2035
‶ - REVERSED DOUBLE PRIME / U+2036

Forslag frå matematiske symbol:

⌠ - TOP HALF INTEGRAL / U+2320
⊤ - DOWN TACK / U+22A4
⊺ - INTERCALATE / U+22BA

Kom gjerne med andre forslag!

Synspunkt før lunsj i morgon, deretter set eg i gang med endringa.
Comment 8 Maja Lisa Kappfjell 2018-10-25 16:08:15 CEST
Heisann!

Jeg har ingen mening, da dette lite gjelder sma.

Maja
Comment 9 Lene Antonsen 2018-10-25 16:16:09 CEST
Jeg foretrekker º

Flott at du fikser dette.
Comment 10 Trond Trosterud 2018-10-25 17:47:48 CEST
Eg er samd med Lene, på begge punkt.
Comment 11 Sjur Nørstebø Moshagen 2018-10-25 18:27:11 CEST
Før vi bestemmer oss, så er det ein opplagt kandidat vi/eg har gløymt:

ʹ - MODIFIER LETTER PRIME

* som namnet seier så er det ein bokstav, og ikkje punktteikn
* det er det teiknet som blir brukt i SMS, for det same formålet(?)
* det ser ut som det gamle KN-merket (eller er veldig nære i alle fall)
* og det er lett å skriva med SMS-tastaturet (hm, vi skulle kunna leggja det inn i alle samiske tastatur, ut frå prinsippet vi har for mobiltastatura: det skal vera mogleg å skriva alle samiske språk med tastatura for alle dei andre samiske språka)

Dømet eg har brukt tidlegare vil då bli sjåande slik ut:

ʹ - jođáhahʹk

Skilnaden mellom SMS og dei andre språka som bruker KN blir då at SMS har han synleg, medan SM[EJN] berre har han til intern bruk. Men kanskje eg tek feil når det gjeld bruken i SMS.

Uansett - kva synest de om dette forslaget?
Comment 12 Trond Trosterud 2018-10-25 21:16:03 CEST
Dette var ei overraskande vending. For balansen si skuld, her er eit par innvendingar:

- Bokstven er PRIME (dvs. aksenten står på skrå), mens KN sitt teikn sto rett opp og ned)
- Det kan vere ei ulempe at vi brukar eit teikn som skal vere synleg med eitt som ikkje skal vere det. Rett nok gjeld dette ulike språk, men vi har ein del språkuavhengig prosessering, og ein del kontekstar der språka er blanda. Såpnn sett er det tryggare å ha eit teikn som ingen nokon sinne skal sjå.
Comment 13 Sjur Nørstebø Moshagen 2018-10-26 07:57:54 CEST
(In reply to Trond Trosterud from comment #12)
> Dette var ei overraskande vending.

Det mest overraskande etter mitt syn er at ingen har kome med dette forslaget tidlegare :-)

> For balansen si skuld, her er eit par
> innvendingar:
> 
> - Bokstven er PRIME (dvs. aksenten står på skrå), mens KN sitt teikn sto
> rett opp og ned)

Og kva då med º ;)

Eg trur det er ein fordel at han liknar ganske mykje (det med at han skal vera lik er ikkje noko poeng).

> - Det kan vere ei ulempe at vi brukar eit teikn som skal vere synleg med
> eitt som ikkje skal vere det. Rett nok gjeld dette ulike språk, men vi har
> ein del språkuavhengig prosessering, og ein del kontekstar der språka er
> blanda. Såpnn sett er det tryggare å ha eit teikn som ingen nokon sinne skal
> sjå.

Eg er usamd. Tvert i mot trur eg at det er ein fordel at vi nyttar same teikn for same fenomen (atterhald ein gong til: eg kan ikkje nok om SMS til å seia at det faktisk er det same, eg berre trur det). Skilnaden i synleg/ikkje-synleg er ein enkel twolc-definisjon:

SMS:  ʹ:ʹ

SME/SMJ: ʹ:0

Og dersom det skulle vera ulike funksjonar med dette teiknet i SMS vs KN i SME/SMJ så er det jo framleis ein triviell sak å endra ʹ til noko anna for smi-propernouns.lexc (det er berre 10 oppføringar som har KN-teiknet).

Stoda no er altså:

' - jođáhah'k - apostrof, slik det er no (og som vi ikkje kan ha)
ʹ - jođáhahʹk - modifier letter prime
º - jođáhahºk - masculine ordinal indicator

Elles så finst det ei stor mengde andre modifier letter å ta av, inklusive 'modifier letter vertical line', som ser ut som KN-teiknet. Men det kan vera eit poeng å halda seg til det same som SMS, og det kan òg vera eit poeng å ha noko som visuelt er noko ulikt vanleg apostrof, slik at ein lettare kan sjå feilkoding i lexc.

Kva synest de?
Comment 14 Lene Antonsen 2018-10-26 09:00:52 CEST
Her er oppføringene med KN i smi-prop.: 

Erke+OLang/UND:Er'ke ACCRA-mal ;
Marda+OLang/NOB:Mar'da ACCRA-plc ;
Siskind+OLang/NOB:Siskin'd9 BERN-sur ;
Lappekodicilla+OLang/UND:Lappe#kodicil'la ACCRA-obj ;
Lappekodisilla+OLang/UND:Lappe#kodisil'la ACCRA-obj ;
eNorga+OLang/UND:e#Nor'ga ACCRA-org ;
eSkuvla+OLang/UND:e#Skuv'la ACCRA-org ;
Ædnansærvi+OLang/UND:Ædnan#sær'v PIPPI-org ;
Meahcce-Vulle+OLang/UND:Meahcce-Vul'le ACCRA-mal ;


Slik som jeg har forstått det, så skal samiske nsvn, dvs for sme, navn med stadieveksling, være i sme-proper-file?

Meahcce-Vulle eNorga eSkuvla Lappekodicilla og Lappekodisilla er sme-navn , Siskind og Marda kjenner jeg ikke 

Stadievekslinga fungerer heller ikke for noen av disse.

Ædnansærvi mener jeg ikke skal ha "moderne" stadieveksling, men evt heller KN i ortografien, hvis det skal ha noe.
Comment 15 Lene Antonsen 2018-10-26 09:07:35 CEST
Erke bruker som etternavn, og  da uten stadieveksling? Det bør ihvertfall ha en +Sem/Sur
 Som fornavn vet brukes det med stadieveksling, og burde da stå i sme-fila.
Comment 16 Sjur Nørstebø Moshagen 2018-10-26 09:59:35 CEST
Eg er samd med dei siste to innlegga til Lene, og det betyr i praksis at dei nemnde namna bør flyttast på eller endrast på.

Thomas, kan du gjera det?

Det betyr òg at KN _aldri_ skal stå i smi-fila, og dermed er ikkje dette teiknet eit problem med tanke på felles ressursar.

Synspunkt på ʹ vs º?
Comment 17 Thomas Omma 2018-10-26 11:13:43 CEST
k!

(In reply to Sjur Nørstebø Moshagen from comment #16)
> Eg er samd med dei siste to innlegga til Lene, og det betyr i praksis at dei
> nemnde namna bør flyttast på eller endrast på.
> 
> Thomas, kan du gjera det?
> 
> Det betyr òg at KN _aldri_ skal stå i smi-fila, og dermed er ikkje dette
> teiknet eit problem med tanke på felles ressursar.
> 
> Synspunkt på ʹ vs º?
Comment 18 Sjur Nørstebø Moshagen 2018-10-29 10:43:48 CET
(In reply to Sjur Nørstebø Moshagen from comment #16)
> Det betyr òg at KN _aldri_ skal stå i smi-fila, og dermed er ikkje dette
> teiknet eit problem med tanke på felles ressursar.
> 
> Synspunkt på ʹ vs º?

Etter ulike diskusjonar med Lene og Trond ser det ut til at toppkandidaten no er º. Eg byrjar med denne, og så ser vi kor bra det fungerer. Om det ikkje fungerer så bra, så vil det vera lettare å byta til noko anna etterpå, då ' og '7 ikkje lenger bruker same teikn.
Comment 19 Sjur Nørstebø Moshagen 2018-11-05 09:05:35 CET
Denne lusmeldinga gjeld i praksis berre punctuation.lexc, og eg har laga ei eiga overordna lusmelding som dekkjer alt. I tillegg har eg laga eigne underlusmeldingar for dei tre språka som står att: SMN, SME og SMJ.

Eg endrar tittelen på denne meldinga slik ha han speglar innhaldet.
Comment 20 Thomas Omma 2018-11-06 10:22:56 CET
giella-shared $ svn ci -m "away with konrad nielsens from this file, bug2475"
Sending        smi/src/morphology/stems/smi-propernouns.lexc
Transmitting file data .done
Committing transaction...
Committed revision 173458.
Comment 21 Sjur Nørstebø Moshagen 2019-03-13 22:38:49 CET
Denne er fiksa no.