Bug 2659 - «7 and »7 go to phonology.xfst to get their 7 stripped
Summary: «7 and »7 go to phonology.xfst to get their 7 stripped
Status: NEW
Alias: None
Product: Greenlandic kal
Classification: Unclassified
Component: Morphophonology (show other bugs)
Version: unspecified
Hardware: Macintosh Other
: P5 - Later enhancement
Assignee: Sjur Nørstebø Moshagen
URL:
Keywords:
Depends on:
Blocks:
 
Reported: 2020-04-20 13:31 CEST by Trond Trosterud
Modified: 2020-04-21 15:51 CEST (History)
0 users

See Also:


Attachments

Note You need to log in before you can comment on or make changes to this bug.
Description Trond Trosterud 2020-04-20 13:31:57 CEST
«» are modeled as «+LEFT:«7 in , in order to distinguish them «» used as derivation affix markers (?). Here is where they origin:

grep 7 main/giella-shared/all_langs/src/morphology/stems/punctuation.lexc 
  «+PUNCT+LEFT:«7     PunctEnd ;
 »+PUNCT+RIGHT:»7     PunctEnd ;

They are then removed in the kal phonology:

grep 7 main/langs/kal/src/morphology/phonology.xfscript 
define SevenQuotation «7 -> « , »7 -> » ;

Now, let us see whether there are better ways of doing this. Sjur?
Comment 1 Trond Trosterud 2020-04-21 15:51:04 CEST
Brevveksling mellom Tino og meg (sjå nedanfor).
Resultatet er at eg sjekkar inn ein versjon av phonology.xfscript
som __ikkje__ inneheld regelen
define SevenQuotation «7 -> « , »7 -> » ;

Resultatet er som Tino refererer til (og «, » blir fjerna når hfst-tokenise blir køyrd utan -g). Det s

------------------------------------

Tino:

Kal kan bygges igen, men rettelsen med » og « er forsvundet, så tokeniser virker ikke igen. Samme fejl som før.

Et sanity check er at køre dette:
$ echo '»inussuaq«.' | hfst-tokenise -g tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst


Det korrekte output er:
:»
"<inussuaq>"
        "inuk" SUAQ Der/nn N Abs Sg <W:0.0>
        "inussuaq" N Abs Sg <W:0.0>
:«
"<.>"
        "." CLB <W:0.0>
:\n


Lige nu giver den dette forkerte output i stedet:
"<>"
        "«" PUNCT LEFT <W:0.0>
        "»" PUNCT RIGHT <W:0.0>
:»
"<inussuaq>"
        "inuk" SUAQ Der/nn N Abs Sg <W:0.0>
        "inussuaq" N Abs Sg <W:0.0>
:«
"<.>"
        "." CLB <W:0.0>
"<>"
        "«" PUNCT LEFT <W:0.0>
        "»" PUNCT RIGHT <W:0.0>
:\n
"<>"
        "«" PUNCT LEFT <W:0.0>
        "»" PUNCT RIGHT <W:0.0>

-- Tino Didriksen


Her er mine testresultat (nedanfor).

Slik eg forstår Tino vil vi ha 
:»
som analyse for hermeteikna. Eg visste ikkje at det var det vi ville ha, men har no sjekka inn den versjonen (A) som gjev os det resultatet.

Trond



A. utan «7 -> 0 i fonologien: 
analysatoren fungerer men tokeniser fungerer ikkje.


Versjonen av phonology.xfscript __utan__ «7 -> «
fungerer på følgjande måte:

Brukt med hfst-lookup fungerer den korrekt:
«     «+PUNCT+LEFT    0,000000

Brukt med tokeniser fjernar den hermeteiknet:
e "«illu»"|hfst-tokenise -cg tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst
:«
"<illu>"
       "ih" Interj LU <W:0.0>
       "illu" N Abs Sg <W:0.0>
:»\n



B. med «7 -> 0 i fonologien: 
analysatoren fungerer ikkje men tokeniser fungerer.

Brukt med tokeniser fjernar den hermeteiknet:
e "«illu»"|hfst-tokenise -cg tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst
:«
"<illu>"
       "ih" Interj LU <W:0.0>
       "illu" N Abs Sg <W:0.0>
:»\n
(base) tf-hsl-m0016:kal ttr000$ see misc/kal-7-debug 
(base) tf-hsl-m0016:kal ttr000$ hufkv
^C
(base) tf-hsl-m0016:kal ttr000$ hukal
«
«	«+?	inf

(base) tf-hsl-m0016:kal ttr000$ e "«illu»"|hfst-tokenise -cg tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst
"<>"
	"«" PUNCT LEFT <W:0.0>
	"»" PUNCT RIGHT <W:0.0>
:«
"<illu>"
	"ih" Interj LU <W:0.0>
	"illu" N Abs Sg <W:0.0>
:»
"<>"
	"«" PUNCT LEFT <W:0.0>
	"»" PUNCT RIGHT <W:0.0>
:\n
"<>"
	"«" PUNCT LEFT <W:0.0>
	"»" PUNCT RIGHT <W:0.0>



---------------------------------------


Hvis » kan få en ægte analyse fra tokeniser ville det være bedst, men det kan den så vidt jeg ved ikke i første omgang. Vi har et wrapper script kal-tokenise der kører dem igen som enkelte tokens som så giver en analyse.

Problemet var at de tomme cohorts fra tokeniseren ødelagde alt udenoms. Nu er de væk, så alt er godt igen. Hvad de har med «» at gøre aner jeg ikke.


Rå output der er brugbart:
$ echo "«illu»" | hfst-tokenise -g tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst
:«
"<illu>"
        "ih" Interj LU <W:0.0>
        "illu" N Abs Sg <W:0.0>
:»\n


Med wrapper script:
$ echo "«illu»" | ./tools/shellscripts/kal-tokenise
"<«>"
        "«" PUNCT LEFT
"<illu>"
        "ih" Interj LU
        "illu" N Abs Sg
"<»>"
        "»" PUNCT RIGHT


Hvis det er muligt at få det færdige output fra tokeniser, så vil vi da selvfølgelig gerne det. Men der har indtil videre været mange ting som tokeniseren ikke kan, så derfor har vi kal-tokenise til at rette op på det.

Men altså, det virker nu.

-- Tino Didriksen