Bug 2701 - Tagging av derivasjoner av proper nouns
Summary: Tagging av derivasjoner av proper nouns
Status: REOPENED
Alias: None
Product: smi-lexicon
Classification: Unclassified
Component: Tags (show other bugs)
Version: unspecified
Hardware: Macintosh Other
: P3 - Within a week normal
Assignee: Sjur Nørstebø Moshagen
URL:
Keywords:
Depends on:
Blocks:
 
Reported: 2020-11-01 11:07 CET by Lene Antonsen
Modified: 2021-10-30 09:52 CEST (History)
6 users (show)

See Also:


Attachments

Note You need to log in before you can comment on or make changes to this bug.
Description Lene Antonsen 2020-11-01 11:07:20 CET
Det er problemer med tagginga av derivasjoner av proper nouns ved tilpassing til Apertium. Følgende to dervisjoner burde gå an å generere i Apertium, bruke transferegler for å gå fra den ene til den andre, men det fungerer ikke pga av taggene, vi får ikke <np> (ex_np?)

F.eks. i lang-smj:
echo guovddagæjnok| hfst-lookup -q tools/mt/apertium/analyser-mt-apertium-desc.und.hfstol 
guovddagæjnok	Guovddagæjnno<ex_n><prop><sem_plc><der_k><n><sg><nom>	0,000000
guovddagæjnok	Guovddagæjnno<ex_n><prop><der_k><n><sg><nom>	0,000000

i lang-sme:
echo guovdageaidnulaš| hfst-lookup -q tools/mt/apertium/analyser-mt-apertium-desc.und.hfstol 
guovdageaidnulaš	Guovdageaidnu<ex_n><prop><der_lasj><adj><sg><nom>	0,000000
guovdageaidnulaš	Guovdageaidnu<ex_n><prop><sem_plc><der_lasj><adj><sg><nom>

echo guovdageaidnulaš |apertium -d. sme-smj-biltrans
^guovdageaidnulaš<n><sg><nom><@HNOUN>/Guovddagæjnno<np><sem_plc><der_k><n><sg><nom><@HNOUN>$^.<sent>/.<sent>$
Comment 1 Lene Antonsen 2020-11-01 11:58:17 CET
Den siste analysen i apertium kom fra denne entryen:
<e><p><l>guovdageaidnulaš<s n="n"/><s n="sg"/><s n="nom"/></l><r>Guovddagæjnno<s n="np"/><s n="sem_plc"/><s n="der_k"/><s n="n"/><s n="sg"/><s n="nom"/></r></p></e>  

Men når jeg kommenterer ut den, så blir de ikke gjenkjent:

echo guovdageaidnulaš |apertium -d. sme-smj
^*guovdageaidnulaš/*guovdageaidnulaš$^.<sent>/.<sent>$

echo guovddagæjnok |apertium -d. sme-smj
^*guovddagæjnok/*guovddagæjnok$^.<sent>/.<sent>$
Comment 2 Kevin Brubeck Unhammer 2020-11-02 10:24:27 CET
Eg veit ikkje kor "N Prop" blir til "<np>" i fst-en, men på same stad burde jo "Ex/N Prop" bli til "<ex_np>".


Når det gjeld CG, så ser eg at me har linjer som 
SUBSTITUTE:apertium-unhide-derivtags (ex_n) (n) TARGET (ex_n) ;
SUBSTITUTE:apertium-unhide-derivtags SUB:1  (ex_n) (n) TARGET (ex_n) ;
i giella-shared/smi/src/{cg3,syntax}/functions.cg3

men det manglar  

SUBSTITUTE:apertium-unhide-derivtags (ex_np) (np) TARGET (ex_np) ;
SUBSTITUTE:apertium-unhide-derivtags SUB:1  (ex_np) (np) TARGET (ex_np) ;

og lang-smj/tools/mt/apertium/tagsets/gt2apertium.cg3relabel har

MAP (Ex/N)    (ex_n);

men burde kanskje ha 

MAP (Ex/N Prop)    (ex_np);
MAP (Ex/N)         (ex_n) OR (ex_np);

(på same måte som for vanleg Prop og N)
Comment 3 Lene Antonsen 2020-11-23 15:21:41 CET
Jeg trenger hjelp fra Sjur til denne.
Jeg har prøvd med dette i tools/mt/apertium/tools/mt/apertium/
    "<ex_n><prop>"       -> "<ex_np>" ,
    "+Ex/N+Prop"       -> "<ex_np>" ,

men det fungerer ikke, jeg tror dette må fikses i giella-core/am-shared/tools-mt-apertium-tagsets-dir-include.am ?

echo norgalaš |hfst-lookup tools/mt/apertium/analyser-mt-apertium-desc.und.hfstol 
norgalaš	Norga<ex_n><prop><der_lasj><adj><attr>	0,000000
norgalaš	Norga<ex_n><prop><der_lasj><adj><sg><nom>	0,000000
norgalaš	Norga<ex_n><prop><sem_plc><der_lasj><adj><attr>	0,000000
norgalaš	Norga<ex_n><prop><sem_plc><der_lasj><adj><sg><nom>	0,000000

Her ønsker vi 
norgalaš	Norga<ex_np><sem_plc><der_lasj><adj><sg><nom>
Comment 4 Sjur Nørstebø Moshagen 2021-10-27 21:38:42 CEST
(In reply to Lene Antonsen from comment #3)
> Jeg trenger hjelp fra Sjur til denne.
> Jeg har prøvd med dette i tools/mt/apertium/tools/mt/apertium/
>     "<ex_n><prop>"       -> "<ex_np>" ,
>     "+Ex/N+Prop"       -> "<ex_np>" ,
> 
> men det fungerer ikke, jeg tror dette må fikses i
> giella-core/am-shared/tools-mt-apertium-tagsets-dir-include.am ?

Du var veldig nære med det fyste forsøket, ein fungerande versjon finst i innsjekkinga her:

https://github.com/giellalt/lang-sme/commit/992924c7a7d63a0f02cb5d48e0b884fd47cbadbb

>     "<ex_n><prop>"       -> "<ex_np>" ,

Dette var nesten rett, det som mangla var at du burde hatt hermeteikn rundt begge dei to taggane på venstre side:

     "<ex_n>" "<prop>"       -> "<ex_np>" ,

Slik ser analysane ut no:

echo norgalaš | hfst-lookup -q tools/mt/apertium/analyser-mt-apertium-desc.und.hfstol 
norgalaš	norgalaš<n><sem_hum><sg><nom>	0,000000
norgalaš	norgalaš<n><sg><nom>	0,000000
norgalaš	Norga<ex_np><der_lasj><adj><attr>	0,000000
norgalaš	Norga<ex_np><der_lasj><adj><sg><nom>	0,000000
norgalaš	Norga<ex_np><sem_plc><der_lasj><adj><attr>	0,000000
norgalaš	Norga<ex_np><sem_plc><der_lasj><adj><sg><nom>	0,000000
norgalaš	Norga<ex_np><der_lasj><adj><attr>	0,000000
norgalaš	Norga<ex_np><der_lasj><adj><sg><nom>	0,000000
norgalaš	Norga<ex_np><sem_plc><der_lasj><adj><attr>	0,000000
norgalaš	Norga<ex_np><sem_plc><der_lasj><adj><sg><nom>	0,000000
norgalaš	norgalaš<adj><attr>	0,000000
norgalaš	norgalaš<adj><sg><nom>	0,000000
norgalaš	norgalaš<adj><sem_hum><attr>	0,000000
norgalaš	norgalaš<adj><sem_hum><sg><nom>	0,000000

Eg har berre endra for sme, men no burde det vera rett fram å få dette til for andre språk. Sei frå om det dukkar opp andre problem.

Eg lar lusmeldinga vera open til du har stadfesta at alt er ok / til alle språk er fiksa.
Comment 5 Lene Antonsen 2021-10-29 00:31:30 CEST
Det fungerer i apertium:

echo porsáŋgulaš |apertium -d. sme-smj-biltrans
^porsáŋgulaš<n><sem_hum><sg><nom><@HNOUN>/Porsáŋŋgo<np><sem_plc><der_k><n><sg><nom><@HNOUN>$^.<sent>/.<sent>$
Comment 6 Lene Antonsen 2021-10-29 08:06:46 CEST
Jeg tenekte feil da jeg testet. porsáŋgulaš var leksikalisert i bidix, og poenger var nettopp at vi ikke skal trenge å leksikalisere.
porsáŋgulaš	Porsáŋgu+N+Prop+Sem/Plc+Der/lasj+A+Sg+Nom

Jeg må legge dette inn i smj og Makefile i apertium. skal teste på nytt
Comment 7 Kevin Brubeck Unhammer 2021-10-30 09:52:59 CEST
$ echo guovdageaidnulaš|apertium -d . sme-smj-morph
^guovdageaidnulaš/Guovdageaidnu<ex_np><der_lasj><adj><attr>/Guovdageaidnu<ex_np><der_lasj><adj><sg><nom>/Guovdageaidnu<ex_np><sem_plc><der_lasj><adj><attr>/Guovdageaidnu<ex_np><sem_plc><der_lasj><adj><sg><nom>/guovdageaidnulaš<n><sem_hum><sg><nom>$^./.<sent>$

i nyaste sme-smj