Bug 2388 - Dobbelttagga POS-taggar
Summary: Dobbelttagga POS-taggar
Status: ASSIGNED
Alias: None
Product: Tags
Classification: Unclassified
Component: Morphology tags (show other bugs)
Version: unspecified
Hardware: All All
: P4 - Within a month normal
Assignee: Sjur Nørstebø Moshagen
URL:
Keywords:
Depends on:
Blocks:
 
Reported: 2017-05-03 09:21 CEST by Lene Antonsen
Modified: 2017-09-18 09:37 CEST (History)
7 users (show)

See Also:


Attachments

Note You need to log in before you can comment on or make changes to this bug.
Description Lene Antonsen 2017-05-03 09:21:05 CEST
Fra møtereferat 25.4.2017:

Dobbelttagga POS-taggar

Dobbeltagga POS (NN, VV, etc) - heller prefiks?

Vedtak:
* Ex/N, Ex/A, Ex/V, ...
** Ex = "tidlegare" "/" som i derivasjonskonvensjonen vår, og deretter original 
   ("tidlegare") ordklasse
** Resultatet blir at vi får apertiumtaggen direkte: <ex_n> etc.
Comment 1 Linda Wiechetek 2017-05-22 10:14:47 CEST
(In reply to Lene Antonsen from comment #0)
> Fra møtereferat 25.4.2017:
> 
> Dobbelttagga POS-taggar
> 
> Dobbeltagga POS (NN, VV, etc) - heller prefiks?
> 
> Vedtak:
> * Ex/N, Ex/A, Ex/V, ...
> ** Ex = "tidlegare" "/" som i derivasjonskonvensjonen vår, og deretter
> original 
>    ("tidlegare") ordklasse
> ** Resultatet blir at vi får apertiumtaggen direkte: <ex_n> etc.

Samme for min del. Har det noe å si for genereringa Sjur?
Æ legger til Kevin pga. forslagsgenerering i grammatikkontroll.
Comment 2 Kevin Brubeck Unhammer 2017-05-22 10:39:03 CEST
> ** Resultatet blir at vi får apertiumtaggen direkte: <ex_n> etc.

Altså ikkje noko endring nødvendig i apertium-språkpar for denne endringa?
Comment 3 Kevin Brubeck Unhammer 2017-05-22 10:41:45 CEST
(In reply to Linda Wiechetek from comment #1)
> Æ legger til Kevin pga. forslagsgenerering i grammatikkontroll.

Foreløpig har eg ikkje trengt å bry meg om slike taggar i forslagsgenerering, og dei er jo like unike som dei gamle, så eg kan ikkje tenkja meg noko problem med det …
Comment 4 Lene Antonsen 2017-05-22 11:55:40 CEST
(In reply to Kevin Brubeck Unhammer from comment #2)
> > ** Resultatet blir at vi får apertiumtaggen direkte: <ex_n> etc.
> 
> Altså ikkje noko endring nødvendig i apertium-språkpar for denne endringa?

Nei, vi løser problemet vi har på gt-sida, ved å bruke apertium sin løsning :-)
Comment 5 Sjur Nørstebø Moshagen 2017-09-13 12:48:28 CEST
Fiksa i svn rev. 156935 og 156937.

NB! Må testast, eg har ikkje gjort det!

NB2! CG-filene må heilt sikkert oppdaterast, tilsvarande andre samanhangar der TVV, NN osb har vorte referert.
Comment 6 Linda Wiechetek 2017-09-13 15:05:10 CEST
På hvilken måte ble det fiksa, Sjur?
Comment 7 Lene Antonsen 2017-09-13 15:35:50 CEST
Jeg har oppdatert taggene i tools/mt/apertium/tagsets/ og i sme disambiguation.cg3
Comment 8 Sjur Nørstebø Moshagen 2017-09-15 07:20:55 CEST
(In reply to Linda Wiechetek from comment #6)
> På hvilken måte ble det fiksa, Sjur?

Eg endra filteret som konverterer slike taggar når det kjem andre tilsvarande taggar lenger ut i derivasjonsrekka. Tidlegare stod det ting som:

  "+NN"    <- "+N"

No står det:

  "+Ex/N"    <- "+N"

Dvs at analysen har vorte forandra, og alle stader som bruker denne analysen må oppdaterast.

Eg avsluttar denne no, så kan de ev gjenopna dersom det dukkar opp problem.
Comment 9 Kevin Brubeck Unhammer 2017-09-15 13:15:17 CEST
Korleis kom NN seg inn i apertium.relabel tidlegare? Det skjer nemleg ikkje med Ex/N (osb.). Eg ser at dei andre taggane kjem via 

hfst-summarize -v src/morphology/lexicon.hfst | sed|perl|munge > src/filters/sigma.txt

men sigma.txt inneheld ikkje Ex/N, og heller ikkje 
`hfst-summarize -v src/morphology/lexicon.hfst`

lexicon.hfst kjem frå lexicon.tmp.lexc. Viss eg berre legg inn Ex/N i  lexicon.tmp.lexc i Multichar_symbols så blir det uansett borte ved hfst-lexc med mindre eg òg faktisk bruker det i ein analyse.

Men NN fungerte jo før, så kor kom den taggen inn frå?
Comment 10 Kevin Brubeck Unhammer 2017-09-15 14:01:02 CEST
(In reply to Kevin Brubeck Unhammer from comment #9)
> Korleis kom NN seg inn i apertium.relabel tidlegare? Det skjer nemleg ikkje
> med Ex/N (osb.). Eg ser at dei andre taggane kjem via 
> 
> hfst-summarize -v src/morphology/lexicon.hfst | sed|perl|munge >
> src/filters/sigma.txt
> 
> men sigma.txt inneheld ikkje Ex/N, og heller ikkje 
> `hfst-summarize -v src/morphology/lexicon.hfst`
> 
> lexicon.hfst kjem frå lexicon.tmp.lexc. Viss eg berre legg inn Ex/N i 
> lexicon.tmp.lexc i Multichar_symbols så blir det uansett borte ved hfst-lexc
> med mindre eg òg faktisk bruker det i ein analyse.
> 
> Men NN fungerte jo før, så kor kom den taggen inn frå?

Det skjedde visst tidlegare i tagsets/modify-tags.regex, med linjer a la

    "+AA"         ->   "<ex_adj>" ,
    "+NN"         ->   "<ex_n>" ,
    "+VV"         ->   "<ex_vblex>" ,
    "+IVV"         ->  "<ex_iv>" ,
    "+TVV"         ->  "<ex_tv>" ,

Altså blei "+NN" aldri endra av apertium.relabel, sjølv om alle dei andre taggane blei det. Det som då er litt forvirrande er at den fila køyrer etter apertium.relabel, så alle dei andre taggane referert til i modify-tags.regex er endra, utanom desse som me då må modifisera «heile vegen».


(Den *rette* løysinga er å generera aperitum.relabel frå filene i tools/mt/apertium)
Comment 11 Sjur Nørstebø Moshagen 2017-09-15 16:27:33 CEST
(In reply to Kevin Brubeck Unhammer from comment #10)
> (Den *rette* løysinga er å generera aperitum.relabel frå filene i
> tools/mt/apertium)

No gjer vi nettopp det, frå og med svn rev 157096-157102. Det betyr at vi ikkje burde hamna i denne situasjonen fleire gonger, uansett kor mykje vi endrar taggane:-)

Eg let att lusmeldinga.
Comment 12 Lene Antonsen 2017-09-15 16:35:07 CEST
Jeg åpner denne til alt er testa.

Vi har problem med flytting av taggene:

usmedis

coagisvuohta	coagis+Ex/A+Sem/Hum+Der/vuota+N+Sg+Nom

her skulle vært: +Sem/Hum+Ex/A
Comment 13 Sjur Nørstebø Moshagen 2017-09-15 16:38:41 CEST
(In reply to Lene Antonsen from comment #12)
> Jeg åpner denne til alt er testa.

Ok.

> Vi har problem med flytting av taggene:
> 
> usmedis
> 
> coagisvuohta	coagis+Ex/A+Sem/Hum+Der/vuota+N+Sg+Nom
> 
> her skulle vært: +Sem/Hum+Ex/A

Flytting av taggar er eit anna og separat problem. Det burde ikkje ha noko med denne lusmeldinga å gjera, sidan eg ikkje flyttar rundt på ting i det heile. Det er betre om du lagar ny lusmelding om det, eller legg inn ein merknad i lusmeldinga om semtaggflytting.
Comment 14 Lene Antonsen 2017-09-15 16:47:16 CEST
> Flytting av taggar er eit anna og separat problem. Det burde ikkje ha noko
> med denne lusmeldinga å gjera, sidan eg ikkje flyttar rundt på ting i det
> heile. Det er betre om du lagar ny lusmelding om det, eller legg inn ein
> merknad i lusmeldinga om semtaggflytting.

Taggflyttinga fungerte da vi hadde +AA istedenfor +Ex/A. Denne diskusjonen omhandler endring fra +AA til +Ex/A, og få dette til å fungere. Derfor mente jeg at også flyttiga hører til diskusjonen i denne meldinga, siden flyttinga fungerte med +AA, men ikke med +Ex/A.
Comment 15 Lene Antonsen 2017-09-15 16:52:51 CEST
> Taggflyttinga fungerte da vi hadde +AA istedenfor +Ex/A. Denne diskusjonen
> omhandler endring fra +AA til +Ex/A, og få dette til å fungere. Derfor mente
> jeg at også flyttiga hører til diskusjonen i denne meldinga, siden flyttinga
> fungerte med +AA, men ikke med +Ex/A.

Problemet her er kanskje at taggflyttinga ikke skal skje? Jeg ser av testene i MT at coagisvuohta fungerte tidligere, men ikke nå. Jeg er ikke helt sikker på hvordan analysen var tidligere, dessverre. Vi får se på det i neste uke.
Comment 16 Lene Antonsen 2017-09-15 17:55:19 CEST
> Problemet her er kanskje at taggflyttinga ikke skal skje? Jeg ser av testene
> i MT at coagisvuohta fungerte tidligere, men ikke nå. Jeg er ikke helt
> sikker på hvordan analysen var tidligere, dessverre. Vi får se på det i
> neste uke.

Jeg fant ut av det. Det var lagt inn ex_a istedenfor ex_adj i modify-tags.regex, så det hadde ikke med taggrekkefølgen å gjøre. No ser det ut som det skal:

coagisvuohta	coagis<ex_adj><sem_hum><der_vuota><n><sg><nom>	0.000000
coagisvuohta	coagis<ex_adj><der_vuota><n><sg><nom>	0.000000

echo coagisvuohta |apertium -d. sme-nob
det grunne
Comment 17 Lene Antonsen 2017-09-18 09:37:05 CEST
--- tools/mt/apertium/tagsets/modify-tags.regex	(revisjon 157125)
+++ tools/mt/apertium/tagsets/modify-tags.regex	(arbeidskopi)
@@ -40,6 +40,8 @@
     "+Ex/N"       -> "<ex_n>" ,
     "+Ex/A"       -> "<ex_adj>" ,
     "+Ex/V"       -> "<ex_vblex>" ,
+    "<ex_a>"       -> "<ex_adj>" ,
+    "<ex_v>"       -> "<ex_vblex>" ,
     "+Ex/TV"      -> "<ex_tv>" ,
     "+Ex/IV"      -> "<ex_iv>" ,
     "<pron>"      ->	"<prn>" ,
svhum-hsl-m0283:sme lan000$ svn ci -m "litt rar løsning på problemet, men nå fungerer ihvertfall taggene i apertium. Uten disse to linjene får vi ex_v og ex_a i Apertium." tools/mt/apertium/
Sender           tools/mt/apertium/tagsets/modify-tags.regex
Sender fildata .done
Committing transaction...
La inn revisjon 157139.