Bug 2593

Summary: Semtag categories
Product: Tags Reporter: Linda Wiechetek <linda.wiechetek>
Component: SemtagsAssignee: Linda Wiechetek <linda.wiechetek>
Status: ASSIGNED ---    
Severity: enhancement CC: elena.j.paulsen, lene.antonsen, linda.wiechetek, maja.l.kappfjell, marja-liisa.olthuis, rueter.jack, sjur.n.moshagen, thomas.omma, trond.trosterud
Priority: P5 - Later    
Version: unspecified   
Hardware: All   
OS: All   

Description Linda Wiechetek 2019-05-27 16:30:45 CEST
Her vil vi ha diskusjoner angånde semantiske kategorier, bruk av tagger, overflødige tagger, muligens flere distinksjoner, osv. Det blir lettere å følge med og dokumentere på denne måten.
Comment 1 Lene Antonsen 2019-05-27 16:57:43 CEST
Spørsmål om hovedtagg og undergruppe.

De mange tilfeller har vi hovedkategori og under-gruppe som er en delmengde av hovedkategorien, f.eks.

 +Sem/Tool        
 +Sem/Tool-catch  
 +Sem/Tool-clean  
 +Sem/Tool-it     
 +Sem/Tool-measr  
 +Sem/Tool-music  
 +Sem/Tool-write  

Dette vil si at vi i CG legger alle disse under Sem/Tool, f.eks. for å finne komitativ vs. lokativ, bortsett fra de gangene vi ønsker å differensiere.

Hvordan er det med -part?
 +Sem/Build-part  
 +Sem/Clth-part   
 +Sem/Plant-part  

Jeg ser at +Sem/Clth-part er slike ting som man ikke kler på seg (riesa, lubma), Sem/Plant-part er kanskje litt samme fordi man kan plante soahki, men ikke soahkelasta? 

Jeg ser at Sem/Build-part som oftest er rom, f.eks. gievkkan. Sem/Build har ikke ekstra tagg Sem/Plc, men ved å være Sem/Build, tar vi dette settet med i PLACE-kategorien. De fleste medlemmene av +Sem/Build-part passer også der, men ikke alle, fordi her er også noen medlemmer som seaidni og sis-gáhttu. 

Dette burde differensieres. Hvis det passer å si at -part ikke har samme syntaktiske kjennetegn som hovedkategorien, kunne vi lage et sett +Sem/Build-room for gievkkan med venner? Dette sette vil man også intuitivt forstå at inneholder substantiv som passer inn i PLACE.

Og da kan vi ha som hovedregel at -part-settene ikke er delsett av hovedkategorien.
Comment 2 Lene Antonsen 2019-05-27 17:18:00 CEST
I sme-katalogen har vi denne taggen lea +Sem/Body-abstr_Feat-cogn
men vi har ingen Feat-cogn

Vi har:
LIST Sem/Feat-measr =
LIST Sem/Feat-phys =
LIST Sem/Feat-psych =
 
Skal +Sem/Body-abstr_Feat-cogn egentlig være +Sem/Body-abstr_Feat-psych?
Comment 3 Lene Antonsen 2019-05-27 17:43:22 CEST
(In reply to Lene Antonsen from comment #1)
> Spørsmål om hovedtagg og undergruppe.
> 
 Dette burde differensieres. Hvis det passer å si at -part ikke har samme
> syntaktiske kjennetegn som hovedkategorien, kunne vi lage et sett
> +Sem/Build-room for gievkkan med venner? Dette sette vil man også intuitivt
> forstå at inneholder substantiv som passer inn i PLACE.
> 
> Og da kan vi ha som hovedregel at -part-settene ikke er delsett av
> hovedkategorien.

Jeg foreslå part uten bindestrek:

 +Sem/Buildpart  
 +Sem/Clthpart   
 +Sem/Plantpart  

tilsvarende at vi har

+Sem/Aniprod
som jo er noe annet enn

+Sem/Ani
+Sem/Ani-fish

Dvs at med bindestrek: underkategori
uten bindestrek: en ny hovedkategori
Comment 4 Linda Wiechetek 2019-05-28 10:25:59 CEST
(In reply to Lene Antonsen from comment #1)
> Spørsmål om hovedtagg og undergruppe.
> 
> De mange tilfeller har vi hovedkategori og under-gruppe som er en delmengde
> av hovedkategorien, f.eks.
> 
>  +Sem/Tool        
>  +Sem/Tool-catch  
>  +Sem/Tool-clean  
>  +Sem/Tool-it     
>  +Sem/Tool-measr  
>  +Sem/Tool-music  
>  +Sem/Tool-write  
> 
> Dette vil si at vi i CG legger alle disse under Sem/Tool, f.eks. for å finne
> komitativ vs. lokativ, bortsett fra de gangene vi ønsker å differensiere.
> 
> Hvordan er det med -part?
>  +Sem/Build-part  
>  +Sem/Clth-part   
>  +Sem/Plant-part  
> 
> Jeg ser at +Sem/Clth-part er slike ting som man ikke kler på seg (riesa,
> lubma), Sem/Plant-part er kanskje litt samme fordi man kan plante soahki,
> men ikke soahkelasta? 
> 
> Jeg ser at Sem/Build-part som oftest er rom, f.eks. gievkkan. Sem/Build har
> ikke ekstra tagg Sem/Plc, men ved å være Sem/Build, tar vi dette settet med
> i PLACE-kategorien. De fleste medlemmene av +Sem/Build-part passer også der,
> men ikke alle, fordi her er også noen medlemmer som seaidni og sis-gáhttu. 
> 
> Dette burde differensieres. Hvis det passer å si at -part ikke har samme
> syntaktiske kjennetegn som hovedkategorien, kunne vi lage et sett
> +Sem/Build-room for gievkkan med venner? Dette sette vil man også intuitivt
> forstå at inneholder substantiv som passer inn i PLACE.
> 
> Og da kan vi ha som hovedregel at -part-settene ikke er delsett av
> hovedkategorien.

Ja det er sånn som du sier og for å bli konsekvent foreslår æ at vi skriver:


  Sem/Buildpart  
  Sem/Clthpart   
  Sem/Plantpart 

i ett ord for det som ikke kan karakteriseres som Build, Clth eller Plant.

Og at vi lager den taggen du foreslår for ord som "gievkan", dvs.:

Sem/Build-room
Comment 5 Linda Wiechetek 2019-05-28 10:28:41 CEST
(In reply to Lene Antonsen from comment #2)
> I sme-katalogen har vi denne taggen lea +Sem/Body-abstr_Feat-cogn
> men vi har ingen Feat-cogn
> 
> Vi har:
> LIST Sem/Feat-measr =
> LIST Sem/Feat-phys =
> LIST Sem/Feat-psych =
>  
> Skal +Sem/Body-abstr_Feat-cogn egentlig være +Sem/Body-abstr_Feat-psych?

Ja, vi tar Feat-psych og sletter Feat-cogn. Tror det kanskje er en feil at Feat-cogn kom inn. Æ har det ihvertfall ikke i min liste over mulige tagger.
Comment 6 Linda Wiechetek 2019-05-28 10:33:44 CEST
(In reply to Lene Antonsen from comment #3)
> (In reply to Lene Antonsen from comment #1)
> > Spørsmål om hovedtagg og undergruppe.
> > 
>  Dette burde differensieres. Hvis det passer å si at -part ikke har samme
> > syntaktiske kjennetegn som hovedkategorien, kunne vi lage et sett
> > +Sem/Build-room for gievkkan med venner? Dette sette vil man også intuitivt
> > forstå at inneholder substantiv som passer inn i PLACE.
> > 
> > Og da kan vi ha som hovedregel at -part-settene ikke er delsett av
> > hovedkategorien.
> 
> Jeg foreslå part uten bindestrek:
> 
>  +Sem/Buildpart  
>  +Sem/Clthpart   
>  +Sem/Plantpart  
> 
> tilsvarende at vi har
> 
> +Sem/Aniprod
> som jo er noe annet enn
> 
> +Sem/Ani
> +Sem/Ani-fish
> 
> Dvs at med bindestrek: underkategori
> uten bindestrek: en ny hovedkategori

Ja, æ er enig. Foreslo akkurat det samme uten at æ så kommentaren din :)
Comment 7 Lene Antonsen 2019-05-28 10:40:11 CEST
> Ja, vi tar Feat-psych og sletter Feat-cogn. Tror det kanskje er en feil at
> Feat-cogn kom inn. Æ har det ihvertfall ikke i min liste over mulige tagger.

jeg har sjekket inn endringene i sme, smj og smn.
Comment 8 Lene Antonsen 2019-05-28 10:42:46 CEST
>   Sem/Buildpart  
>   Sem/Clthpart   
>   Sem/Plantpart 
> 
> i ett ord for det som ikke kan karakteriseres som Build, Clth eller Plant.
> 
> Og at vi lager den taggen du foreslår for ord som "gievkan", dvs.:
> 
> Sem/Build-room

Jeg kan endre dette for de samiske språkene. Når det gjelder å endre fra Sem/Buildpart til Sem/Build-room, så bør dette gjøres av hver enkelt lingvist for sitt språk. Jeg kan ta sme.
Comment 9 Linda Wiechetek 2019-05-28 14:20:54 CEST
(In reply to Lene Antonsen from comment #8)
> >   Sem/Buildpart  
> >   Sem/Clthpart   
> >   Sem/Plantpart 
> > 
> > i ett ord for det som ikke kan karakteriseres som Build, Clth eller Plant.
> > 
> > Og at vi lager den taggen du foreslår for ord som "gievkan", dvs.:
> > 
> > Sem/Build-room
> 
> Jeg kan endre dette for de samiske språkene. Når det gjelder å endre fra
> Sem/Buildpart til Sem/Build-room, så bør dette gjøres av hver enkelt
> lingvist for sitt språk. Jeg kan ta sme.

Æ forandrer i sme gramchk-filan når leksikonet er klar. Så gjerne si ifra når du er ferdig.
Comment 10 Lene Antonsen 2019-05-28 15:14:15 CEST
 > Æ forandrer i sme gramchk-filan når leksikonet er klar. Så gjerne si ifra
> når du er ferdig.

Jeg er ferdig.
Comment 11 Linda Wiechetek 2019-05-29 13:49:21 CEST
(In reply to Lene Antonsen from comment #10)
>  > Æ forandrer i sme gramchk-filan når leksikonet er klar. Så gjerne si ifra
> > når du er ferdig.
> 
> Jeg er ferdig.

Takk! Da setter æ igang.
Comment 12 Linda Wiechetek 2019-05-29 15:57:51 CEST
(In reply to Linda Wiechetek from comment #11)
> (In reply to Lene Antonsen from comment #10)
> >  > Æ forandrer i sme gramchk-filan når leksikonet er klar. Så gjerne si ifra
> > > når du er ferdig.
> > 
> > Jeg er ferdig.
> 
> Takk! Da setter æ igang.

Nå har æ oppdatert de semantiske taggan i valency.cg3, grammarchecker.cg3 og mwe-dis.cg3:

Sem/Buildpart  
Sem/Clthpart   
Sem/Plantpart 
Sem/Build-room
Comment 13 Lene Antonsen 2019-05-29 16:00:07 CEST
Jeg har laget et forslag til automatisk skripting for å oppdatere taggene alle steder hvor de skal oppdateres, vi kan diskutere dette i neste uke.
Comment 14 Linda Wiechetek 2019-05-31 11:33:42 CEST
(In reply to Lene Antonsen from comment #13)
> Jeg har laget et forslag til automatisk skripting for å oppdatere taggene
> alle steder hvor de skal oppdateres, vi kan diskutere dette i neste uke.

Inkluderer det taggdefinisjonan av denne typen?

LIST Sem/Body = Sem/Body Sem/Body_Body-abstr Sem/Body_Clth Sem/Body_Food Sem/Body_Group_Hum Sem/Body_Group_Hum_Time Sem/Body_Hum Sem/Body_Mat Sem/Body_Measr Sem/Body_Obj_Tool-catch Sem/Body_Plc Sem/Body_Time ; 

Dvs. blir alle nye tagkombinasjonan oppdatert i settan?
Comment 15 Lene Antonsen 2019-05-31 12:47:51 CEST
> Inkluderer det taggdefinisjonan av denne typen?
> 
> LIST Sem/Body = Sem/Body Sem/Body_Body-abstr Sem/Body_Clth Sem/Body_Food
> Sem/Body_Group_Hum Sem/Body_Group_Hum_Time Sem/Body_Hum Sem/Body_Mat
> Sem/Body_Measr Sem/Body_Obj_Tool-catch Sem/Body_Plc Sem/Body_Time ; 
> 
> Dvs. blir alle nye tagkombinasjonan oppdatert i settan?

Ja, det er meninga. Semtaggene skal inn i flere filer i forskjellige formater, og meninga er at skriptet skal gjøre dette. Jeg har laget et halvferdig skript, men jeg trenger hjelp til å gjøre det helt ferdig. Og vi må se på noen tekniske løsninger, som f.eks. å ha semsettene i en egen fil som inkluderes i cg3-fila via INCLUDE, slik som jeg nå har gjort for sme. Men meninga var at vi diskuterer dette på møtet slik at vi kan ta hensyn til alle filer og behov når det gjelder semsettene.
Comment 16 Elena Junie Paulsen 2019-06-05 09:19:38 CEST
Noen som vil se på sammensatte ord som slutter på -prográmma sammen med meg. Det er todelt utfordring; forstå hva begrepene faktisk betyr/inneholder, samt tag'e de med riktig Sem-tag ut i fra dette. De tag'ene som går igjen for denne "ordgruppen" er sålangt Act, Edu, Tool-it, Prod-vis, Prod-audio; dvs veldig varierende fra "program" til "program" :-)

Her er de utaggede fra smj (er laangt flere i sma):
belludakprográmma
gæhttjaladdamprográmma
kvalitæhttaprográmma
lånudallamprográmma
nuppástuhttemprográmma
oasseprográmma
rekruttierimprográmma
teknihkkaprográmma
vitalisierimprográmma
válggaprográmma (taget med Sem/Prod, uvisst om det er for uspesifisert)
álggoálmmukprográmma
árvvobuvtadimprográmma
åvdedimprográmma


prográmma som enkeltstående ord er nå tagget +Sem/Act_Tool-it
-men det skulle strengt tatt også vært tagget med Edu, Prod-vis også, i hvertfall? Og hva med Txt???
Comment 17 Linda Wiechetek 2019-06-06 10:30:03 CEST
(In reply to Elena Junie Paulsen from comment #16)
> Noen som vil se på sammensatte ord som slutter på -prográmma sammen med meg.
> Det er todelt utfordring; forstå hva begrepene faktisk betyr/inneholder,
> samt tag'e de med riktig Sem-tag ut i fra dette. De tag'ene som går igjen
> for denne "ordgruppen" er sålangt Act, Edu, Tool-it, Prod-vis, Prod-audio;
> dvs veldig varierende fra "program" til "program" :-)
> 
> Her er de utaggede fra smj (er laangt flere i sma):
> belludakprográmma
> gæhttjaladdamprográmma
> kvalitæhttaprográmma
> lånudallamprográmma
> nuppástuhttemprográmma
> oasseprográmma
> rekruttierimprográmma
> teknihkkaprográmma
> vitalisierimprográmma
> válggaprográmma (taget med Sem/Prod, uvisst om det er for uspesifisert)
> álggoálmmukprográmma
> árvvobuvtadimprográmma
> åvdedimprográmma
> 
> 
> prográmma som enkeltstående ord er nå tagget +Sem/Act_Tool-it
> -men det skulle strengt tatt også vært tagget med Edu, Prod-vis også, i
> hvertfall? Og hva med Txt???

I sme ser det slik ut:
når det er et dataprogram så blir det Sem/Tool-it
når det er et programm som et parti (belludakprográmma?) eller en organisasjon har så burde det bli Txt
Txt fordi det går an å si "I programmet står det følgende" eller "Programmet sier følgende"
Act skal det bli når det er en rekke av aktiviteter og man kan si "prográmma maŋŋel" 
Edu burde det være når man kan si:
"Mun váccán ...prográmma", sånn som man kan si "Mun váccán skuvlla", hvis det ikke går an å si det om bare prográmma, så burde det ikke få Edu

Når det er noe man kan se på, sånn som et TV-program, så burde det være Prod-vis. Om man kan si "Mun geahčan prográmma" så kan "prográmma" få Prod-vis også. 

Det er lurt å se i korpus om ordan virkelig blir brukt sånn som man tror. Man kan får store overraskelser..
Comment 18 Linda Wiechetek 2019-06-13 13:01:25 CEST
Nå har æ oppdatert semtaggan i den lulesamiske disambiguatoren: smj/src/syntax/disambiguator.cg3 også.
Comment 19 Lene Antonsen 2019-06-13 14:29:08 CEST
(In reply to Linda Wiechetek from comment #18)
> Nå har æ oppdatert semtaggan i den lulesamiske disambiguatoren:
> smj/src/syntax/disambiguator.cg3 også.

og jeg har oppdatert sme, smn, sma
Comment 20 Jack Rueter 2020-04-02 09:27:45 CEST
(In reply to Lene Antonsen from comment #1)
> Spørsmål om hovedtagg og undergruppe.
> 
> De mange tilfeller har vi hovedkategori og under-gruppe som er en delmengde
> av hovedkategorien, f.eks.
> 
>  +Sem/Tool        
>  +Sem/Tool-catch  
>  +Sem/Tool-clean  
>  +Sem/Tool-it     
>  +Sem/Tool-measr  
>  +Sem/Tool-music  
>  +Sem/Tool-write  
> 

I am working with languages in the Russian environment where names include both GENDER and TYPE:
+Sem/Fem
+Sem/Mal

+Sem/Sur
+Sem/Patr
+Sem/Ant  (This is Apertium for anthroponym, which I quess would distinguish them from dog, cat and other names for pets. Russian has nick names that do not distinguish Fem vs Mal, so it is good to know which Sasha or Evgeni you are talking about.)

My question is one of categorization:

+Sem/Sur-Fem, +Sem/Patr-Mal, +Sem/Ant-Fem or possibly just +Sem/Fem, +Sem/Mal
OR
+Sem/Fem-Sur, Sem/Mal-Patr, +Sem/Fem-Ant or simply +Sem/Fem, Sem/Mal

There are merits to both:
+Sem/Sur, +Sem/Patr, +Sem/Ant automatically indicates that we are dealing with names.

+Sem/Fem(-...) and +Sem/Mal(-...) indicates we are dealing with categories that might have direct bearing on congruence.
Comment 21 Sjur Nørstebø Moshagen 2020-04-02 10:21:44 CEST
Eg føreslår at slike allmenne diskusjonar blir flytta over i Zulip, t.d. https://giella.zulipchat.com/#narrow/stream/124588-all_langs, og med ein eigen tråd, t.d. #Semtags.

I suggest we use Zulip and not Bugzilla for discussions like these, going forward.
Comment 22 Linda Wiechetek 2020-04-17 12:05:04 CEST
virker å være en god løsning