Her vil vi ha diskusjoner angånde semantiske kategorier, bruk av tagger, overflødige tagger, muligens flere distinksjoner, osv. Det blir lettere å følge med og dokumentere på denne måten.
Spørsmål om hovedtagg og undergruppe. De mange tilfeller har vi hovedkategori og under-gruppe som er en delmengde av hovedkategorien, f.eks. +Sem/Tool +Sem/Tool-catch +Sem/Tool-clean +Sem/Tool-it +Sem/Tool-measr +Sem/Tool-music +Sem/Tool-write Dette vil si at vi i CG legger alle disse under Sem/Tool, f.eks. for å finne komitativ vs. lokativ, bortsett fra de gangene vi ønsker å differensiere. Hvordan er det med -part? +Sem/Build-part +Sem/Clth-part +Sem/Plant-part Jeg ser at +Sem/Clth-part er slike ting som man ikke kler på seg (riesa, lubma), Sem/Plant-part er kanskje litt samme fordi man kan plante soahki, men ikke soahkelasta? Jeg ser at Sem/Build-part som oftest er rom, f.eks. gievkkan. Sem/Build har ikke ekstra tagg Sem/Plc, men ved å være Sem/Build, tar vi dette settet med i PLACE-kategorien. De fleste medlemmene av +Sem/Build-part passer også der, men ikke alle, fordi her er også noen medlemmer som seaidni og sis-gáhttu. Dette burde differensieres. Hvis det passer å si at -part ikke har samme syntaktiske kjennetegn som hovedkategorien, kunne vi lage et sett +Sem/Build-room for gievkkan med venner? Dette sette vil man også intuitivt forstå at inneholder substantiv som passer inn i PLACE. Og da kan vi ha som hovedregel at -part-settene ikke er delsett av hovedkategorien.
I sme-katalogen har vi denne taggen lea +Sem/Body-abstr_Feat-cogn men vi har ingen Feat-cogn Vi har: LIST Sem/Feat-measr = LIST Sem/Feat-phys = LIST Sem/Feat-psych = Skal +Sem/Body-abstr_Feat-cogn egentlig være +Sem/Body-abstr_Feat-psych?
(In reply to Lene Antonsen from comment #1) > Spørsmål om hovedtagg og undergruppe. > Dette burde differensieres. Hvis det passer å si at -part ikke har samme > syntaktiske kjennetegn som hovedkategorien, kunne vi lage et sett > +Sem/Build-room for gievkkan med venner? Dette sette vil man også intuitivt > forstå at inneholder substantiv som passer inn i PLACE. > > Og da kan vi ha som hovedregel at -part-settene ikke er delsett av > hovedkategorien. Jeg foreslå part uten bindestrek: +Sem/Buildpart +Sem/Clthpart +Sem/Plantpart tilsvarende at vi har +Sem/Aniprod som jo er noe annet enn +Sem/Ani +Sem/Ani-fish Dvs at med bindestrek: underkategori uten bindestrek: en ny hovedkategori
(In reply to Lene Antonsen from comment #1) > Spørsmål om hovedtagg og undergruppe. > > De mange tilfeller har vi hovedkategori og under-gruppe som er en delmengde > av hovedkategorien, f.eks. > > +Sem/Tool > +Sem/Tool-catch > +Sem/Tool-clean > +Sem/Tool-it > +Sem/Tool-measr > +Sem/Tool-music > +Sem/Tool-write > > Dette vil si at vi i CG legger alle disse under Sem/Tool, f.eks. for å finne > komitativ vs. lokativ, bortsett fra de gangene vi ønsker å differensiere. > > Hvordan er det med -part? > +Sem/Build-part > +Sem/Clth-part > +Sem/Plant-part > > Jeg ser at +Sem/Clth-part er slike ting som man ikke kler på seg (riesa, > lubma), Sem/Plant-part er kanskje litt samme fordi man kan plante soahki, > men ikke soahkelasta? > > Jeg ser at Sem/Build-part som oftest er rom, f.eks. gievkkan. Sem/Build har > ikke ekstra tagg Sem/Plc, men ved å være Sem/Build, tar vi dette settet med > i PLACE-kategorien. De fleste medlemmene av +Sem/Build-part passer også der, > men ikke alle, fordi her er også noen medlemmer som seaidni og sis-gáhttu. > > Dette burde differensieres. Hvis det passer å si at -part ikke har samme > syntaktiske kjennetegn som hovedkategorien, kunne vi lage et sett > +Sem/Build-room for gievkkan med venner? Dette sette vil man også intuitivt > forstå at inneholder substantiv som passer inn i PLACE. > > Og da kan vi ha som hovedregel at -part-settene ikke er delsett av > hovedkategorien. Ja det er sånn som du sier og for å bli konsekvent foreslår æ at vi skriver: Sem/Buildpart Sem/Clthpart Sem/Plantpart i ett ord for det som ikke kan karakteriseres som Build, Clth eller Plant. Og at vi lager den taggen du foreslår for ord som "gievkan", dvs.: Sem/Build-room
(In reply to Lene Antonsen from comment #2) > I sme-katalogen har vi denne taggen lea +Sem/Body-abstr_Feat-cogn > men vi har ingen Feat-cogn > > Vi har: > LIST Sem/Feat-measr = > LIST Sem/Feat-phys = > LIST Sem/Feat-psych = > > Skal +Sem/Body-abstr_Feat-cogn egentlig være +Sem/Body-abstr_Feat-psych? Ja, vi tar Feat-psych og sletter Feat-cogn. Tror det kanskje er en feil at Feat-cogn kom inn. Æ har det ihvertfall ikke i min liste over mulige tagger.
(In reply to Lene Antonsen from comment #3) > (In reply to Lene Antonsen from comment #1) > > Spørsmål om hovedtagg og undergruppe. > > > Dette burde differensieres. Hvis det passer å si at -part ikke har samme > > syntaktiske kjennetegn som hovedkategorien, kunne vi lage et sett > > +Sem/Build-room for gievkkan med venner? Dette sette vil man også intuitivt > > forstå at inneholder substantiv som passer inn i PLACE. > > > > Og da kan vi ha som hovedregel at -part-settene ikke er delsett av > > hovedkategorien. > > Jeg foreslå part uten bindestrek: > > +Sem/Buildpart > +Sem/Clthpart > +Sem/Plantpart > > tilsvarende at vi har > > +Sem/Aniprod > som jo er noe annet enn > > +Sem/Ani > +Sem/Ani-fish > > Dvs at med bindestrek: underkategori > uten bindestrek: en ny hovedkategori Ja, æ er enig. Foreslo akkurat det samme uten at æ så kommentaren din :)
> Ja, vi tar Feat-psych og sletter Feat-cogn. Tror det kanskje er en feil at > Feat-cogn kom inn. Æ har det ihvertfall ikke i min liste over mulige tagger. jeg har sjekket inn endringene i sme, smj og smn.
> Sem/Buildpart > Sem/Clthpart > Sem/Plantpart > > i ett ord for det som ikke kan karakteriseres som Build, Clth eller Plant. > > Og at vi lager den taggen du foreslår for ord som "gievkan", dvs.: > > Sem/Build-room Jeg kan endre dette for de samiske språkene. Når det gjelder å endre fra Sem/Buildpart til Sem/Build-room, så bør dette gjøres av hver enkelt lingvist for sitt språk. Jeg kan ta sme.
(In reply to Lene Antonsen from comment #8) > > Sem/Buildpart > > Sem/Clthpart > > Sem/Plantpart > > > > i ett ord for det som ikke kan karakteriseres som Build, Clth eller Plant. > > > > Og at vi lager den taggen du foreslår for ord som "gievkan", dvs.: > > > > Sem/Build-room > > Jeg kan endre dette for de samiske språkene. Når det gjelder å endre fra > Sem/Buildpart til Sem/Build-room, så bør dette gjøres av hver enkelt > lingvist for sitt språk. Jeg kan ta sme. Æ forandrer i sme gramchk-filan når leksikonet er klar. Så gjerne si ifra når du er ferdig.
> Æ forandrer i sme gramchk-filan når leksikonet er klar. Så gjerne si ifra > når du er ferdig. Jeg er ferdig.
(In reply to Lene Antonsen from comment #10) > > Æ forandrer i sme gramchk-filan når leksikonet er klar. Så gjerne si ifra > > når du er ferdig. > > Jeg er ferdig. Takk! Da setter æ igang.
(In reply to Linda Wiechetek from comment #11) > (In reply to Lene Antonsen from comment #10) > > > Æ forandrer i sme gramchk-filan når leksikonet er klar. Så gjerne si ifra > > > når du er ferdig. > > > > Jeg er ferdig. > > Takk! Da setter æ igang. Nå har æ oppdatert de semantiske taggan i valency.cg3, grammarchecker.cg3 og mwe-dis.cg3: Sem/Buildpart Sem/Clthpart Sem/Plantpart Sem/Build-room
Jeg har laget et forslag til automatisk skripting for å oppdatere taggene alle steder hvor de skal oppdateres, vi kan diskutere dette i neste uke.
(In reply to Lene Antonsen from comment #13) > Jeg har laget et forslag til automatisk skripting for å oppdatere taggene > alle steder hvor de skal oppdateres, vi kan diskutere dette i neste uke. Inkluderer det taggdefinisjonan av denne typen? LIST Sem/Body = Sem/Body Sem/Body_Body-abstr Sem/Body_Clth Sem/Body_Food Sem/Body_Group_Hum Sem/Body_Group_Hum_Time Sem/Body_Hum Sem/Body_Mat Sem/Body_Measr Sem/Body_Obj_Tool-catch Sem/Body_Plc Sem/Body_Time ; Dvs. blir alle nye tagkombinasjonan oppdatert i settan?
> Inkluderer det taggdefinisjonan av denne typen? > > LIST Sem/Body = Sem/Body Sem/Body_Body-abstr Sem/Body_Clth Sem/Body_Food > Sem/Body_Group_Hum Sem/Body_Group_Hum_Time Sem/Body_Hum Sem/Body_Mat > Sem/Body_Measr Sem/Body_Obj_Tool-catch Sem/Body_Plc Sem/Body_Time ; > > Dvs. blir alle nye tagkombinasjonan oppdatert i settan? Ja, det er meninga. Semtaggene skal inn i flere filer i forskjellige formater, og meninga er at skriptet skal gjøre dette. Jeg har laget et halvferdig skript, men jeg trenger hjelp til å gjøre det helt ferdig. Og vi må se på noen tekniske løsninger, som f.eks. å ha semsettene i en egen fil som inkluderes i cg3-fila via INCLUDE, slik som jeg nå har gjort for sme. Men meninga var at vi diskuterer dette på møtet slik at vi kan ta hensyn til alle filer og behov når det gjelder semsettene.
Noen som vil se på sammensatte ord som slutter på -prográmma sammen med meg. Det er todelt utfordring; forstå hva begrepene faktisk betyr/inneholder, samt tag'e de med riktig Sem-tag ut i fra dette. De tag'ene som går igjen for denne "ordgruppen" er sålangt Act, Edu, Tool-it, Prod-vis, Prod-audio; dvs veldig varierende fra "program" til "program" :-) Her er de utaggede fra smj (er laangt flere i sma): belludakprográmma gæhttjaladdamprográmma kvalitæhttaprográmma lånudallamprográmma nuppástuhttemprográmma oasseprográmma rekruttierimprográmma teknihkkaprográmma vitalisierimprográmma válggaprográmma (taget med Sem/Prod, uvisst om det er for uspesifisert) álggoálmmukprográmma árvvobuvtadimprográmma åvdedimprográmma prográmma som enkeltstående ord er nå tagget +Sem/Act_Tool-it -men det skulle strengt tatt også vært tagget med Edu, Prod-vis også, i hvertfall? Og hva med Txt???
(In reply to Elena Junie Paulsen from comment #16) > Noen som vil se på sammensatte ord som slutter på -prográmma sammen med meg. > Det er todelt utfordring; forstå hva begrepene faktisk betyr/inneholder, > samt tag'e de med riktig Sem-tag ut i fra dette. De tag'ene som går igjen > for denne "ordgruppen" er sålangt Act, Edu, Tool-it, Prod-vis, Prod-audio; > dvs veldig varierende fra "program" til "program" :-) > > Her er de utaggede fra smj (er laangt flere i sma): > belludakprográmma > gæhttjaladdamprográmma > kvalitæhttaprográmma > lånudallamprográmma > nuppástuhttemprográmma > oasseprográmma > rekruttierimprográmma > teknihkkaprográmma > vitalisierimprográmma > válggaprográmma (taget med Sem/Prod, uvisst om det er for uspesifisert) > álggoálmmukprográmma > árvvobuvtadimprográmma > åvdedimprográmma > > > prográmma som enkeltstående ord er nå tagget +Sem/Act_Tool-it > -men det skulle strengt tatt også vært tagget med Edu, Prod-vis også, i > hvertfall? Og hva med Txt??? I sme ser det slik ut: når det er et dataprogram så blir det Sem/Tool-it når det er et programm som et parti (belludakprográmma?) eller en organisasjon har så burde det bli Txt Txt fordi det går an å si "I programmet står det følgende" eller "Programmet sier følgende" Act skal det bli når det er en rekke av aktiviteter og man kan si "prográmma maŋŋel" Edu burde det være når man kan si: "Mun váccán ...prográmma", sånn som man kan si "Mun váccán skuvlla", hvis det ikke går an å si det om bare prográmma, så burde det ikke få Edu Når det er noe man kan se på, sånn som et TV-program, så burde det være Prod-vis. Om man kan si "Mun geahčan prográmma" så kan "prográmma" få Prod-vis også. Det er lurt å se i korpus om ordan virkelig blir brukt sånn som man tror. Man kan får store overraskelser..
Nå har æ oppdatert semtaggan i den lulesamiske disambiguatoren: smj/src/syntax/disambiguator.cg3 også.
(In reply to Linda Wiechetek from comment #18) > Nå har æ oppdatert semtaggan i den lulesamiske disambiguatoren: > smj/src/syntax/disambiguator.cg3 også. og jeg har oppdatert sme, smn, sma
(In reply to Lene Antonsen from comment #1) > Spørsmål om hovedtagg og undergruppe. > > De mange tilfeller har vi hovedkategori og under-gruppe som er en delmengde > av hovedkategorien, f.eks. > > +Sem/Tool > +Sem/Tool-catch > +Sem/Tool-clean > +Sem/Tool-it > +Sem/Tool-measr > +Sem/Tool-music > +Sem/Tool-write > I am working with languages in the Russian environment where names include both GENDER and TYPE: +Sem/Fem +Sem/Mal +Sem/Sur +Sem/Patr +Sem/Ant (This is Apertium for anthroponym, which I quess would distinguish them from dog, cat and other names for pets. Russian has nick names that do not distinguish Fem vs Mal, so it is good to know which Sasha or Evgeni you are talking about.) My question is one of categorization: +Sem/Sur-Fem, +Sem/Patr-Mal, +Sem/Ant-Fem or possibly just +Sem/Fem, +Sem/Mal OR +Sem/Fem-Sur, Sem/Mal-Patr, +Sem/Fem-Ant or simply +Sem/Fem, Sem/Mal There are merits to both: +Sem/Sur, +Sem/Patr, +Sem/Ant automatically indicates that we are dealing with names. +Sem/Fem(-...) and +Sem/Mal(-...) indicates we are dealing with categories that might have direct bearing on congruence.
Eg føreslår at slike allmenne diskusjonar blir flytta over i Zulip, t.d. https://giella.zulipchat.com/#narrow/stream/124588-all_langs, og med ein eigen tråd, t.d. #Semtags. I suggest we use Zulip and not Bugzilla for discussions like these, going forward.
virker å være en god løsning