Bug 2263 - dynamisk cmp med adverb
Summary: dynamisk cmp med adverb
Status: ASSIGNED
Alias: None
Product: sme lexicon
Classification: Unclassified
Component: Continuation lexica (show other bugs)
Version: unspecified
Hardware: Macintosh Other
: P3 - Within a week normal
Assignee: Thomas Omma
URL:
Keywords:
Depends on:
Blocks:
 
Reported: 2016-11-17 10:09 CET by Lene Antonsen
Modified: 2016-11-17 21:13 CET (History)
5 users (show)

See Also:


Attachments

Note You need to log in before you can comment on or make changes to this bug.
Description Lene Antonsen 2016-11-17 10:09:03 CET
Et sak i diskusjonenen om sammensetninger. Dette kommer også opp som et problem når vi lager statistikker over forskjellige typer Cmp, vi får ikke et riktig bilde.

Vi har idag to stier for sammensetning fra adverbfila:

LEXICON gadv  !!= * __@CODE@__ adv that can form compounds			  
+Adv:%> R ;																 

LEXICON gadv-plc  !!= * __@CODE@__ adv that can form compounds		  
+Adv+Sem/Plc+Err/Orth:%> R ;														 
+Adv+Sem/Plc:%> RHyph ;														  																	  

Her er adverbene som går til disse to kontleksene:
dieppe:dieppe gadv-plc ;
doppe:doppe gadv-plc ;
duoppe:duoppe gadv-plc ;
dáppe:dáppe gadv-plc ; 
rastá:rastá gadv-plc ;
sierra:sierra gadv ;

Første spørsmål er om +Err/Orth er riktig? Vi har leksikalisert en del substantiver med dáppe/doppe som førsteledd, uten hyph, og denne typen sammensetning ser ut til å være produktiv. Kanskje burde det være en -Spell tagg istedenfor, hvis man er redd problematiske sammensetninger for spelleren. dieppe- ord kan være problematiske for sammensetninger med diehppi (diehppe-), men Err/Orth likevel ikke riktig tagg?

Andre spørsmål: Flere adverber bør få dynamisk Cmp, et frekvent eksempel er ovddas:
I dag får vi ingen adv cmp analyse:
ovddasmanni	ovddas+N+Cmp/SgNom+Cmp#manni+N+Sg+Nom
 substantivet ovddas (betyr forvarsel, symptom) og har nok ikke noe med noen (?) av sammensetningene vi finner i korpuset med ovddas som førsteledd. 

Forslag: vi åpner for sammensetning med flere adverb.
Comment 1 Lene Antonsen 2016-11-17 10:43:30 CET
for vurderinger av ovddas, om det skulle finnes sammensetninger med substantivet ovddas:
Jeg har sjekka inn fila 
sme/src/morphology/incoming/ovddas_cmp_korpus.txt
med ord fra korpus med ovddas som førsteledd
Comment 2 Lene Antonsen 2016-11-17 11:07:25 CET
I samme sakskompleks:

I noun-stemsfila er det noen forledd som får taggen +N, uten å være substativ, f.eks.
sisa+CmpN/SgN+N+Sem/Dummytag+Cmp/SgNom:sisa%> Rreal ;
sis+CmpN/SgN+N+Sem/Dummytag+Cmp/SgNom:sis%> Rreal ;

Disse burde vel hatt +Adv ?


Og så er det noen som ikke har PoS i det hele tatt, f.eks.
al+Cmp/Sh+Err/CmpSub:al    Rreal ;
mielde+Cmp/Sh:miel   Rreal ; ! From Rnoun, to avoid miel = ShCmp
Comment 3 Lene Antonsen 2016-11-17 11:11:29 CET
> Andre spørsmål: Flere adverber bør få dynamisk Cmp, et frekvent eksempel er
> ovddas:
Andre frekvente eksempler er badje- (betydninga av substantivet badji stemmer ikke med de frekvente sammensetningene). Se eller Nickel/Sammallahti s. 663
Comment 4 Thomas Omma 2016-11-17 11:14:39 CET
great, we do that!
Comment 5 Lene Antonsen 2016-11-17 11:18:16 CET
(In reply to Thomas Omma from comment #4)
> great, we do that!

Kunne du være litt mer spesifikk?
Comment 6 Thomas Omma 2016-11-17 11:23:59 CET
Forslag: vi åpner for sammensetning med flere adverb.

yes!

Disse burde vel hatt +Adv ?

jop!


Og så er det noen som ikke har PoS i det hele tatt, f.eks.
al+Cmp/Sh+Err/CmpSub:al    Rreal ;
mielde+Cmp/Sh:miel   Rreal ; ! From Rnoun, to avoid miel = ShCmp

we put pos!
Comment 7 Trond Trosterud 2016-11-17 21:13:47 CET
Dette er fint. Utfordringa er overgenerering, særleg med korte adverb. Men ja, dei som er både produktive og lange bør vi ha.