Bug 2286 - Sammensetning av navn på tre bokstaver
Summary: Sammensetning av navn på tre bokstaver
Status: ASSIGNED
Alias: None
Product: sme lexicon
Classification: Unclassified
Component: Continuation lexica (show other bugs)
Version: unspecified
Hardware: Macintosh Other
: P3 - Within a week normal
Assignee: Sjur Nørstebø Moshagen
URL:
Keywords:
Depends on:
Blocks:
 
Reported: 2016-12-05 09:52 CET by Lene Antonsen
Modified: 2017-11-30 07:29 CET (History)
5 users (show)

See Also:


Attachments

Note You need to log in before you can comment on or make changes to this bug.
Description Lene Antonsen 2016-12-05 09:52:17 CET
Denne saka har vært diskutert på epost, men jeg skriver BZ slik at den ikke blir glemt av.


Sammensetninger med bindestrek av navn på tre bokstaver, ala Alf-Einar, blir ikke godkjent av hfst-norm. Se eksempler her:

sme/src/morphology/incoming/Cmp_NotHfst_ButxfstNorm.txt

Hvis det er enighet om at disse skal slippes fri (med bindestrek), bør man kanskje fjerne slike sammensetninger fra propernouns-fila, hvor det er leksikalisert 78 av dem?

grep '^...\-' smi-propernouns.lexc |egrep '(mal|fem)' |wc -l
      78
Comment 1 Lene Antonsen 2017-11-30 00:14:44 CET
Jeg minner om denne saka. Jeg har analysert hele korpuset med hfstNorm, og analysert missinglista med xsftNorm. Denne fila viser hvilke missing som får analyse med xsftNorm, men ikke med hfstNorm:
sme/src/morphology/incoming/notHFSTnorm_but_XSFTnorm.txt

Fila viser at sammensetninger med navn på tre bokstaver, fremdeles ikke blir godkjent av hfstNorm (og dermed Divvun):

Aas-Hansen
Alf-Erling
Alf-Evald
Alf-Helge
Alf-Isak
Alf-Magne
...