Denne saka har vært diskutert på epost, men jeg skriver BZ slik at den ikke blir glemt av. Sammensetninger med bindestrek av navn på tre bokstaver, ala Alf-Einar, blir ikke godkjent av hfst-norm. Se eksempler her: sme/src/morphology/incoming/Cmp_NotHfst_ButxfstNorm.txt Hvis det er enighet om at disse skal slippes fri (med bindestrek), bør man kanskje fjerne slike sammensetninger fra propernouns-fila, hvor det er leksikalisert 78 av dem? grep '^...\-' smi-propernouns.lexc |egrep '(mal|fem)' |wc -l 78
Jeg minner om denne saka. Jeg har analysert hele korpuset med hfstNorm, og analysert missinglista med xsftNorm. Denne fila viser hvilke missing som får analyse med xsftNorm, men ikke med hfstNorm: sme/src/morphology/incoming/notHFSTnorm_but_XSFTnorm.txt Fila viser at sammensetninger med navn på tre bokstaver, fremdeles ikke blir godkjent av hfstNorm (og dermed Divvun): Aas-Hansen Alf-Erling Alf-Evald Alf-Helge Alf-Isak Alf-Magne ...