Bug 2528 - Common (all_langs) symbols
Summary: Common (all_langs) symbols
Status: RESOLVED FIXED
Alias: None
Product: Infrastructure
Classification: Unclassified
Component: Lexicon (show other bugs)
Version: unspecified
Hardware: All All
: P4 - Within a month normal
Assignee: Sjur Nørstebø Moshagen
URL:
Keywords:
Depends on:
Blocks: 2524
  Show dependency treegraph
 
Reported: 2018-11-05 10:41 CET by Sjur Nørstebø Moshagen
Modified: 2019-03-13 22:36 CET (History)
8 users (show)

See Also:


Attachments

Note You need to log in before you can comment on or make changes to this bug.
Description Sjur Nørstebø Moshagen 2018-11-05 10:41:07 CET
Symbol som §, §§, $, €, © m.fl. bør få ei felles fil for alle språk, tilsvarande tal og teiknsetjingsteikn. Men kva skal analysen vera? Og kor går grensa mellom symbol, teiknsetjing og forkortingar?
Comment 1 Trond Trosterud 2018-11-08 09:01:15 CET
Dette bør vi tenkje gjennom. Prinsippet bør vere å leggje litt til side den metafysiske diskusjonen ("kva er symbolets eignetlege natur, meining, og slikt") og heller tenkje "kva slags klassifisering har den grammatiske analysen mytte av?"

Eg tenkjer slik:

Vi bør skilje mellom grensesymbol og andre symbol.
Grensesymbol: Parantesar og andre grensesymbol, som punktum og semikolon.

I dag er grensesymbol som kan vere setningsgrense CLB, det er fint.

Grensesymbol som er høgre eller venstre bør få ein tag som seier akkurat det, det er nyttig. [](){}, også “”‘’‹› 
Desse er slik i dag:
„	„+PUNCT+LEFT
og det er fint.

I dag har ' " % & same analyse, nemnleg PUNCT
$ £ € er derimot N ABBR

Dette er ikkje optimalt.

Eg (vi) rekk ikkje dette før etter CG-worskshopen, men ja, det bør absolutt vere ei eiga språkuavhengig fil, og det styrande prinsippet bør vere for all ikkjemorfologisk ordklasseinndeling: Det funksjonelle.
Comment 2 Sjur Nørstebø Moshagen 2019-03-13 22:36:17 CET
Dette er no på plass, og har vore det ei lita stund.

Hovudkriteriet for å definera noko som eit symbol er at det er:

* ikkje-alfabetisk
* er ein syntaktisk konsituent, dvs har ei rolle i den syntaktiske analysen
* ikkje markerer ei syntaktisk grense av noko slag

Fila ligg giella-shared/all_langs/src/morphology/stems/symbols.lexc.