Bug 2689 - Skript for oppdatering av semtagger til forskjellige applikasjoner
Summary: Skript for oppdatering av semtagger til forskjellige applikasjoner
Status: ASSIGNED
Alias: None
Product: Infrastructure
Classification: Unclassified
Component: scripts (show other bugs)
Version: unspecified
Hardware: Macintosh Other
: P4 - Within a month normal
Assignee: Sjur Nørstebø Moshagen
URL:
Keywords:
Depends on:
Blocks:
 
Reported: 2020-10-12 23:35 CEST by Lene Antonsen
Modified: 2022-02-28 11:07 CET (History)
5 users (show)

See Also:


Attachments

Note You need to log in before you can comment on or make changes to this bug.
Description Lene Antonsen 2020-10-12 23:35:19 CEST
Vi hadde et møte om å lage skript for å enkelt kunne oppdatere semtagger til forskjellige applikasjoner:
https://giellalt.uit.no/admin/linguists/190604_semtags.html

Dette burde følges opp. Ved at nye semtagger ikke blir lagt til i cg3 filer og Apertium filer, blir output fra disambiguering og MT dårligere enn det kunne være. Manuell oppdatering er tungvint. Skripting vil også sikre like bra kvalitet for alle samiske språk som bruker semtagger.
Comment 1 Sjur Nørstebø Moshagen 2022-02-28 11:07:22 CET
I innsjekkinga her: https://github.com/giellalt/giella-core/commit/5099317f8dbf61460b45c24602f3d11e9a8dc12b har eg lagt til støtte for å inkludera alle taggar i lexc automatisk i cg3-filer.

Det er enno eit par steg før vi er i mål:

- alle CG-filene må få ein eigen INCLUDE-kommando for å inkludera fila det gjeld
- vi må prata om korleis vi skal handtera ulike måter å byggja på - include-kommandoen krev ein relativ sti, men stien varierer alt etter korleis ein byggjer.

Det siste kan løysast på i alle fall to måtar:

- ved at include-kommandoen nyttar @srcdir@-konvensjonen, cg3-fila endrar namn frå .cg3 til .cg3.in, og blir prosessert av autotools. Dette krev at den eigentlege cg3-fila alltid må genererast
- ved at include ikkje blir prosessert før i ein kopi av cg3-fila, slik at den relative stien alltid stemmer.

Ingen av desse er optimale, og det er lettare å diskutera detaljane + ulemper og fordelar i eit møte enn her.