Bug 1024 - ocr-feil og språkmerkingsfeil i sma
Summary: ocr-feil og språkmerkingsfeil i sma
Status: ASSIGNED
Alias: None
Product: Corpus
Classification: Unclassified
Component: Text corpus infrastructure (show other bugs)
Version: unspecified
Hardware: All Other
: P2 - As soon as possible major
Assignee: Børre Gaup
URL:
Keywords:
: 1034 (view as bug list)
Depends on:
Blocks:
 
Reported: 2011-05-17 20:26 CEST by Lene Antonsen
Modified: 2018-04-25 10:46 CEST (History)
3 users (show)

See Also:


Attachments
list of ocr errors in sma-text (17.50 KB, text/plain)
2011-05-27 07:54 CEST, Lene Antonsen
Details

Note You need to log in before you can comment on or make changes to this bug.
Description Lene Antonsen 2011-05-17 20:26:55 CEST
corp/boundcorpus/converted/sma/facta/other_files/Goltelidh_jih_soptsestidh.doc.xml

inneholder slike feil:

Iea og Ieah (stor I istedenfor liten l) 
Alle filer burde vært grepa med slike typiske ocr-feil?

Store deler av teksten mangler språkmerking slik at det er lite man får ved å bruke ccat -l sme - f.eks.

  <p type="text">
Åarjelsaemien gïelesne jïjnje låhkoe daerpies - gaajhki skåvloej gaajhkine daltesinie. Daate gærja jih dah tjoejenassh-kaasedth mah meatan, edijieh dam
 stoerre daarpoem ånnetji unniedidh. Dah joekehth boelhkh daennie gærjesne leah gelline jaepine, joekehth daltesi joekehth daarpoej mietie tjaalasovvem
e. Nimhtie dam eah Ieah uvre seamma leahtan mietie dorjesovveme, guktie baakoelæstojste joekoenlaakan maahta vuejnedh. Gaajhkem seamma leahtan mietie ö
örnedh, lij ååpsen jïjnje barkoe sjïdteme. Dan stoerre lohkeme-daarpoen tsegkie, libie darhke baajeme sjïdtedh guktie daesnie båata.
 </p>

Teksten er sma og nob, men språkmerkinga er slik:
 <p type="listitem" xml:lang="isl"
   <p type="listitem" xml:lang="nob"
  <p type="text" xml:lang="dan"
  <p type="text" xml:lang="eng"
  <p type="text" xml:lang="fin"
  <p type="text" xml:lang="ger"
  <p type="text" xml:lang="isl"
  <p type="text" xml:lang="kal"
  <p type="text" xml:lang="nno"
  <p type="text" xml:lang="sme"
  <p type="text" xml:lang="smj"
  <p type="text" xml:lang="swe"
  <p type="title" xml:lang="kal"
  
Slike feil/manglende språkmering ting finner jeg også i svært mange andre filer (grep <p type="text">), f.eks
facta/other_files/Goerehtimmie2.4.doc.xml
Comment 1 Børre Gaup 2011-05-20 12:59:44 CEST
De delene av tekstene som ikke har språkmerking betyr at de er i det språket som er angitt av mappa de ligger i. Så de avsnittene som ikke er merket med noe språk og ligger under sma er definert som sma. Om du kjører ccat -l sma -r boundcorpus/converted vil alle avsnittene som ikke er merket med noe språk bli skrevet ut.

Når det er sagt, så er ikke språkdeteksjonen perfekt.
Comment 2 Børre Gaup 2011-05-20 13:12:31 CEST
Når det gjelder feil av Iea/lea kan det løses ved å legge inn søk og erstatt i .xsl filen som hører til filen med feil.

Et eksempel på en slik løsning er commit 3137 i boundcorpus.
Comment 3 Lene Antonsen 2011-05-21 21:04:08 CEST
Dette var litt uklart - hvem skal gjøre det? Jeg, som oppdager feilen?

Det kan være flere skanningsfeil - så det burde kanskje gjøres søk i korpus etter slike typiske feil og så få opp alle filene med feil, og så fikse dem. F.eks. så vil tallet 1 i kombinasjon med bokstaver, være kandidater. En annen er j på slutten av ord kombinert med lite trolige bokstaver, f.eks. tj (jeg har sett fra noen tekster at det er tendens til orddeling etter bokstaven j).
Comment 4 Lene Antonsen 2011-05-27 07:51:25 CEST
Jeg avslutter bug 1034 og overfører den hit. Jeg har ryddet i fila med eksemplerog sortert og unifisert.


For noen måneder siden skannet Thomas 'Gåebrehki soptsesh' for meg, og av
rtf-filene lagde jeg en txt-fil for å se på adjektiver og se på disambiguering.
Siden jeg hadde tenkt å bruke fila kun for egne eksperimenter, så fjerna jeg
bildetekster, ordlister og norsk tekst. Og jeg retta mye ocr-feil. Nå har jeg
diffet den originale fila med den nye, dvs. versjoner med ett ord pr linje, for
å få med det som er relevant. Rettinger som ikke var pga ocr-feil, har
jeg prøvd å fjerne fra diff-fila så det er enklere å se hva som er relevant.

Vedlagt er ei fil som kan være til hjelp for å finne ocr-feil i sørsamisk
tekst.

Jeg tror ikke Gåebrehki soptsesh er i korpuset, så denne bug-meldinga er ment
på generell basis, for å gi en ide om hva slags ocr-feil man kan søke for i
andre skannete tekster. Prøver å legge til fila. Fila heter ocr_errors_sma.txt. Den burde legges inn i svn, men hvor?
Comment 5 Lene Antonsen 2011-05-27 07:52:31 CEST
*** Bug 1034 has been marked as a duplicate of this bug. ***
Comment 6 Lene Antonsen 2011-05-27 07:54:55 CEST
Created attachment 105 [details]
list of ocr errors in sma-text

her kommer fila
Comment 7 Trond Trosterud 2011-06-01 16:02:55 CEST
Sjur's suggestion:

We use correct markup conventions for OCR-files in orig/. Then, convert2xml.pl will convert gærjarn$gærjam to gærjam. This presupposes two orig files: 

originalocrfile.doc (for the ocr-ed file) and
originalocrfile.ocrcorrect.doc (for the manually corrected file).

The former file is in the XXX directory (to be named) and the latter is in orig, and has an xsl file, as usual.

Bug kept open until implemented.

Whether to use the ocr_errors_sma.txt file (i.e. impoved versions of it) or not in the conversion remains an open issue. One possibility would be to first automatic, and then manually, with everything marked with err$corr as result.
Comment 8 Trond Trosterud 2012-08-16 18:09:25 CEST
Vart det skriptet implementert?

Det ser slik ut:

apache_corpus$grep Iea *corpus/converted/sma/*/*/*
apache_corpus$grep Iea *corpus/converted/sma/*/*
boundcorpus/converted/sma/ficti/Båavjoeminie.doc.xml:- Nov sån lea jienehke laste kruana, mohte gelliem lehkiem hov Iea
apache_corpus$grep Iea *corpus/converted/sma/*

Men eg hadde gjerne sett at den som la inn skriptet (sjå forrige melding) også lukka bugen.
Comment 9 Trond Trosterud 2014-12-11 11:09:00 CET
Eg går no gjennom denne buggen (merka som P2). 

Eg skulle gjerne visst om OCR-filene er flytta, og i tilfelle kor. I alle fall er det ingen feilaktige Iea-former i converted, men det er heller ingen Goltelidh_jih_soptsestidh.doc.xml der.
Comment 10 Trond Trosterud 2014-12-11 11:09:00 CET
Eg går no gjennom denne buggen (merka som P2). 

Eg skulle gjerne visst om OCR-filene er flytta, og i tilfelle kor. I alle fall er det ingen feilaktige Iea-former i converted, men det er heller ingen Goltelidh_jih_soptsestidh.doc.xml der.
Comment 11 Trond Trosterud 2015-01-11 16:15:51 CET
Denne buggen gjeld sma, men merk at Iea (stor i) finst i sme også:

boundcorpus$ccat -l sme ../freecorpus/converted/sme/|grep 'Iea '|wc -l
   24
boundcorpus$ccat -l sme converted/sme/|grep 'Iea '|wc -l
    0
Comment 12 Lene Antonsen 2016-12-15 09:35:49 CET
Flytter denne til Børre, for vurdering om denne kan lukkes
Comment 13 Børre Gaup 2018-04-24 16:45:59 CEST
more email testing
Comment 14 Børre Gaup 2018-04-25 10:46:32 CEST
asdf