corp/boundcorpus/converted/sma/facta/other_files/Goltelidh_jih_soptsestidh.doc.xml inneholder slike feil: Iea og Ieah (stor I istedenfor liten l) Alle filer burde vært grepa med slike typiske ocr-feil? Store deler av teksten mangler språkmerking slik at det er lite man får ved å bruke ccat -l sme - f.eks. <p type="text"> Åarjelsaemien gïelesne jïjnje låhkoe daerpies - gaajhki skåvloej gaajhkine daltesinie. Daate gærja jih dah tjoejenassh-kaasedth mah meatan, edijieh dam stoerre daarpoem ånnetji unniedidh. Dah joekehth boelhkh daennie gærjesne leah gelline jaepine, joekehth daltesi joekehth daarpoej mietie tjaalasovvem e. Nimhtie dam eah Ieah uvre seamma leahtan mietie dorjesovveme, guktie baakoelæstojste joekoenlaakan maahta vuejnedh. Gaajhkem seamma leahtan mietie ö örnedh, lij ååpsen jïjnje barkoe sjïdteme. Dan stoerre lohkeme-daarpoen tsegkie, libie darhke baajeme sjïdtedh guktie daesnie båata. </p> Teksten er sma og nob, men språkmerkinga er slik: <p type="listitem" xml:lang="isl" <p type="listitem" xml:lang="nob" <p type="text" xml:lang="dan" <p type="text" xml:lang="eng" <p type="text" xml:lang="fin" <p type="text" xml:lang="ger" <p type="text" xml:lang="isl" <p type="text" xml:lang="kal" <p type="text" xml:lang="nno" <p type="text" xml:lang="sme" <p type="text" xml:lang="smj" <p type="text" xml:lang="swe" <p type="title" xml:lang="kal" Slike feil/manglende språkmering ting finner jeg også i svært mange andre filer (grep <p type="text">), f.eks facta/other_files/Goerehtimmie2.4.doc.xml
De delene av tekstene som ikke har språkmerking betyr at de er i det språket som er angitt av mappa de ligger i. Så de avsnittene som ikke er merket med noe språk og ligger under sma er definert som sma. Om du kjører ccat -l sma -r boundcorpus/converted vil alle avsnittene som ikke er merket med noe språk bli skrevet ut. Når det er sagt, så er ikke språkdeteksjonen perfekt.
Når det gjelder feil av Iea/lea kan det løses ved å legge inn søk og erstatt i .xsl filen som hører til filen med feil. Et eksempel på en slik løsning er commit 3137 i boundcorpus.
Dette var litt uklart - hvem skal gjøre det? Jeg, som oppdager feilen? Det kan være flere skanningsfeil - så det burde kanskje gjøres søk i korpus etter slike typiske feil og så få opp alle filene med feil, og så fikse dem. F.eks. så vil tallet 1 i kombinasjon med bokstaver, være kandidater. En annen er j på slutten av ord kombinert med lite trolige bokstaver, f.eks. tj (jeg har sett fra noen tekster at det er tendens til orddeling etter bokstaven j).
Jeg avslutter bug 1034 og overfører den hit. Jeg har ryddet i fila med eksemplerog sortert og unifisert. For noen måneder siden skannet Thomas 'Gåebrehki soptsesh' for meg, og av rtf-filene lagde jeg en txt-fil for å se på adjektiver og se på disambiguering. Siden jeg hadde tenkt å bruke fila kun for egne eksperimenter, så fjerna jeg bildetekster, ordlister og norsk tekst. Og jeg retta mye ocr-feil. Nå har jeg diffet den originale fila med den nye, dvs. versjoner med ett ord pr linje, for å få med det som er relevant. Rettinger som ikke var pga ocr-feil, har jeg prøvd å fjerne fra diff-fila så det er enklere å se hva som er relevant. Vedlagt er ei fil som kan være til hjelp for å finne ocr-feil i sørsamisk tekst. Jeg tror ikke Gåebrehki soptsesh er i korpuset, så denne bug-meldinga er ment på generell basis, for å gi en ide om hva slags ocr-feil man kan søke for i andre skannete tekster. Prøver å legge til fila. Fila heter ocr_errors_sma.txt. Den burde legges inn i svn, men hvor?
*** Bug 1034 has been marked as a duplicate of this bug. ***
Created attachment 105 [details] list of ocr errors in sma-text her kommer fila
Sjur's suggestion: We use correct markup conventions for OCR-files in orig/. Then, convert2xml.pl will convert gærjarn$gærjam to gærjam. This presupposes two orig files: originalocrfile.doc (for the ocr-ed file) and originalocrfile.ocrcorrect.doc (for the manually corrected file). The former file is in the XXX directory (to be named) and the latter is in orig, and has an xsl file, as usual. Bug kept open until implemented. Whether to use the ocr_errors_sma.txt file (i.e. impoved versions of it) or not in the conversion remains an open issue. One possibility would be to first automatic, and then manually, with everything marked with err$corr as result.
Vart det skriptet implementert? Det ser slik ut: apache_corpus$grep Iea *corpus/converted/sma/*/*/* apache_corpus$grep Iea *corpus/converted/sma/*/* boundcorpus/converted/sma/ficti/Båavjoeminie.doc.xml:- Nov sån lea jienehke laste kruana, mohte gelliem lehkiem hov Iea apache_corpus$grep Iea *corpus/converted/sma/* Men eg hadde gjerne sett at den som la inn skriptet (sjå forrige melding) også lukka bugen.
Eg går no gjennom denne buggen (merka som P2). Eg skulle gjerne visst om OCR-filene er flytta, og i tilfelle kor. I alle fall er det ingen feilaktige Iea-former i converted, men det er heller ingen Goltelidh_jih_soptsestidh.doc.xml der.
Denne buggen gjeld sma, men merk at Iea (stor i) finst i sme også: boundcorpus$ccat -l sme ../freecorpus/converted/sme/|grep 'Iea '|wc -l 24 boundcorpus$ccat -l sme converted/sme/|grep 'Iea '|wc -l 0
Flytter denne til Børre, for vurdering om denne kan lukkes
more email testing
asdf