Eesti avatud paralleelkorpus Estonian Open Parallel Corpus

PID

Projekti „Eesti avatud paralleelkorpus” eesmärk on luua oluline kogus keeleressursse statistiliste masintõlkesüsteemide parendamiseks. Projekt aitab kaasa olukorra saavutamisele kus: (i) Erinevad kommerts- ja kogukondlikud masintõlkesüsteemid pakuvad kvaliteetset tõlketeenust. (ii) Masintõlkesüsteemide teenused on lõppkasutajatele võimalikult väheste piirangutega (tasu, maht, kasutatavad platvormid) kättesaadavad. (iii) Sõltuvus üksikutest masintõlketeenuste kommertsteenusepakkujatest ei ole kriitiline ja on asendatav avatud ning vabavaraliste lahendustega. Projekti mõõdetavad tulemid on: (i) Kogutud ja korrastatud paralleelkorpuste maht. Projekti esimese aasta jooksul kogutud vähemalt 2,5 miljonit ühikut (sõna), projekti lõpuks vähemalt 15 miljonit ühikut. (ii) Kogutud korpuste - täiedavalt olemasolevatele korpustele - abil treenitud masintõlkesüsteemide kvaliteedinäitajate parenemine (mõõdetakse koostöös masintõlkesüsteemide omanikega). (iii) Kogutud korpused aksepteeritud ja publitseeritud META-SHARE (http://www.meta-net.eu/meta-share) ja CLARIN (http://www.clarin.eu/external/) baasides. Projekti tulemina loodava paralleelkorpuse omadused: • Lause tasandil joondatud inglise-eesti paralleelkorpus. • Korpus kirjeldatakse kasutades META-SHARE metaandmete formaati. • Korpus on kättesaadav tasuta ja piiranguteta kasutamiseks kommerts- ja vabavararakendustes, edasiarendusteks jm. Korpus on allalaaditav nii META-SHARE taristu kui ka CLARINi võrgustiku kaudu. • Korpus koostatakse andmetest mida ei ole seni kasutatud paralleelkorpuste loomiseks (ei kattu olemasolevate paralleelkorpustega DGT ja JRC Aquis).

Märkus. Alamosa korpusest (sh IT aastaraamatud) ajutiselt kvaliteediparanduseks eemaldatud More info at http://metashare.tilde.com/repository/search/?q=estonian+open+parallel

The English-Estonian parallel corpus was collected in the framework of the National Programme for Estonian Language Technology http://www.keeletehnoloogia.ee/ekt-projektid/eesti-avatud-paralleelkorpus

Note. Part of the corpus temporaly removed for quality improvements More info at http://metashare.tilde.com/repository/search/?q=estonian+open+parallel

Identifier
PID http://hdl.handle.net/11297/9-00-0000-0000-0000-0002-0
Metadata Access https://metashare.ut.ee/oai_pmh/?verb=GetRecord&metadataPrefix=olac&identifier=8e640df0913511e2a6e4005056b400244f41012d66af4fb9a5561b867f1e7f57
Provenance
Publisher CLARIN
Contributor Martin Luts, keeletehnoloogia[at]tilde.ee
Publication Year 2022
Rights CC-BY-NC-SA
OpenAccess true
Contact info(at)keeleressursid.ee
Representation
Language English; Estonian
Resource Type Text
Size 2500000 words
Discipline Linguistics