Projekti „Eesti avatud paralleelkorpus” eesmärk on luua oluline kogus keeleressursse statistiliste masintõlkesüsteemide parendamiseks. Projekt aitab kaasa olukorra saavutamisele kus: (i) Erinevad kommerts- ja kogukondlikud masintõlkesüsteemid pakuvad kvaliteetset tõlketeenust. (ii) Masintõlkesüsteemide teenused on lõppkasutajatele võimalikult väheste piirangutega (tasu, maht, kasutatavad platvormid) kättesaadavad. (iii) Sõltuvus üksikutest masintõlketeenuste kommertsteenusepakkujatest ei ole kriitiline ja on asendatav avatud ning vabavaraliste lahendustega. Projekti mõõdetavad tulemid on: (i) Kogutud ja korrastatud paralleelkorpuste maht. Projekti esimese aasta jooksul kogutud vähemalt 2,5 miljonit ühikut (sõna), projekti lõpuks vähemalt 15 miljonit ühikut. (ii) Kogutud korpuste - täiedavalt olemasolevatele korpustele - abil treenitud masintõlkesüsteemide kvaliteedinäitajate parenemine (mõõdetakse koostöös masintõlkesüsteemide omanikega). (iii) Kogutud korpused aksepteeritud ja publitseeritud META-SHARE (http://www.meta-net.eu/meta-share) ja CLARIN (http://www.clarin.eu/external/) baasides. Projekti tulemina loodava paralleelkorpuse omadused: • Lause tasandil joondatud inglise-eesti paralleelkorpus. • Korpus kirjeldatakse kasutades META-SHARE metaandmete formaati. • Korpus on kättesaadav tasuta ja piiranguteta kasutamiseks kommerts- ja vabavararakendustes, edasiarendusteks jm. Korpus on allalaaditav nii META-SHARE taristu kui ka CLARINi võrgustiku kaudu. • Korpus koostatakse andmetest mida ei ole seni kasutatud paralleelkorpuste loomiseks (ei kattu olemasolevate paralleelkorpustega DGT ja JRC Aquis).
Märkus. Alamosa korpusest (sh IT aastaraamatud) ajutiselt kvaliteediparanduseks eemaldatud
More info at http://metashare.tilde.com/repository/search/?q=estonian+open+parallel
The English-Estonian parallel corpus was collected in the framework of the National Programme for Estonian Language Technology http://www.keeletehnoloogia.ee/ekt-projektid/eesti-avatud-paralleelkorpus
Note. Part of the corpus temporaly removed for quality improvements
More info at http://metashare.tilde.com/repository/search/?q=estonian+open+parallel