French ELTEC NER Open Dataset

PID

This dataset is derived from the annotation of named entities in a collection of 100 French novels from the "long" 19th century. The collection was assembled in the framework of the COST Action 16204 "Distant reading", and can be found at the following address: [https://distantreading.github.io/ELTeC/fra/index.html]. From these 100 novels, samples of varying size were extracted and annotated with Stanza-NER. The result was loaded onto Tagtog, for manual verification and re-annotation. We used 8 categories of named entities: PERS: names of persons ORG: names of institutions, organisations ROLE: occupation, social position, family role of the person LOC: place names WORK: works of art (only if they can be identified with certainty, e.g. "Mona Lisa" and not "a painting by Leonardo da Vinci") DEMO (names of distinct peoples or social groups: do not annotate "the weavers", but annotate "the Jacobins") EVENT: designation of historical events, which sometimes, but not necessarily, implies a date (e.g. "the revolution of 18..", "the battle of Jarnac") OTHER The data are loaded in the export formats provided by Tagtog: -- json for annotations -- html for text (without annotations) For more information on the steps of data elaboration, annotation choices and quality control, see the data paper mentioned above. The NER annotation of the entire ELTeC corpus is described in: Francesca Frontini, Carmen Brando, Joanna Byszuk, Ioana Galleron, Diana Santos, and Ranka Stanković. "Named Entity Recognition for Distant Reading in ELTeC". CLARIN Annual Conference 2020, (5-7 October). Virtual Edition. Madrid, Spain: CLARIN, 2020. pp. 37-41, ISSN 2773-2177. https://office.clarin.eu/v/CE-2020-1738-CLARIN2020_ConferenceProceedings.pdf


Ce jeu de données est issu de l’annotation des entités nommées dans une collection de 100 romans français du “long” XIXe siècle. La collection a été rassemblée dans le cadre de l’action COST 16204 “Distant reading”, et peut être trouvée à l’adresse suivante: [https://distantreading.github.io/ELTeC/fra/index.html]. À partir de ces 100 romans, des échantillons de taille variable ont été extraits, puis annotés avec Stanza-NER. Le résultat a été chargé sur Tagtog, pour vérification manuelle et ré-annotation. Nous avons utilisé 8 catégories d’entités nommées: PERS: noms de personnes ORG: noms d’institutions, organisations ROLE: indications sur le métier, la position sociale, le rôle familial de la personne LOC: noms de lieu WORK: oeuvres d’art (seulement si elle peut être identifiée avec certitude, ex. “Mona Lisa” et non pas “un tableau de Leonard de Vinci”) DEMO (noms de peuples ou groupes sociaux distincts: on n’annote pas “les tisserands”, mais on annote “les Jacobins”) EVENT: désignation d’événements historiques, ce qui suppose parfois, mais pas obligatoirement, une date (ex. “la révolution de 18..”, “la bataille de Jarnac”) OTHER Les données sont chargées dans les formats d’export fournis par Tagtog: -- json pour les annotations -- html pour les textes (sans les annotations) Pour plus d’informations sur les étapes d’élaboration des données, les choix d’annotation et le contrôle de la qualité, voir le data paper cité plus haut. L'annotation des entités nommées du corpus ELTeC complet est décrite dans: Francesca Frontini, Carmen Brando, Joanna Byszuk, Ioana Galleron, Diana Santos, and Ranka Stanković. "Named Entity Recognition for Distant Reading in ELTeC". CLARIN Annual Conference 2020, (5-7 October). Virtual Edition. Madrid, Spain: CLARIN, 2020. pp. 37-41, ISSN 2773-2177. https://office.clarin.eu/v/CE-2020-1738-CLARIN2020_ConferenceProceedings.pdf

Identifier
PID http://hdl.handle.net/20.500.11752/OPEN-986
Related Identifier https://hal.science/hal-03160438
Related Identifier https://www.distant-reading.net/
Metadata Access http://dspace-clarin-it.ilc.cnr.it/repository/oai/request?verb=GetRecord&metadataPrefix=oai_dc&identifier=oai:dspace-clarin-it.ilc.cnr.it:20.500.11752/OPEN-986
Provenance
Creator Brando, Carmen; Frontini, Francesca; Galleron, Ioana
Publisher CRH-EHESS; Istituto di Linguistica Computazionale “A. Zampolli” - Consiglio Nazionale delle Ricerche (ILC-CNR); Université Sorbonne Nouvelle, laboratoire Lattice - UMR 8094
Publication Year 2022
Rights Creative Commons - Attribution-ShareAlike 4.0 International (CC BY-SA 4.0); http://creativecommons.org/licenses/by-sa/4.0/; PUB
OpenAccess true
Contact dspace-clarin-it-ilc-help(at)ilc.cnr.it
Representation
Language French
Resource Type corpus
Format application/zip; text/plain; charset=utf-8; downloadable_files_count: 1
Discipline Linguistics