Friday, October 21, 2016

Cairo Gazetteer : un thesaurus pour l'identification des monuments du Caire

Cairo Gazetteer : un thesaurus pour l'identification des monuments du Caire
Au XIXe siècle, le voyage au Caire, deuxième ville après Rome pour l’exceptionnelle concentration de ses monuments, faisait partie du « grand tour » de nombreux artistes et architectes. Avec les édifices andalous et persans, l’architecture du Caire médiéval occupe une place centrale dans la découverte de l’art islamique. Les institutions patrimoniales européennes conservent ainsi des collections d’œuvres graphiques et photographiques de très grande valeur, dont l’intérêt est à la fois scientifique, artistique et, en raison de la disparition progressive de ce patrimoine architectural, historique. Ces fonds rassemblent parfois la seule documentation encore subsistante sur des édifices disparus, très dégradés ou radicalement transformés. Ces collections riches, variées et au caractère souvent unique restent cependant à peu près invisibles et inexploitées faute d’une indexation appropriée. Ce type de corpus soulève des difficultés particulières de traitement en matière d’identification et d’indexation, en raison des multiples variantes issues de la translittération, en caractères latins, des toponymes arabes. Il existe en effet de très nombreuses disparités dans l’orthographe des noms des monuments et cette « cacographie » demeure problématique pour le traitement documentaire et l’interopérabilité des données. Le laboratoire InVisu a donc établi un référentiel sur les monuments du Caire, sous la forme d’une table de concordance qui recense les variantes orthographiques des toponymes, et qui permet d’identifier, de décrire et de localiser les 600 édifices classés du Caire. Les monuments ont été localisés dans la base de données géographiques GeoNames (plus de 400 monuments créés), ce qui a permis de générer leurs coordonnées géographiques et d’exposer une partie des données de ce référentiel dans le Linked Open Data. Le projet Cairo Gazetteer vise la mise à disposition, au niveau de la communauté européenne des humanités numériques, de l’intégralité de ce référentiel en le publiant au format SKOS (Simple Knowledge Organization System).
À chaque monument correspond un concept SKOS (skos:Concept), identifié par un URI (Uniform Resource Identifier). Ce référentiel est multilingue : des termes préférentiels (skos:prefLabel) sont associés au concept en arabe (skos:prefLabel@ar) et en français (forme courante, skos:prefLabel@fr). Des langues « virtuelles » ont été créées pour les translittérations normalisées : ISO 233-2 (1993) (skos:prefLabel@ISO), et ALA-LC de lAmerican Library Association-Library of Congress (skos:preflabel@ALA). Les variantes des toponymes sont décrites comme des termes alternatifs (skos:altLabel@MUL) avec le code ISO MUL pour « multiple langages ». Ces variantes sont également identifiées par des URI afin de pouvoir indiquer leur source bibliographique dans une note éditoriale. La typologie du monument est exprimée par la relation à un terme générique (skos:broader), défini dans un thésaurus sur l’architecture, en français, en anglais et en arabe, aligné sur les référentiels de data.bnf, de la Library of Congress et du Getty. Le monument est associé (skos:relatedMatch) à son fondateur (en lien avec les ressources de data.bnf, de la Library of Congress, de DBpedia, de VIAF et de l’ISNI) et à son quartier (en lien avec GeoNames). Le référentiel propose aussi un alignement (skos:exactMatch, skos:closeMatch) avec data.bnf, les Subject Headings de la Library of Congress, DBpedia, VIAF et GeoNames. Une notice descriptive (skos:definition) en français, en anglais et en arabe mentionne la date de construction, la localisation (adresse et coordonnées géographiques), le numéro d’inventaire, et indique s’il existe des risques de confusion avec d’autres monuments.
Ce référentiel propose une solution innovante pour le traitement des multiples variantes issues de la translittération des toponymes arabes. Il répond aux besoins d’une large communauté scientifique transdisciplinaire, en offrant aux historiens, historiens de l'art, architectes, restaurateurs, conservateurs, bibliothécaires et iconographes, un outil pour l’identification, l’indexation et la valorisation de fonds iconographiques et textuels relatifs aux monuments du Caire.
Le projet Cairo Gazetteer a été retenu comme contribution de la France à l'infrastructure européenne de recherche Dariah. Il a permis la création et l’enrichissement d’une soixantaine de notices d’autorités géographiques dans le catalogue de la BnF, pour l’indexation du fonds du photographe Beniamino Facchinelli (actif au Caire de 1876 à 1895), traité en collaboration avec le département des Estampes et de la Photographie. Il va également servir à l’indexation de l’intégralité des travaux du Comité de conservation des monuments de l’art arabe, qui vont être mis à disposition sur le portail Persée dans le cadre du projet Athar, lauréat de l’appel à projet BSN5.

Termes de premier niveau

Open Access Journal: Mashriq & Mahjar: Journal of Middle East Migration Studies

[First Posted in AMIR 28 February 2013, updates 21 October 2016]

Mashriq & Mahjar: Journal of Middle East Migration Studies
ISSN:  2169-4435

 

Mashriq and MahjarJournal of Middle East Migration Studies is a bi-annual electronic publication devoted to disseminating original research on migration from, to, and within the region now commonly known as the 'Middle East.' Its primary focus is on the Eastern Mediterranean. However, its scope also extends to Iran, Turkey, Greece and the Balkans, Egypt, and the Arabian Peninsula, and to all parts of the world affected by Middle Eastern migration, from the Americas and Africa to Australia and South-East Asia. The journal welcomes submissions on all aspects of human movement and the circulation of ideas, cultural artifacts, and commodities, from the disciplinary perspectives of history, anthropology, economics, political science, sociology, art history, literary studies, and comparative religion. Each issue contains double-blind peer-reviewed articles and detailed reviews of relevant publications.






2013



Thursday, October 6, 2016

Open Source Arabic OCR

Working paper :
Important New Developments in Arabographic Optical Character Recognition (OCR) by
Maxim Romanov, Matthew Thomas Miller, Sarah Bowen Savant, and Benjamin Kiessling.
 Highlights from the paper:

"The OpenITI team—building on the foundational open-source OCR work of the Leipzig University’s (LU) Alexander von Humboldt Chair for Digital Humanities—has achieved Optical Character Recognition (OCR) accuracy rates for classical Arabic-script texts in the high nineties " 

"The specific type of OCR software that we employed in our tests is an
open-source OCR program called Kraken, which was developed by Benjamin
Kiessling at Leipzig University’s Alexander von Humboldt Chair for Digital
Humanities. Unlike more traditional OCR approaches, Kraken relies on a neural
network—which mimics the way we learn—to recognize letters in the images of
entire lines of text without trying first to segment lines into words and then words
into letters."


"The most important advantage of Kraken is that its workflow allows one to train new
models relatively easily, including text-specific ones. In a nutshell, the process of
training requires a transcription of approximately 800 lines (the number will vary
depending on the complexity of the typeface) aligned with images of these lines as
they appear in the printed edition."


 "The two rounds of testing presented here indicate that with a fairly modest amount
of gold standard training data (~800–1,000 lines) Kraken is consistently able to
produce OCR results for Arabic-script documents that achieve accuracy rates in the
high nineties."


"In the long term, we will are also planning to train models for other Islamicate languages (Ottoman Turkish,Urdu, Syriac, etc.). Our hope is that an easy-to-use and effective OCR pipeline will allow us all—collectively—to significantly enrich our collection of digital Islamicate texts and thereby enable us to understand better this fascinating and understudied textual tradition."