**Le fonds Colbert** _Tout sur les photographies du fonds Colbert._
Par [__Louis Gavalda__](https://louis.ga/), étudiant en [master IMA](https://sciences.sorbonne-universite.fr/formation-sciences/masters/master-informatique/parcours-ima) à [Sorbonne Université](https://www.sorbonne-universite.fr/).
Compte-rendu rédigé dans le cadre de mon stage de fin d’études à l’[Encyclopédie d’histoire numérique de l’Europe](https://ehne.fr/fr).
[[`colbert.ipynb`]())]
![](img/su_sciences.svg width=260px) # Le fonds Colbert ## Les photographies Voici comment est présenté le fonds Colbert sur le [site de l’EHNE](https://ehne.fr/fr) : > Un ensemble important de photographies sur plaques de verre pour projection datant __de la fin du XIXe et du début du XXe siècle__ a été découvert dans les réserves du lycée Colbert, dans le 10e arrondissement de Paris. Ce fonds, contenant __1816 plaques de verre__, couvre l’espace national, l’Europe et certains de ses prolongements dans le reste du monde. Il donne à voir une __représentation française du monde de la Belle Époque et constitue un fonds inédit d’une rare richesse__. > Quelques images tirées de cet ensemble : ![](img/colbert/full/1_20813_9_.jpg)![](img/colbert/full/1_2942_3_.jpg)![](img/colbert/full/1_2946_4_0_.jpg) ![](img/colbert/full/1_2973_17_0_.jpg)![](img/colbert/full/1_315_10_14_0_.jpg)![](img/colbert/full/1_362_25851_.jpg) ![](img/colbert/full/40_10_7720_0_.jpg)![](img/colbert/full/42_30_36433_.jpg)![](img/colbert/full/6_2_10_1791_.jpg) ## Version en ligne La [version en ligne du fonds Colbert](https://ehne.fr/fr/fonds-photographiques) nous permet de visualiser __1162 plaques de verre__ apparemment numérisées dans les mêmes (bonnes) conditions d’éclairage. !!! WARNING L’image [Londres, Mansion House](https://ehne.fr/fr/node/20322) est endommagée et ne peut pas être affichée. !!! WARNING Plusieurs images sont inversées (réflexion horizontale) : [Dunkerque - Le port](https://ehne.fr/fr/node/20118) ; [Arles - le théâtre romain côté de la scène](https://ehne.fr/fr/node/20121) ; etc. Un impressionnant travail d’annotation a été réalisé par les historiens en charge de ce fonds, ce qui permet a chaque photographie d’être précisément décrite. Prenons par exemple l’une des premières images à s’afficher lors de la consultation de la version en ligne : ![[La Rochelle – Port de La Pallice, sous-marins](https://ehne.fr/fr/node/20141).](img/colbert/full/17_30442_.jpg width=480px) Comme pour chaque autre image, nous disposons des informations suivantes : - __Légende d’origine__ : `La Rochelle – Port de La Pallice, sous-marins` - __Légende rédigée pour la version en ligne__ : `La Loutre et l’Oursin, deux sous-marins militaires en surface, avec une partie de leur équipage à bord, sont amarrés le long d’un ponton du port de La Pallice à La Rochelle. Derrière les sous-marins, relevant de la fonction commerciale de ce port, un voilier amarré à un embarcadère, décharge sa cargaison à l’aide d’une grue.` - __Sujet__ : `La Rochelle` ; `La Pallice` ; `Oursin` ; `Loutre` ; `Port` ; `Sous-marin` - __Mots clés descriptifs__ : `Armée/défense` ; `Navire` ; `Sous-marin` ; `Port` ; `Port de guerre/Arsenal` ; `Relief` ; `Transports` ; `Navire de guerre` ; `Sous-marin` - __Mots clés géographiques__ : `Europe` ; `Europe de l’Ouest` ; `France` ; `La Rochelle` - __Lieu__ : `Europe > France > La Rochelle` Est également indiqué le lieu correspondant à la photographie -- la version en ligne va [parfois](https://ehne.fr/fr/node/20119) jusqu’à proposer une photographie récente de ce lieu. # Traitement des images ## Observations Certaines solutions de __vision par ordinateur__ grand public, comme par exemple l’[API Vision de Google](https://cloud.google.com/vision/?hl=fr), permettent d’obtenir des indications extrêmement pertinentes sur la __sémantique__ d’une image : ![](img/google_vision/google_vision_1.png width=480px) (Mais ce ne sera évidemment pas toujours le cas.) Voyons quels résultats nous obtenons en fournissant l’image suivante à l’API de Google : ![[Milan, intérieur du Dôme](https://ehne.fr/fr/node/20649)](img/colbert/full/165_58_.jpg width=480px) Celle-ci croit d’abord qu’il s’agit d’un tableau : ![Image complète.](img/google_vision/google_vision_0.png width=480px) Mais en découpant l’image pour ne conserver que la photographie en son centre, on obtient un résultat satisfaisant : ![Photographie extraite de l’image.](img/google_vision/google_vision_0_cropped.png width=480px) (Ici l’API se focalise sur la photographie et reconnaît bien qu’il s’agit d’un bâtiment, mais sans autre précision.) Ces expérimentations suggèrent donc qu’une étape de __prétraitement__ est nécessaire : celle-ci nous permettra de disposer de l’ensemble des photographies du fonds Colbert sous forme d’images. ## Prétraitement Le fonds Colbert contient plus d’un millier d’images, il est donc impensable de découper chacune manuellement. Il est beaucoup plus intéressant de mettre au point une méthode permettant d’__extraire automatiquement la photographie__ située au centre de la plaque de verre. ### En première approche Cette première méthode détermine les coordonnéés du __rectangle__ par lequel est approximée la forme de la photographie. Une telle approximation semble raisonnable puisque la plupart des photographies sont contenues _presque exactement_ dans des rectangles -- aux coins parfois arrondis. À noter que certaines sont contenues dans des quadrilatères qui ne sont pas des rectangles, voire sont contenues dans des [cercles](https://ehne.fr/fr/node/20272). Voici la séquence d’opérations appliquée à une image afin de déterminer les coordonnéés du plus petit rectangle contenant la photographie : 1. Convertir l’image en niveaux de gris ; 2. Rogner les bords de l’image afin d’éliminer le fond blanc sur lequel se trouve la plaque de verre ; 3. Appliquer un [filtrage médian](https://fr.wikipedia.org/wiki/Filtre_m%C3%A9dian) afin d’éliminer les plus petits défauts de l’image (bruit, poussières, etc.) ; 4. Effectuer un seuillage par la [méthode d’Ostu](https://fr.wikipedia.org/wiki/M%C3%A9thode_d%27Otsu) afin d’obtenir une image binaire ; 5. Calculer les coordonnéés du [rectangle englobant](https://en.wikipedia.org/wiki/Minimum_bounding_box) à partir de l’image binaire. Cette succession d’opérations -- implémentée grâce à la librairie [OpenCV](https://opencv.org/) -- nous fournit les coordonnées d’un rectangle contenant a priori exactement la photographie. Ceci nous permet finalement d’extraire la photographie de l’image complète. Les résultats d’une telle méthode sont assez satisfaisants : les images sont correctement découpées, à l’exception d’une centaine d’entre elles. Voici quelques-unes des images ainsi obtenues : ![](img/colbert/cropped/0df7262a5bba44079506ec792208a0eb.jpg height=240px)![](img/colbert/cropped/17_30767_0.jpg height=240px)![](img/colbert/cropped/7e52615c362245a4893a7c39bd3f9112.jpg height=240px) ![](img/colbert/cropped/1_55_24125.jpg height=240px)![](img/colbert/cropped/3_20_2805_0.jpg height=240px)![](img/colbert/cropped/3f48899ff6cd460e812626033dc5e389.jpg height=240px) La méthode n’est pas parfaite, notamment puisque : - certaines images obtenues contiennent la photographie ainsi qu’une partie de l’étiquette de la plaque de verre ; - l’image obtenue contiendra des régions noires indésirables (bandes, coins arrondis, etc.) dès lors que la photographie n’est pas exactement contenue dans un rectangle aligné avec les axes de l’image ; - la méthode vise seulement à découper la photographie, pourtant il pourrait être utile de découper aussi l’étiquette collée sur la plaque de verre. Je décide toutefois de poursuivre en découpant manuellement la centaine d’images pour lesquelles la méthode proposée n’a pas fourni un bon résultat. # Ressources !!! Télécharger toutes les images du fonds Colbert : [`colbert.zip`](https://dl.louis.ga/colbert.zip) (2.5 GB) ## Outils ### Deep Nostalgia™ L’outil [Deep Nostalgia](https://www.myheritage.fr/deep-nostalgia)™ développé par [MyHeritage](https://www.myheritage.fr/) permet d’[animer les visages](https://www.marieclaire.fr/application-donner-vie-photos-anciennes-collecte-donnees,1373077.asp) des photos anciennes. Voici les résultats obtenus à partir de photographies du fonds Colbert : ![[Yokohama, samuraï](https://ehne.fr/fr/node/20485).](img/deep_nostalgia/60_35820_820_28_19-0-Enhanced-Animated.mp4) ![[Femme métisse du Canada posant avec son enfant](https://ehne.fr/fr/node/20348), premier visage.](img/deep_nostalgia/47_14_24525-0-Enhanced-Animated.mp4) ![[Femme métisse du Canada posant avec son enfant](https://ehne.fr/fr/node/20348), second visage.](img/deep_nostalgia/47_14_24525-1-Enhanced-Animated.mp4) ### DeOldify [À venir.] ## Bibliographie ### Vade-mecum : Prise en main d'un fonds de photographies [Vade-mecum : Prise en main d'un fonds de photographies](https://www.culture.gouv.fr/Espace-documentation/Documentation-scientifique-et-technique/Vade-mecum-Prise-en-main-d-un-fonds-de-photographies) > Ce vade-mecum en 59 questions est organisé en trois parties : Évaluation patrimoniale ; gestion et conservation ; valorisation. Novembre 2016. 38p. Sous la direction d'Isabelle-Cécile Le Mée et Anne de Mondenard. Rédigé par Sylvain Besson, Samuel Bonnaud-Le Roux et Bertrand Lavédrine, Isabelle-Cécile Le Mée, Anne de Mondenard. >