Fusion d'Images : État de l'Art et Nouvelle Taxonomie Image Fusion: State of the Art and Novel Taxonomy 画像融合:最新技術と新しい分類法

📅 Novembre 2025November 20252025年11月 👤 Gwendal Bernardi ⏱️ 10 min de lecture10 min read10分で読めます Mes Recherches My Research 私の研究

🎯 Introduction : Qu'est-ce que la Fusion d'Images ? 🎯 Introduction: What is Image Fusion? 🎯 はじめに:画像融合とは?

La fusion d'images est une technique fondamentale en vision par ordinateur qui consiste à combiner des informations provenant de plusieurs images pour créer une représentation plus complète et informative. Imaginez que vous ayez plusieurs photos d'une même scène, chacune capturant des détails différents : la fusion d'images permet de créer une image unique qui contient le meilleur de chaque source.

💡 Exemple concret :
Pensez à votre smartphone qui prend plusieurs photos en rafale pour créer une image HDR (High Dynamic Range). Il fusionne une photo sous-exposée (pour les zones lumineuses) avec une photo sur-exposée (pour les zones sombres) pour obtenir une image finale où tous les détails sont visibles. C'est de la fusion d'images !

Dans mes travaux de recherche, j'ai réalisé deux surveys complets sur la fusion d'images, publiés dans des revues et conférences internationales prestigieuses. Ces travaux proposent une nouvelle taxonomie pour classifier les méthodes de fusion et analysent en profondeur les approches récentes basées sur le Deep Learning, notamment les Transformers.

📸 Les Quatre Catégories de Fusion d'Images 📸 The Four Categories of Image Fusion 📸 画像融合の4つのカテゴリー

La fusion d'images se divise en quatre grandes catégories, chacune répondant à des besoins spécifiques :

1️⃣ Multi-Focus (Multi-Mise au Point) 1️⃣ Multi-Focus 1️⃣ マルチフォーカス

Problème : Quand vous prenez une photo, seule une partie de l'image est nette (la zone de mise au point). Les objets trop proches ou trop loin sont flous.

Solution : Prendre plusieurs photos avec différentes mises au point et fusionner les zones nettes de chaque image pour obtenir une image entièrement nette.

2️⃣ Multi-Exposure (Multi-Exposition) 2️⃣ Multi-Exposure 2️⃣ マルチ露出

Problème : Une scène avec des zones très lumineuses et très sombres (fort contraste) ne peut pas être capturée correctement en une seule photo. Soit les zones lumineuses sont "brûlées" (trop blanches), soit les zones sombres sont "bouchées" (trop noires).

Solution : Prendre plusieurs photos avec différentes expositions (sous-exposée, normale, sur-exposée) et les fusionner pour créer une image HDR où tous les détails sont visibles.

3️⃣ Multi-Modal (Multi-Modalité) 3️⃣ Multi-Modal 3️⃣ マルチモーダル

Problème : Différents types de capteurs capturent des informations complémentaires. Par exemple, une caméra visible capture les couleurs, mais une caméra infrarouge capture la chaleur.

Solution : Fusionner des images provenant de différents capteurs (visible + infrarouge, ou IRM + scanner médical) pour obtenir une image enrichie contenant toutes les informations.

4️⃣ Multi-View (Multi-Vues) 4️⃣ Multi-View 4️⃣ マルチビュー

Problème : Une seule caméra ne peut voir qu'un seul angle d'une scène. Des objets peuvent être cachés ou partiellement visibles.

Solution : Utiliser plusieurs caméras placées à différents endroits pour capturer la scène sous plusieurs angles, puis fusionner ces vues pour obtenir une représentation complète de la scène.

🔍 Application industrielle :
Dans mon travail chez TIAMA, nous utilisons la fusion multi-vues pour inspecter des bouteilles en verre. Plusieurs caméras placées autour de la bouteille capturent différents angles, et nous fusionnons ces images pour détecter des défauts qui seraient invisibles depuis un seul point de vue.

🗂️ Ma Nouvelle Taxonomie : Mono-Catégorie vs Multi-Catégorie 🗂️ My Novel Taxonomy: Mono-Category vs Multi-Category 🗂️ 私の新しい分類法:モノカテゴリーvsマルチカテゴリー

Une des contributions majeures de mes travaux est l'introduction d'une nouvelle taxonomie qui distingue les méthodes de fusion selon leur capacité à traiter un ou plusieurs types de fusion.

📌 Méthodes Mono-Catégorie 📌 Mono-Category Methods 📌 モノカテゴリー手法

Ces méthodes sont spécialisées pour un seul type de fusion. Par exemple, une méthode conçue pour la fusion multi-focus ne fonctionnera pas pour la fusion multi-exposition.

Avantages : Performance optimale sur leur domaine spécifique.

Inconvénients : Nécessite de développer et maintenir une méthode différente pour chaque type de fusion.

🌐 Méthodes Multi-Catégorie (Généralistes) 🌐 Multi-Category Methods (Generalists) 🌐 マルチカテゴリー手法(ジェネラリスト)

Ces méthodes sont universelles et peuvent traiter plusieurs types de fusion avec le même modèle. C'est une ligne de recherche prometteuse que j'explore dans mes travaux.

Avantages : Un seul modèle pour tous les types de fusion, plus flexible et économique.

Défis : Plus difficile à entraîner, peut avoir des performances légèrement inférieures sur des cas très spécifiques.

🧠 Les Architectures Deep Learning pour la Fusion 🧠 Deep Learning Architectures for Fusion 🧠 融合のためのディープラーニングアーキテクチャ

Dans mes surveys, j'analyse en profondeur les trois principales familles d'architectures utilisées pour la fusion d'images :

1️⃣ CNN (Convolutional Neural Networks) 1️⃣ CNN (Convolutional Neural Networks) 1️⃣ CNN(畳み込みニューラルネットワーク)

Les CNN sont les architectures les plus utilisées historiquement. Ils excellent dans l'extraction de caractéristiques locales (textures, contours) grâce à leurs filtres convolutifs.

2️⃣ GAN (Generative Adversarial Networks) 2️⃣ GAN (Generative Adversarial Networks) 2️⃣ GAN(敵対的生成ネットワーク)

Les GAN utilisent un système de "compétition" entre deux réseaux : un générateur qui crée l'image fusionnée, et un discriminateur qui juge si l'image est réaliste. Cette approche produit des images visuellement très convaincantes.

3️⃣ Transformers 3️⃣ Transformers 3️⃣ トランスフォーマー

Les Transformers sont l'architecture la plus récente et prometteuse. Grâce au mécanisme d'Attention, ils peuvent capturer des dépendances à longue distance dans l'image, ce qui est crucial pour comprendre le contexte global de la scène.

Dans mon second papier (ICPR 2024), j'analyse en détail comment les Transformers révolutionnent la fusion d'images en permettant une compréhension plus holistique des images à fusionner.

📚 Trois Approches d'Apprentissage 📚 Three Learning Approaches 📚 3つの学習アプローチ

Au-delà des architectures, mes travaux classifient également les méthodes selon leur approche d'apprentissage :

🏷️ Apprentissage Supervisé 🏷️ Supervised Learning 🏷️ 教師あり学習

Ces méthodes nécessitent des images de référence (ground truth) pour l'entraînement. Le modèle apprend à reproduire ces images idéales.

Problème : Difficile d'obtenir des images de référence parfaites pour la fusion.

🔓 Apprentissage Non-Supervisé 🔓 Unsupervised Learning 🔓 教師なし学習

Ces méthodes n'ont pas besoin d'images de référence. Elles apprennent à fusionner en optimisant des critères de qualité (préservation des détails, contraste, etc.).

Avantage : Plus pratique car ne nécessite pas de données annotées.

🎯 Apprentissage Orienté Tâche (Task-Driven) 🎯 Task-Driven Learning 🎯 タスク駆動学習

Ces méthodes optimisent la fusion pour une tâche spécifique en aval (détection d'objets, segmentation, etc.). L'image fusionnée n'est pas nécessairement belle visuellement, mais elle est optimale pour la tâche cible.

Exemple : Dans mon travail chez TIAMA, nous optimisons la fusion multi-vues directement pour la détection de défauts, pas pour la beauté visuelle.

🌍 Applications Concrètes 🌍 Concrete Applications 🌍 具体的な応用

La fusion d'images a des applications dans de nombreux domaines :

📊 Datasets et Métriques d'Évaluation 📊 Datasets and Evaluation Metrics 📊 データセットと評価指標

Dans mes surveys, j'analyse également les datasets de référence utilisés pour évaluer les méthodes de fusion :

Les métriques d'évaluation couramment utilisées incluent :

🎯 Conclusion et Perspectives 🎯 Conclusion and Future Directions 🎯 結論と今後の展望

Mes travaux sur la fusion d'images apportent plusieurs contributions majeures :

🔮 Directions futures :
Les méthodes multi-catégorie basées sur les Transformers représentent l'avenir de la fusion d'images. L'objectif est de développer des modèles universels capables de s'adapter à n'importe quel type de fusion, tout en maintenant des performances de pointe.

📚 Mes Publications 📚 My Publications 📚 私の出版物

📄 Survey complet (Information Fusion Journal, 2025)

"A comprehensive survey on image fusion: Which approach fits which need"

🔗 Lire l'article

📄 Taxonomie avec Transformers (ICPR 2024)

"Image Fusion Survey: A Novel Taxonomy Integrating Transformer and Recent Approaches"

🔗 Lire l'article

📖 Quelques références scientifiques 📖 Some scientific references 📖 いくつかの科学的参考文献

🔷 Fusion basée sur CNN

Liu et al. (2017) - "Deep Convolutional Neural Network for Multi-Modal Image Fusion"

🔗 arXiv:1704.08052

🔶 Fusion basée sur GAN

Ma et al. (2019) - "FusionGAN: A Generative Adversarial Network for Infrared and Visible Image Fusion"

🔗 arXiv:1811.02291

🔸 Fusion basée sur Transformers

Vaswani et al. (2017) - "Attention is All You Need" (Transformer original)

🔗 arXiv:1706.03762

🌈 Fusion Multi-Modale

Zhang et al. (2020) - "Rethinking the Image Fusion: A Fast Unified Image Fusion Network"

🔗 AAAI 2020

💡 Fusion Multi-Exposition (HDR)

Kalantari & Ramamoorthi (2017) - "Deep High Dynamic Range Imaging of Dynamic Scenes"

🔗 SIGGRAPH 2017

🏥 Fusion d'Images Médicales

Hermessi et al. (2021) - "Multimodal Medical Image Fusion Review: Theoretical Background and Recent Advances"

🔗 Signal Processing: Image Communication

🔍 Fusion Multi-Focus

Liu et al. (2017) - "Multi-focus image fusion with a deep convolutional neural network"

🔗 Information Fusion

🔓 Apprentissage Non-Supervisé

Li et al. (2020) - "NestFuse: An Infrared and Visible Image Fusion Architecture based on Nest Connection and Spatial/Channel Attention Models"

🔗 arXiv:2007.00328

🎯 Fusion Orientée Tâche

Tang et al. (2022) - "Image fusion in the loop of high-level vision tasks: A semantic-aware real-time infrared and visible image fusion network"

🔗 arXiv:2203.02097

📚 Autres Surveys de Référence

Ma et al. (2019) - "Infrared and visible image fusion methods and applications: A survey"

🔗 Information Fusion