📄 PublicationsPublications出版物
Compact Mamba Multi-View Fusion for Object Detection
Compact Mamba Multi-View Multi-Modal Fusion for Object Detection
物体検出のためのコンパクトMambaマルチビューマルチモーダル融合
Auteurs :
Authors :
執筆者 :
Gwendal Bernardi, Godefroy Brisebarre, Sébastien Roman, Mohsen Ardabilian, Emmanuel Dellandrea
Date :
Date :
日付 :
06 Février 2026
06 February 2026
2026 年 02 月 06 日
Conférence :
Conference :
会議 :
Pre-print
Résumé :
Abstract :
要旨 :
Multi-view image analysis is a key enabler for robust perception when single viewpoints provide incomplete or ambiguous observations.
This challenge is particularly pronounced in industrial inspection of transparent materials, where view-dependent optical effects,
subtle surface degradations, and annotation noise significantly hinder reliable detection and severity assessment.
In this work, we introduce a compact and efficient multi-view fusion architecture tailored to such constraints.
Our approach combines shared-weight hierarchical encoders with selective state-space modeling to explicitly exploit cross-view and multi-scale correlations.
Multi-View Mamba Blocks (MVMB) perform adaptive fusion at each feature level by coupling Mamba-based selective state-space layers with FiLM-driven cross-view conditioning,
while a Global State-Space Fusion Block enforces long-range coherence across all views and resolutions. Task-specific decoding heads query the resulting global representation
via cross-attention to jointly predict object localization and ordinal erasure severity. The model is trained using a unified multi-task objective that integrates geometric regression,
ordinal classification, cross-view consistency, feature alignment, and sequential smoothness. Extensive experiments on a challenging multi-view glass container inspection dataset demonstrate
improved robustness, consistency, and scalability compared to strong baselines. To promote reproducibility and future research, we publicly release the proposed dataset at: https://datasets.liris.cnrs.fr/mvep-version1
Multi-view image analysis is a key enabler for robust perception when single viewpoints provide incomplete or ambiguous observations.
This challenge is particularly pronounced in industrial inspection of transparent materials, where view-dependent optical effects,
subtle surface degradations, and annotation noise significantly hinder reliable detection and severity assessment.
In this work, we introduce a compact and efficient multi-view fusion architecture tailored to such constraints.
Our approach combines shared-weight hierarchical encoders with selective state-space modeling to explicitly exploit cross-view and multi-scale correlations.
Multi-View Mamba Blocks (MVMB) perform adaptive fusion at each feature level by coupling Mamba-based selective state-space layers with FiLM-driven cross-view conditioning,
while a Global State-Space Fusion Block enforces long-range coherence across all views and resolutions. Task-specific decoding heads query the resulting global representation
via cross-attention to jointly predict object localization and ordinal erasure severity. The model is trained using a unified multi-task objective that integrates geometric regression,
ordinal classification, cross-view consistency, feature alignment, and sequential smoothness. Extensive experiments on a challenging multi-view glass container inspection dataset demonstrate
improved robustness, consistency, and scalability compared to strong baselines. To promote reproducibility and future research, we publicly release the proposed dataset at: https://datasets.liris.cnrs.fr/mvep-version1
マルチビュー画像解析は、単一の視点が不完全または曖昧な観察を提供する場合に、堅牢な知覚を可能にする重要な要素です。
この課題は、透明材料の産業検査において特に顕著であり、視点に依存する光学効果、
微妙な表面劣化、およびアノテーションノイズが、信頼性の高い検出と重大度評価を著しく妨げます。
この研究では、このような制約に合わせた、コンパクトで効率的なマルチビュー融合アーキテクチャを紹介します。
私たちのアプローチは、共有重み階層エンコーダーと選択的状態空間モデリングを組み合わせて、クロスビューおよびマルチスケール相関を明示的に活用します。
マルチビューMambaブロック(MVMB) は、Mambaベースの選択的状態空間層とFiLM駆動のクロスビュー条件付けを結合することにより、各特徴レベルで適応融合を実行します。
一方、グローバル状態空間融合ブロックは、すべてのビューと解像度にわたって長距離コヒーレンスを強制します。タスク固有のデコードヘッドは、結果として得られるグローバル表現をクエリします
クロスアテンションを介して、オブジェクトのローカリゼーションと順序摩耗の重大度を共同で予測します。モデルは、幾何学的回帰を統合する統一マルチタスク目標を使用してトレーニングされます、
順序分類、クロスビューの一貫性、特徴の整列、および順次平滑性。困難なマルチビューガラス容器検査データセットに関する広範な実験は、
強力なベースラインと比較して、堅牢性、一貫性、およびスケーラビリティが向上しました。再現性と将来の研究を促進するために、提案されたデータセットを次のアドレスで公開しています:https://datasets.liris.cnrs.fr/mvep-version1
Mots Clés :
Keywords :
キーワード :
Mamba, Multi-View, Image Fusion, Ordinal Class, Object Detection
Mamba, Multi-View, Image Fusion, Ordinal Class, Object Detection
Mamba、マルチビュー、画像融合、順序クラス、物体検出
End-To-End Multi-View Multi-Modal Detection-Driven Image Fusion: One Method to Fuse them all
End-To-End Multi-View Multi-Modal Detection-Driven Image Fusion: One Method to Fuse them all
エンドツーエンドマルチビューマルチモーダル検出駆動画像融合: すべてを融合する1つの方法
Auteurs :
Authors :
執筆者 :
Gwendal Bernardi, Godefroy Brisebarre, Sébastien Roman, Mohsen Ardabilian, Emmanuel Dellandrea
Date :
Date :
日付 :
22 Janvier 2026
22 January 2026
2026 年 01 月 22 日
Conférence :
Conference :
会議 :
Pre-Print
Résumé :
Abstract :
要旨 :
We present EDIF, an end-to-end detection-driven framework designed to unify multi-modal and multi-view image fusion within a single architecture.
While most existing fusion methods address either spectral complementarity (multi-modal) or viewpoint variability (multi-view) in isolation,
real-world perception systems increasingly require both. EDIF formulates fusion as an object-level alignment problem: heterogeneous images are encoded as sets of keypoints,
which are matched and aggregated through a graph attention mechanism to form object-centric representations directly optimized for detection. To stabilize training across heterogeneous components,
we introduce a three-stage task-driven strategy that progressively aligns keypoint extraction, object localization, and cross-sensor grouping.
In addition, we release the Multi-Modal and Multi-View Object Detection Dataset (MMDOD), a new benchmark designed to study detection-driven fusion under strong modality-view dependencies.
MMDOD contains over 10,000 images of transparent objects captured under four complementary modalities (visible, NIR, low-contrast, polarization shift) and six viewpoints,
with detailed object-level annotations. Experiments on RGB-thermal, multi-camera, and joint multi-modal multi-view benchmarks show that EDIF achieves performance competitive with recent specialized methods,
while uniquely operating within a unified framework. On MMDOD, EDIF significantly outperforms adapted multi-modal multi-view baselines, highlighting the benefits of detection-driven, object-level fusion.
The proposed MMDOD dataset is publicly available at https://datasets.liris.cnrs.fr/mmdod-version1
We present EDIF, an end-to-end detection-driven framework designed to unify multi-modal and multi-view image fusion within a single architecture.
While most existing fusion methods address either spectral complementarity (multi-modal) or viewpoint variability (multi-view) in isolation,
real-world perception systems increasingly require both. EDIF formulates fusion as an object-level alignment problem: heterogeneous images are encoded as sets of keypoints,
which are matched and aggregated through a graph attention mechanism to form object-centric representations directly optimized for detection. To stabilize training across heterogeneous components,
we introduce a three-stage task-driven strategy that progressively aligns keypoint extraction, object localization, and cross-sensor grouping.
In addition, we release the Multi-Modal and Multi-View Object Detection Dataset (MMDOD), a new benchmark designed to study detection-driven fusion under strong modality-view dependencies.
MMDOD contains over 10,000 images of transparent objects captured under four complementary modalities (visible, NIR, low-contrast, polarization shift) and six viewpoints,
with detailed object-level annotations. Experiments on RGB-thermal, multi-camera, and joint multi-modal multi-view benchmarks show that EDIF achieves performance competitive with recent specialized methods,
while uniquely operating within a unified framework. On MMDOD, EDIF significantly outperforms adapted multi-modal multi-view baselines, highlighting the benefits of detection-driven, object-level fusion.
The proposed MMDOD dataset is publicly available at https://datasets.liris.cnrs.fr/mmdod-version1
本研究では、マルチモーダルおよびマルチビュー画像融合を単一のアーキテクチャ内で統合するために設計されたエンドツーエンドの検出駆動型フレームワークであるEDIFを提案します。
既存の融合手法の多くは、スペクトル補完性(マルチモーダル)または視点の変動性(マルチビュー)のいずれかを個別に扱っていますが、
実世界の知覚システムでは両方がますます必要とされています。EDIFは、融合を物体レベルの整列問題として定式化します。異種画像はキーポイントのセットとしてエンコードされ、
グラフアテンション機構を通じてマッチングおよび集約され、検出のために直接最適化された物体中心の表現を形成します。異種コンポーネント間のトレーニングを安定化するために、
キーポイント抽出、物体位置特定、およびクロスセンサーグループ化を段階的に整列させる3段階のタスク駆動型戦略を導入します。
さらに、強いモダリティ-ビュー依存性の下で検出駆動型融合を研究するために設計された新しいベンチマークであるMulti-Modal and Multi-View Object Detection Dataset(MMDOD)をリリースします。
MMDODには、4つの補完的なモダリティ(可視光、近赤外線、低コントラスト、偏光シフト)および6つの視点で撮影された透明物体の10,000枚以上の画像が含まれており、
詳細な物体レベルのアノテーションが付与されています。RGB-サーマル、マルチカメラ、およびマルチモーダル・マルチビュー統合ベンチマークでの実験により、EDIFは最近の専門的手法と競合する性能を達成しながら、
統一されたフレームワーク内で独自に動作することが示されています。MMDODにおいて、EDIFは適応されたマルチモーダル・マルチビューベースラインを大幅に上回り、検出駆動型の物体レベル融合の利点を強調しています。
提案されたMMDODデータセットはhttps://datasets.liris.cnrs.fr/mmdod-version1で公開されています。
Mots Clés :
Keywords :
キーワード :
Image Fusion, Multi-View, Multi-Modal, Object Detection, GANN
Image Fusion, Multi-View, Multi-Modal, Object Detection, GANN
画像融合、マルチビュー、マルチモーダル、物体検出、GANN
A Comprehensive Survey on Image Fusion: Which Approach Fits Which Need
A Comprehensive Survey on Image Fusion: Which Approach Fits Which Need
画像融合に関する包括的調査:どのアプローチがどのニーズに適合するか
Auteurs :
Authors :
執筆者 :
Gwendal Bernardi, Godefroy Brisebarre, Sébastien Roman, Mohsen Ardabilian, Emmanuel Dellandrea
Date :
Date :
日付 :
22 Mars 2025
22 March 2025
2025 年 03 月 22 日
Journal :
Journal :
科学雑誌 :
Information Fusion
Résumé :
Abstract :
要旨 :
Image fusion is a crucial domain within computer vision, focusing on integrating elements from multiple images to extract complementary information while eliminating redundancy.
Once the relevant features are identified, they are combined to achieve specific application goals. The field of image fusion encompasses several categories, including multi-focus,
multi-exposure, multi-modal, and multi-view fusion. Most state-of-the-art solutions focus on optimizing methods to address a specific fusion category (e.g., multi-view, multi-modal,
multi-exposure, or multi-focus). However, some use cases require universal methods that can handle all these challenges. The purpose of this review is to provide an in-depth
and detailed analysis of various image fusion categories to thoroughly understand these domains. Additionally, this survey aims to integrate multi-view image fusion methods
into a comprehensive overview of image fusion, which is not commonly addressed in the existing literature. The goal is to highlight multi-category methods that can tackle
image fusion problems involving images from different types of fusion categories. Finally, potential directions for advancing this category of methods will be proposed,
alongside the various challenges that this field faces. This survey examines each image fusion category to gain a better understanding of the issues related to multi-category methods.
It contributes to the field of image fusion and offers researchers valuable insights into developing more effective multi-category solutions.
Image fusion is a crucial domain within computer vision, focusing on integrating elements from multiple images to extract complementary information while eliminating redundancy.
Once the relevant features are identified, they are combined to achieve specific application goals. The field of image fusion encompasses several categories, including multi-focus,
multi-exposure, multi-modal, and multi-view fusion. Most state-of-the-art solutions focus on optimizing methods to address a specific fusion category (e.g., multi-view, multi-modal,
multi-exposure, or multi-focus). However, some use cases require universal methods that can handle all these challenges. The purpose of this review is to provide an in-depth
and detailed analysis of various image fusion categories to thoroughly understand these domains. Additionally, this survey aims to integrate multi-view image fusion methods
into a comprehensive overview of image fusion, which is not commonly addressed in the existing literature. The goal is to highlight multi-category methods that can tackle
image fusion problems involving images from different types of fusion categories. Finally, potential directions for advancing this category of methods will be proposed,
alongside the various challenges that this field faces. This survey examines each image fusion category to gain a better understanding of the issues related to multi-category methods.
It contributes to the field of image fusion and offers researchers valuable insights into developing more effective multi-category solutions.
画像融合は、コンピュータビジョンにおける重要な領域であり、複数の画像から要素を統合して補完情報を抽出しながら冗長性を排除することに焦点を当てています。
関連する特徴が特定されると、それらは特定のアプリケーション目標を達成するために組み合わされます。画像融合の分野には、マルチフォーカス、
マルチ露光、マルチモーダル、マルチビュー融合など、いくつかのカテゴリが含まれます。最先端のソリューションのほとんどは、特定の融合カテゴリ(マルチビュー、マルチモーダル、
マルチ露光、またはマルチフォーカスなど)に対処するための方法の最適化に焦点を当てています。ただし、一部のユースケースでは、これらすべての課題を処理できる普遍的な方法が必要です。
このレビューの目的は、これらのドメインを徹底的に理解するために、さまざまな画像融合カテゴリの詳細な分析を提供することです。さらに、この調査は、既存の文献では一般的に扱われていない
マルチビュー画像融合方法を画像融合の包括的な概要に統合することを目指しています。目標は、異なるタイプの融合カテゴリからの画像を含む画像融合問題に取り組むことができる
マルチカテゴリ方法を強調することです。最後に、この方法のカテゴリを進歩させるための潜在的な方向性が、この分野が直面するさまざまな課題とともに提案されます。
この調査は、マルチカテゴリ方法に関連する問題をよりよく理解するために、各画像融合カテゴリを検討します。これは画像融合の分野に貢献し、
研究者により効果的なマルチカテゴリソリューションを開発するための貴重な洞察を提供します。
Mots Clés :
Keywords :
キーワード :
Image Fusion, Multi-View, Multi-Modal, Task-Driven, Fusion Category
Image Fusion, Multi-View, Multi-Modal, Task-Driven, Fusion Category
画像融合、マルチビュー、マルチモーダル、タスク駆動、融合カテゴリ
Image Fusion Survey: A Novel Taxonomy Integrating Transformer and Recent Approaches
Image Fusion Survey: A Novel Taxonomy Integrating Transformer and Recent Approaches
画像融合調査: Transformerと最近のアプローチを統合する新しい分類法
Auteurs :
Authors :
執筆者 :
Gwendal Bernardi, David Strubel, Godefroy Brisebarre, Jean-François Garin, Mohsen Ardabilian, Emmanuel Dellandrea
Date :
Date :
日付 :
1 Décembre 2024
1 December 2024
2024 年 12 月 1 日
Conférence :
Conference :
会議 :
ICPR 2024, workshop MCMI
Résumé :
Abstract :
要旨 :
Research progress in multi-modal information fusion, particularly in Image Fusion, has experienced significant advancements over the last decade.
By integrating information from multiple sources or modalities, image fusion enables the extraction of comprehensive insights and facilitates more accurate
analysis and decision-making processes. The inherent complexity of image fusion, stemming from its unstructured nature, necessitates high levels of abstraction
and intricate data representation. The utilization of deep learning, notably CNN and more recently introduced Vision Transformer, has yielded substantial enhancements
in image fusion methodologies. This paper presents a comprehensive survey of image fusion methodologies, focusing on recent advancements and introducing a
novel taxonomy based on supervised, unsupervised, and task-driven approaches. The survey encompasses recent contributions, including the integration of transformer
architectures, which have emerged as powerful tools for image fusion tasks. This classification is supported by a distinction of methods by architecture type
(CNN, GAN, Transformer) for a better understanding of the relationships between methods. Through the synthesis of existing literature and the introduction of a new classification paradigm,
this survey aims to provide researchers and practitioners with a comprehensive overview of image fusion techniques and guide future research directions in this rapidly evolving field.
Research progress in multi-modal information fusion, particularly in Image Fusion, has experienced significant advancements over the last decade.
By integrating information from multiple sources or modalities, image fusion enables the extraction of comprehensive insights and facilitates more accurate
analysis and decision-making processes. The inherent complexity of image fusion, stemming from its unstructured nature, necessitates high levels of abstraction
and intricate data representation. The utilization of deep learning, notably CNN and more recently introduced Vision Transformer, has yielded substantial enhancements
in image fusion methodologies. This paper presents a comprehensive survey of image fusion methodologies, focusing on recent advancements and introducing a
novel taxonomy based on supervised, unsupervised, and task-driven approaches. The survey encompasses recent contributions, including the integration of transformer
architectures, which have emerged as powerful tools for image fusion tasks. This classification is supported by a distinction of methods by architecture type
(CNN, GAN, Transformer) for a better understanding of the relationships between methods. Through the synthesis of existing literature and the introduction of a new classification paradigm,
this survey aims to provide researchers and practitioners with a comprehensive overview of image fusion techniques and guide future research directions in this rapidly evolving field.
マルチモーダル情報融合、特に画像融合における研究の進歩は、過去10年間で大きな進歩を遂げました。
複数のソースまたはモダリティからの情報を統合することにより、画像融合は包括的な洞察の抽出を可能にし、より正確な分析と意思決定プロセスを促進します。
画像融合の固有の複雑さは、その非構造化された性質に起因し、高レベルの抽象化と複雑なデータ表現を必要とします。
ディープラーニング、特にCNNおよび最近導入されたVision Transformerの利用は、画像融合方法論に大幅な改善をもたらしました。
この論文は、画像融合方法論の包括的な調査を提示し、最近の進歩に焦点を当て、教師あり、教師なし、およびタスク駆動アプローチに基づく新しい分類法を導入します。
この調査には、画像融合タスクの強力なツールとして登場したTransformerアーキテクチャの統合を含む、最近の貢献が含まれています。
この分類は、方法間の関係をよりよく理解するために、アーキテクチャタイプ(CNN、GAN、Transformer)による方法の区別によってサポートされています。
既存の文献の統合と新しい分類パラダイムの導入を通じて、この調査は、研究者と実務者に画像融合技術の包括的な概要を提供し、
この急速に進化する分野における将来の研究方向を導くことを目指しています。
Mots Clés :
Keywords :
キーワード :
Image Fusion, Multi-Modal, Task-Driven, Fusion Transformer
Image Fusion, Multi-Modal, Task-Driven, Fusion Transformer
画像融合、マルチモーダル、タスク駆動、融合Transformer
🏅 BrevetsPatents特許
Inventeurs :
Inventors :
発明家 :
Gwendal Bernardi, Sylvain Gourgeon, Jean-François Garin
Date :
Date :
日付 :
02 Janvier 2025
02 January 2025
2025 年 01 月 02 日
Numéro de Brevet :
Patent Number :
特許番号 :
WO-2025003618A1
Résumé :
Abstract :
要旨 :
Procédé et dispositif pour inspecter des récipients selon au moins deux directions d'observation différentes en vue de classer les récipients
Procédé d'inspection de récipients en matériau transparent ou translucide (2) en vue de classer un récipient, le procédé comportant;
une phase d'utilisation comprenant : - l'acquisition pour chaque récipient, d'au moins une première et une deuxième images (Ic) d'au moins une
même portion d'un récipient selon deux directions d'observation différentes et selon au moins une modalité; - la fourniture en entrée d'un modèle
d'apprentissage profond (NN), pour chaque récipient, d'un enregistrement des au moins la première et la deuxième images d'au moins une portion du
récipient selon au moins une modalité et selon deux directions d'observation différentes; - et l'analyse par le modèle d'apprentissage profond,
pour chaque récipient, de cet enregistrement pour déterminer l'appartenance de cette portion de récipient, à une classe résultat parmi une liste de classes.
The invention relates to a method for inspecting containers made of transparent or translucent material (2) with a view to classifying a container,
the method including a use phase comprising: - acquiring, for each container, at least a first and a second image (Ic) of at least one given portion
of a container in two different observation directions and using at least one modality; - providing, as input for a deep learning model (NN), for each
container, a record of at least the first and the second image of at least one portion of the container using at least one modality and in two different observation directions;
- and the deep learning model analysing, for each container, this record in order to determine a result class, from among a list of classes, to which this container portion belongs.
本発明は、容器を分類する目的で、透明または半透明の材料で作られた容器 (2)を検査する方法に関し、この方法は、以下を含む使用段階を含む: - 各容器について、2つの異なる観察方向で、
少なくとも1つのモダリティを使用して、容器の少なくとも1つの所与の部分の少なくとも第1および第2の画像(Ic)を取得するステップと、ディープラーニングモデル (NN) の入力として、
各容器について、少なくとも1つの異なる観察方向で、少なくとも1つのモダリティを使用して、容器の少なくとも1つの部分の少なくとも第1および第2の画像の記録を提供するステップと、
ディープラーニングモデルが、各容器について、クラスのリストの中から、この容器の部分が属する結果クラスを決定するために、この記録を分析するステップと、を含む。
📜 Voir le brevet
📜 View the patent
📜 特許を見る