Compact Mamba Multi-View : Inspection Industrielle par Fusion Multi-Vues Compact Mamba Multi-View: Industrial Inspection via Multi-View Fusion コンパクトMambaマルチビュー:マルチビュー融合による産業検査

📅 Février 2026February 20262026年2月 👤 Gwendal Bernardi ⏱️ 20 min de lecture20 min read20分で読めます Mes Recherches My Research 私の研究

📄 Article scientifique associé : Compact Mamba Multi-View for Ordinal-Class Multi-View Multi-Modal Detection-Driven Image Fusion 📄 Related scientific paper: Compact Mamba Multi-View for Ordinal-Class Multi-View Multi-Modal Detection-Driven Image Fusion 📄 関連する科学論文: 順序クラスマルチビューマルチモーダル検出駆動画像融合のためのCompact Mamba Multi-View

🎯 Introduction : Le défi de l'inspection industrielle multi-vues 🎯 Introduction: The Challenge of Multi-View Industrial Inspection 🎯 はじめに:マルチビュー産業検査の課題

Imaginez que vous devez inspecter des bouteilles en verre sur une chaîne de production. Une seule caméra ne suffit pas : selon l'angle de vue, certains défauts sont invisibles à cause de la transparence du matériau, des reflets lumineux, ou simplement parce qu'ils sont cachés. La solution ? Utiliser plusieurs caméras placées à différents angles pour observer le même objet.

Mais comment combiner intelligemment les informations de toutes ces caméras ? C'est là qu'intervient Compact Mamba Multi-View (CMMV), une architecture que j'ai développée pour fusionner efficacement les vues multiples dans le contexte de l'inspection industrielle.

💡 Lien avec mes autres travaux : Cette méthode s'inscrit dans la continuité de mes recherches sur la fusion multi-vues. Alors qu'EDIF proposait une approche générique pour fusionner multi-modal ET multi-vues, CMMV se concentre sur l'efficacité et la compacité pour l'inspection industrielle mono-modale multi-vues. 💡 Connection with my other work: This method continues my research on multi-view fusion. While EDIF proposed a generic approach for fusing multi-modal AND multi-view, CMMV focuses on efficiency and compactness for mono-modal multi-view industrial inspection. 💡 他の研究との関連: この方法は、マルチビュー融合に関する私の研究の継続です。EDIFがマルチモーダルとマルチビューを融合する汎用的なアプローチを提案したのに対し、CMMVは単一モーダルマルチビュー産業検査の効率性とコンパクト性に焦点を当てています。

⚠️ Le problème : Pourquoi l'inspection multi-vues est difficile ? ⚠️ The Problem: Why is Multi-View Inspection Difficult? ⚠️ 問題:なぜマルチビュー検査は難しいのか?

L'inspection de matériaux transparents comme le verre présente trois défis majeurs :

1️⃣ Effets optiques complexes 1️⃣ Complex Optical Effects 1️⃣ 複雑な光学効果

Les matériaux transparents créent des reflets, des réfractions, et des variations d'apparence selon l'angle de vue. Un défaut visible sous un angle peut être complètement invisible sous un autre.

2️⃣ Défauts subtils et localisés 2️⃣ Subtle and Localized Defects 2️⃣ 微妙で局所的な欠陥

Les marques d'usure sur le verre sont souvent très petites et peu contrastées. De plus, leur sévérité doit être estimée sur une échelle ordinale (légère, modérée, sévère), ce qui complique encore la tâche.

3️⃣ Bruit d'annotation 3️⃣ Annotation Noise 3️⃣ アノテーションノイズ

Lorsque plusieurs annotateurs humains évaluent la sévérité d'un défaut, ils ne sont pas toujours d'accord. Cette variabilité inter-annotateurs introduit du bruit dans les données d'entraînement, ce qui peut dégrader les performances du modèle.

🎯 Objectif : Concevoir une architecture capable d'exploiter les corrélations entre vues, de propager l'information contextuelle globale, et de régulariser les prédictions pour être robuste au bruit d'annotation. 🎯 Objective: Design an architecture capable of exploiting correlations between views, propagating global contextual information, and regularizing predictions to be robust to annotation noise. 🎯 目的: ビュー間の相関を活用し、グローバルなコンテキスト情報を伝播し、アノテーションノイズに対してロバストになるように予測を正則化できるアーキテクチャを設計すること。

🏗️ L'architecture Compact Mamba Multi-View (CMMV) 🏗️ The Compact Mamba Multi-View (CMMV) Architecture 🏗️ コンパクトMambaマルチビュー(CMMV)アーキテクチャ

L'architecture CMMV repose sur trois composants principaux qui travaillent ensemble pour fusionner efficacement les informations multi-vues :

1️⃣ Encodeurs hiérarchiques à poids partagés 1️⃣ Shared-Weight Hierarchical Encoders 1️⃣ 共有重みの階層的エンコーダー

Chaque vue (image d'une caméra) est traitée par un encodeur convolutionnel qui extrait des caractéristiques à trois niveaux hiérarchiques :

Point clé : Les poids de l'encodeur sont partagés entre toutes les vues. Cela signifie que le même réseau traite toutes les caméras, ce qui réduit considérablement le nombre de paramètres tout en garantissant une extraction cohérente des caractéristiques.

2️⃣ Blocs Multi-View Mamba (MVMB) 2️⃣ Multi-View Mamba Blocks (MVMB) 2️⃣ マルチビューMambaブロック(MVMB)

C'est le cœur de l'innovation ! À chaque niveau hiérarchique, un bloc MVMB fusionne les caractéristiques de toutes les vues. Voici comment cela fonctionne :

📌 Étape 1 : Projection en tokens

Chaque carte de caractéristiques spatiale (image de features) est compressée en un token compact (vecteur de dimension d). Cela transforme les données 2D en une séquence 1D.

📌 Étape 2 : Traitement par Mamba

La séquence de tokens (une par vue) est traitée par un modèle d'espace d'états sélectif (Mamba). Mamba capture les dépendances entre vues de manière efficace grâce à sa complexité linéaire O(n) au lieu de O(n²) pour les Transformers.

📌 Étape 3 : Modulation FiLM

Pour chaque vue, Mamba produit un token fusionné. Ce token est utilisé pour calculer des paramètres de modulation (γ, β) via FiLM (Feature-wise Linear Modulation). Ces paramètres sont appliqués aux caractéristiques originales de chaque vue : F̃ = γ ⊙ F + β. Cela permet à chaque vue de bénéficier du contexte multi-vues tout en conservant ses informations locales.

3️⃣ Bloc de Fusion Global par Espace d'États (Global SSM) 3️⃣ Global State-Space Fusion Block (Global SSM) 3️⃣ グローバル状態空間融合ブロック(Global SSM)

Les blocs MVMB fusionnent les vues indépendamment à chaque échelle. Mais comment garantir une cohérence globale entre toutes les échelles et toutes les vues ? C'est le rôle du bloc Global SSM.

Tous les descripteurs fusionnés des trois niveaux hiérarchiques sont concaténés en une seule séquence, puis traités par un autre modèle Mamba. Cela permet de capturer les dépendances à longue portée entre vues et échelles, tout en restant computationnellement efficace.

La représentation globale résultante H sert de mémoire partagée pour toutes les tâches en aval (détection, classification de sévérité, etc.).

4️⃣ Têtes de décodage par cross-attention 4️⃣ Cross-Attention Decoding Heads 4️⃣ クロスアテンションデコーディングヘッド

Chaque tâche (localisation par boîtes englobantes, classification de sévérité d'usure) dispose de sa propre tête de décodage. Inspirées de l'architecture DETR, ces têtes utilisent un vecteur de requête appris qui interroge la représentation globale H via un mécanisme de cross-attention.

Cela permet une spécialisation par tâche tout en partageant une représentation globale commune, ce qui améliore l'efficacité et la cohérence des prédictions.

Graphique de distribution des défauts

Figure : Distribution des niveaux de sévérité d'usure (scuffing) dans le dataset MVEP. On observe une distribution déséquilibrée avec une prédominance des niveaux 1 et 2 (usure légère à modérée), ce qui justifie l'utilisation d'une formulation ordinale pour la classification.

🎯 Classification ordinale de la sévérité d'usure 🎯 Ordinal Classification of Wear Severity 🎯 摩耗重症度の順序分類

Un aspect crucial de l'inspection industrielle est l'estimation de la sévérité de l'usure. Contrairement à une classification classique où toutes les erreurs sont équivalentes, ici les classes sont ordonnées : confondre "usure légère" et "usure modérée" est moins grave que confondre "usure légère" et "usure sévère".

Pour respecter cette structure ordinale, CMMV utilise une formulation par liens cumulatifs. Au lieu de prédire directement la classe, le modèle prédit K-1 seuils (pour K classes) et calcule la probabilité que la sévérité dépasse chaque seuil.

💡 Avantage : Cette approche pénalise moins les erreurs entre classes adjacentes et améliore la robustesse face au bruit d'annotation, un problème fréquent en inspection industrielle où les annotateurs humains peuvent ne pas être d'accord sur la frontière exacte entre deux niveaux de sévérité. 💡 Advantage: This approach penalizes errors between adjacent classes less and improves robustness to annotation noise, a common problem in industrial inspection where human annotators may disagree on the exact boundary between two severity levels. 💡 利点: このアプローチは、隣接するクラス間のエラーをより少なくペナルティ化し、アノテーションノイズに対するロバスト性を向上させます。これは、人間のアノテーターが2つの重症度レベル間の正確な境界について意見が一致しない可能性がある産業検査でよくある問題です。

⚙️ Entraînement multi-tâches avec régularisation multi-vues ⚙️ Multi-Task Training with Multi-View Regularization ⚙️ マルチビュー正則化によるマルチタスクトレーニング

L'entraînement de CMMV combine cinq fonctions de perte complémentaires pour garantir des prédictions robustes et cohérentes :

1️⃣ Perte ordinale (Ordinal Cross-Entropy) 1️⃣ Ordinal Loss (Ordinal Cross-Entropy) 1️⃣ 順序損失(順序クロスエントロピー)

Pénalise les erreurs de classification de sévérité en respectant l'ordre naturel des classes.

2️⃣ Perte de régression géométrique (Smooth-ℓ1) 2️⃣ Geometric Regression Loss (Smooth-ℓ1) 2️⃣ 幾何学的回帰損失(Smooth-ℓ1)

Optimise la localisation des boîtes englobantes pour chaque vue valide.

3️⃣ Perte de cohérence de classe (KL Divergence) 3️⃣ Class Consistency Loss (KL Divergence) 3️⃣ クラス一貫性損失(KLダイバージェンス)

Force les prédictions de toutes les vues à être cohérentes entre elles. Chaque vue doit prédire une distribution de classes proche de la moyenne multi-vues. Cela réduit les incohérences causées par le bruit d'annotation.

4️⃣ Perte d'alignement des embeddings (Cosine Similarity) 4️⃣ Embedding Alignment Loss (Cosine Similarity) 4️⃣ 埋め込みアライメント損失(コサイン類似度)

Encourage les représentations latentes de toutes les vues à être similaires (invariance au point de vue). Cela stabilise l'apprentissage et améliore la généralisation.

5️⃣ Perte de lissage séquentiel (Sequential Smoothness) 5️⃣ Sequential Smoothness Loss 5️⃣ シーケンシャル平滑化損失

Pénalise les variations brusques entre vues adjacentes dans la séquence ordonnée de caméras. Cela exploite la géométrie physique du système multi-caméras et améliore la robustesse aux vues bruitées.

🎯 Résultat : Cette combinaison de pertes crée un système robuste qui exploite pleinement les corrélations multi-vues tout en étant résistant au bruit d'annotation et aux vues ambiguës. 🎯 Result: This combination of losses creates a robust system that fully exploits multi-view correlations while being resistant to annotation noise and ambiguous views. 🎯 結果: この損失の組み合わせにより、アノテーションノイズや曖昧なビューに対して耐性がありながら、マルチビュー相関を完全に活用するロバストなシステムが作成されます。

🛢️ Le dataset MVEP : Multi-View Emballage Packaging 🛢️ The MVEP Dataset: Multi-View Emballage Packaging 🛢️ MVEPデータセット:マルチビュー包装パッケージング

Pour évaluer CMMV, nous avons créé le dataset MVEP, un dataset d'inspection de bouteilles en verre capturées sous plusieurs angles. Ce dataset présente des caractéristiques uniques qui en font un benchmark difficile pour la fusion multi-vues :

📊 En savoir plus sur MVEP : Pour des statistiques détaillées, des exemples visuels et des informations sur l'accès au dataset, consultez la page dédiée au dataset MVEP. 📊 Learn more about MVEP: For detailed statistics, visual examples, and information on dataset access, visit the dedicated MVEP dataset page. 📊 MVEPの詳細: 詳細な統計、視覚的な例、データセットへのアクセスに関する情報については、専用のMVEPデータセットページをご覧ください。

📊 Résultats expérimentaux 📊 Experimental Results 📊 実験結果

Les expériences sur le dataset MVEP démontrent l'efficacité de CMMV. Deux comparaisons principales ont été réalisées :

1️⃣ Mamba vs Transformer 1️⃣ Mamba vs Transformer 1️⃣ Mamba vs Transformer

Comparaison entre l'architecture Mamba (CMMV) et une variante utilisant des Transformers, en deux configurations : Small (modèle compact) et Large (modèle plus expressif).

Modèle Paramètres F1-Score (%) Accuracy (%)
CMMV-Small 8.2M 82.4 79.1
Transformer-Small 8.5M 80.7 77.3
CMMV-Large 14.1M 84.9 81.6
Transformer-Large 15.3M 83.1 79.8

Observation : CMMV surpasse systématiquement les Transformers en F1-Score et Accuracy, tout en utilisant moins de paramètres. Cela confirme l'efficacité de l'architecture Mamba pour la fusion multi-vues.

2️⃣ Comparaison avec les baselines 2️⃣ Comparison with Baselines 2️⃣ ベースラインとの比較

Comparaison avec des approches mono-vue (DETR) et multi-vues (DETR avec fusion par vote majoritaire ou soft voting, et EDIF).

Méthode mAP (%) F1-Score (%) Accuracy (%)
DETR mono-vue 71.3 74.2 70.5
DETR multi-vue (majority) 73.8 76.9 73.1
DETR multi-vue (soft) 75.1 78.3 74.8
EDIF 78.6 80.1 77.2
CMMV (ours) 77.2 84.9 81.6

Analyse : CMMV obtient le meilleur F1-Score et la meilleure Accuracy, ce qui est crucial pour l'inspection industrielle où la classification correcte de la sévérité est prioritaire. Bien que le mAP soit légèrement inférieur à EDIF, CMMV excelle dans la tâche de classification ordinale grâce à sa formulation spécialisée et ses pertes de régularisation multi-vues.

🔮 Limitations et perspectives futures 🔮 Limitations and Future Perspectives 🔮 制限と将来の展望

Bien que CMMV démontre d'excellentes performances, plusieurs pistes d'amélioration restent à explorer :

🎓 Conclusion 🎓 Conclusion 🎓 結論

Compact Mamba Multi-View démontre qu'il est possible de créer des systèmes d'inspection industrielle multi-vues à la fois compacts, efficaces et robustes. En combinant l'architecture Mamba avec une formulation ordinale et des pertes de régularisation multi-vues, CMMV atteint des performances de pointe en classification de sévérité tout en utilisant significativement moins de paramètres que les approches basées sur les Transformers.

Cette approche ouvre la voie à des applications embarquées et temps réel de l'inspection multi-vues, particulièrement adaptées aux contraintes industrielles où la compacité, la rapidité et la fiabilité sont essentielles.

📚 Quelques références scientifiques 📚 Key Scientific References 📚 主要な科学的参考文献

📚 Pour aller plus loin 📚 Further Reading 📚 さらに詳しく

📝 Articles connexes 📝 Related Articles 📝 関連記事