Le mécanisme d'Attention expliqué : Le cœur des Transformers The Attention Mechanism Explained: The Heart of Transformers Attentionメカニズム解説:Transformerの心臓部

📅 Janvier 2026January 20262026年1月 👤 Gwendal Bernardi ⏱️ 15 min de lecture15 min read15分で読めます Tutoriels Tutorials チュートリアル

🎯 Introduction : La révolution de l'Attention 🎯 Introduction: The Attention Revolution 🎯 はじめに:Attentionの革命

Le mécanisme d'Attention est sans doute l'une des innovations les plus importantes en Deep Learning de la dernière décennie. Introduit dans le célèbre papier "Attention is All You Need" par Vaswani et al. en 2017, il a révolutionné non seulement le traitement du langage naturel (NLP), mais aussi la vision par ordinateur, la génération d'images, et bien d'autres domaines.

💡 Pourquoi "Attention" ?
Le nom vient de l'analogie avec l'attention humaine : quand vous lisez une phrase, vous ne traitez pas tous les mots de manière égale. Vous prêtez attention aux mots importants pour comprendre le sens. C'est exactement ce que fait ce mécanisme en Deep Learning.

Avant l'Attention, les modèles de séquence (comme les RNN et LSTM) traitaient les données de manière séquentielle, ce qui posait plusieurs problèmes :

L'Attention résout ces problèmes en permettant à chaque élément d'une séquence d'accéder directement à tous les autres éléments, quelle que soit leur distance. Dans cet article, nous allons comprendre en profondeur comment fonctionne ce mécanisme, avec toutes les équations mathématiques nécessaires.

💡 L'intuition : Comment nous prêtons attention 💡 The Intuition: How We Pay Attention 💡 直感:私たちがどのように注意を払うか

Imaginez que vous lisez cette phrase : "Le chat dort sur le tapis rouge dans le salon". Quand vous lisez le mot "dort", votre cerveau fait automatiquement plusieurs connexions :

Vous ne traitez pas tous les mots de manière égale : vous prêtez plus d'attention à certains mots qu'à d'autres. Chaque mot reçoit un poids d'attention différent selon sa pertinence pour comprendre le mot actuel.

Exemple de poids d'attention pour "dort" :
• "Le" → 0.05 (faible attention)
• "chat" → 0.60 (forte attention)
• "dort" → 0.10 (auto-attention)
• "sur" → 0.05
• "le" → 0.02
• "tapis" → 0.15 (attention modérée)
• "rouge" → 0.02
• "dans" → 0.01

C'est exactement ce que fait le mécanisme d'Attention en Deep Learning : il calcule automatiquement ces poids d'attention pour permettre au modèle de se concentrer sur les parties importantes de l'entrée.

🔑 Les trois composants : Query, Key, Value (Q, K, V) 🔑 The Three Components: Query, Key, Value (Q, K, V) 🔑 3つのコンポーネント:Query、Key、Value(Q、K、V)

L'Attention repose sur trois concepts fondamentaux, souvent comparés à une recherche dans une base de données. Imaginez que vous cherchez des vidéos sur YouTube :

🔍 Query (Q)

"Qu'est-ce que je cherche ?"

Votre requête de recherche : "tutoriel Python"

🔑 Key (K)

"Qu'est-ce que je contiens ?"

Les tags/mots-clés de chaque vidéo

💎 Value (V)

"Quelle information je porte ?"

Le contenu réel de chaque vidéo

Le processus fonctionne ainsi :

  1. Votre Query ("tutoriel Python") est comparée aux Keys (tags) de toutes les vidéos
  2. Un score de similarité est calculé pour chaque vidéo
  3. Les vidéos avec les meilleurs scores sont sélectionnées
  4. Vous recevez les Values (contenus) des vidéos les plus pertinentes

📐 Représentation mathématique

Soit une séquence d'entrée $\mathbf{X} \in \mathbb{R}^{n \times d}$ où :

Les matrices Q, K, V sont obtenues par des transformations linéaires de l'entrée :

$$\begin{aligned} \mathbf{Q} &= \mathbf{X} \mathbf{W}^Q \quad &\in \mathbb{R}^{n \times d_k} \\ \mathbf{K} &= \mathbf{X} \mathbf{W}^K \quad &\in \mathbb{R}^{n \times d_k} \\ \mathbf{V} &= \mathbf{X} \mathbf{W}^V \quad &\in \mathbb{R}^{n \times d_v} \end{aligned}$$

Où :

💡 Point clé : Les matrices $\mathbf{W}^Q$, $\mathbf{W}^K$, $\mathbf{W}^V$ sont des paramètres apprenables. Le modèle apprend automatiquement comment transformer l'entrée en Queries, Keys et Values optimales pour la tâche.

⚙️ Scaled Dot-Product Attention : Le calcul complet ⚙️ Scaled Dot-Product Attention: The Complete Calculation ⚙️ Scaled Dot-Product Attention:完全な計算

Maintenant que nous avons Q, K, et V, voyons comment calculer l'Attention. La formule complète du Scaled Dot-Product Attention est :

$$\text{Attention}(\mathbf{Q}, \mathbf{K}, \mathbf{V}) = \text{softmax}\left(\frac{\mathbf{Q}\mathbf{K}^T}{\sqrt{d_k}}\right)\mathbf{V}$$

Cette équation peut sembler intimidante, mais décomposons-la étape par étape :


📐 Étape 1 : Produit scalaire $\mathbf{Q}\mathbf{K}^T$

On calcule le produit matriciel entre les Queries et la transposée des Keys :

$$\mathbf{S} = \mathbf{Q}\mathbf{K}^T \in \mathbb{R}^{n \times n}$$

Où :

💡 Intuition : Le produit scalaire mesure la similarité entre deux vecteurs. Plus le score est élevé, plus la Query et la Key sont similaires, donc plus l'élément est pertinent.

📏 Étape 2 : Mise à l'échelle par $\sqrt{d_k}$

On divise les scores par $\sqrt{d_k}$ (la racine carrée de la dimension des Keys) :

$$\mathbf{S}_{\text{scaled}} = \frac{\mathbf{Q}\mathbf{K}^T}{\sqrt{d_k}}$$

Pourquoi cette mise à l'échelle ? Lorsque $d_k$ est grand, les produits scalaires peuvent devenir très grands en magnitude. Cela pousse la fonction softmax (étape suivante) dans des régions où les gradients sont très petits, rendant l'apprentissage difficile. La division par $\sqrt{d_k}$ normalise les scores.


🎯 Étape 3 : Fonction Softmax

On applique la fonction softmax pour convertir les scores en poids d'attention (probabilités) :

$$\mathbf{A} = \text{softmax}\left(\frac{\mathbf{Q}\mathbf{K}^T}{\sqrt{d_k}}\right) \in \mathbb{R}^{n \times n}$$

La fonction softmax est appliquée ligne par ligne. Pour chaque ligne $i$ :

$$A_{ij} = \frac{\exp\left(\frac{S_{ij}}{\sqrt{d_k}}\right)}{\sum_{k=1}^{n} \exp\left(\frac{S_{ik}}{\sqrt{d_k}}\right)}$$

Propriétés de la matrice d'attention $\mathbf{A}$ :

🎁 Étape 4 : Pondération des Values

Enfin, on multiplie la matrice d'attention par les Values pour obtenir la sortie :

$$\mathbf{Z} = \mathbf{A}\mathbf{V} \in \mathbb{R}^{n \times d_v}$$

Chaque ligne de $\mathbf{Z}$ est une combinaison pondérée de toutes les Values, où les poids sont donnés par les scores d'attention. Pour le token $i$ :

$$\mathbf{z}_i = \sum_{j=1}^{n} A_{ij} \mathbf{v}_j$$

💡 Résumé : L'Attention calcule pour chaque élément une moyenne pondérée de tous les autres éléments, où les poids reflètent la pertinence de chaque élément. C'est comme si chaque mot "collectait" l'information des autres mots en fonction de leur importance.

🔄 Self-Attention : La séquence s'attend elle-même 🔄 Self-Attention: The Sequence Attends to Itself 🔄 Self-Attention:シーケンスが自分自身に注意を払う

Le Self-Attention (ou auto-attention) est un cas particulier de l'Attention où la séquence s'attend elle-même. C'est le mécanisme au cœur des Transformers et de modèles comme GPT, BERT, et Vision Transformers.


🎯 Définition mathématique

Dans le Self-Attention, les Queries, Keys et Values proviennent toutes de la même séquence d'entrée $\mathbf{X}$ :

$$\begin{aligned} \mathbf{Q} &= \mathbf{X} \mathbf{W}^Q \\ \mathbf{K} &= \mathbf{X} \mathbf{W}^K \\ \mathbf{V} &= \mathbf{X} \mathbf{W}^V \\ \mathbf{Z} &= \text{Attention}(\mathbf{Q}, \mathbf{K}, \mathbf{V}) = \text{softmax}\left(\frac{\mathbf{Q}\mathbf{K}^T}{\sqrt{d_k}}\right)\mathbf{V} \end{aligned}$$

La différence avec l'Attention classique (cross-attention) est que dans le Self-Attention, chaque élément de la séquence peut prêter attention à tous les autres éléments de la même séquence, y compris lui-même.


📝 Exemple concret

Prenons la phrase : "Le chat noir dort"

Matrice d'attention (simplifiée) :

Query ↓ / Key → Query ↓ / Key → Query ↓ / Key → Le The 黒い chat black noir cat dort sleeps 寝ている
Le The 黒い 0.10 0.70 0.15 0.05
chat black 0.05 0.20 0.50 0.25
noir cat 0.05 0.75 0.15 0.05
dort sleeps 寝ている 0.02 0.60 0.08 0.30

Interprétation :

🎯 Cas d'usage du Self-Attention

📖 Compréhension du contexte

Chaque mot peut "voir" tous les autres mots pour comprendre le sens global de la phrase.

🔗 Capture des dépendances

Identifie les relations syntaxiques et sémantiques entre les mots, même s'ils sont éloignés.

💡 Avantage clé : Contrairement aux RNN qui traitent les mots séquentiellement, le Self-Attention permet à tous les mots d'interagir directement en une seule étape, ce qui permet de capturer des dépendances à longue distance et de paralléliser les calculs.

🎭 Multi-Head Attention : Plusieurs perspectives en parallèle 🎭 Multi-Head Attention: Multiple Perspectives in Parallel 🎭 Multi-Head Attention:並列の複数の視点

Le Multi-Head Attention est une extension du mécanisme d'Attention qui calcule plusieurs Attentions en parallèle (appelées "têtes" ou "heads"). Chaque tête peut apprendre à se concentrer sur différents aspects de la séquence.


🎯 Pourquoi plusieurs têtes ?

Une seule tête d'Attention peut se concentrer sur un seul type de relation. Avec plusieurs têtes, le modèle peut apprendre différents types de relations simultanément :

Tête 1 : Syntaxe

Relations grammaticales (sujet-verbe, déterminant-nom)

Tête 2 : Sémantique

Relations de sens (synonymes, antonymes, co-références)

Tête 3 : Position

Relations spatiales ou temporelles

📐 Formule mathématique complète

Le Multi-Head Attention avec $h$ têtes est défini comme suit :

$$\text{MultiHead}(\mathbf{Q}, \mathbf{K}, \mathbf{V}) = \text{Concat}(\text{head}_1, \ldots, \text{head}_h)\mathbf{W}^O$$

$$\text{où } \text{head}_i = \text{Attention}(\mathbf{Q}\mathbf{W}_i^Q, \mathbf{K}\mathbf{W}_i^K, \mathbf{V}\mathbf{W}_i^V)$$

Détail des notations :

🔄 Processus étape par étape

Étape 1 : Projection en $h$ têtes

Pour chaque tête $i$, on projette Q, K, V avec des matrices différentes $\mathbf{W}_i^Q$, $\mathbf{W}_i^K$, $\mathbf{W}_i^V$.

Étape 2 : Calcul de l'Attention pour chaque tête

Chaque tête calcule son propre Scaled Dot-Product Attention en parallèle.

Étape 3 : Concaténation

Les sorties de toutes les têtes sont concaténées : $\text{Concat}(\text{head}_1, \ldots, \text{head}_h) \in \mathbb{R}^{n \times hd_v}$

Étape 4 : Projection de sortie

La concaténation est multipliée par $\mathbf{W}^O$ pour obtenir la sortie finale $\in \mathbb{R}^{n \times d}$.

💡 Avantage clé : Le Multi-Head Attention permet au modèle d'apprendre plusieurs représentations de la même séquence simultanément. Chaque tête peut se spécialiser dans un type de relation différent, rendant le modèle plus expressif et robuste.

🚀 Applications de l'Attention 🚀 Applications of Attention 🚀 Attentionの応用

Le mécanisme d'Attention est devenu omniprésent dans le Deep Learning moderne. Voici les principales applications :

📝 Traitement du Langage Naturel (NLP)

  • GPT (GPT-3, GPT-4) : génération de texte
  • GPT (GPT-3, GPT-4): text generation
  • GPT(GPT-3、GPT-4):テキスト生成

  • BERT : compréhension du langage
  • BERT: language understanding
  • BERT:言語理解

  • Traduction automatique : Google Translate, DeepL
  • Machine translation: Google Translate, DeepL
  • 機械翻訳:Google翻訳、DeepL

  • Résumé automatique : synthèse de documents
  • Automatic summarization: document synthesis
  • 自動要約:文書合成

👁️ Vision par Ordinateur

  • Vision Transformers (ViT) : classification d'images
  • Vision Transformers (ViT): image classification
  • Vision Transformers(ViT):画像分類

  • DETR : détection d'objets
  • DETR: object detection
  • DETR:物体検出

  • Swin Transformer : segmentation
  • Swin Transformer: segmentation
  • Swin Transformer:セグメンテーション

  • EDIF : fusion d'images multi-modales
  • EDIF: multi-modal image fusion
  • EDIF:マルチモーダル画像融合

🎨 Génération Multimodale

  • DALL-E, Stable Diffusion : génération d'images
  • DALL-E, Stable Diffusion: image generation
  • DALL-E、Stable Diffusion:画像生成

  • CLIP : vision-langage
  • CLIP: vision-language
  • CLIP:ビジョン-言語

  • Flamingo : modèles multimodaux
  • Flamingo: multimodal models
  • Flamingo:マルチモーダルモデル

  • Whisper : reconnaissance vocale
  • Whisper: speech recognition
  • Whisper:音声認識

🧬 Autres Domaines

  • Bioinformatique : prédiction de structures protéiques (AlphaFold)
  • Bioinformatics: protein structure prediction (AlphaFold)
  • バイオインフォマティクス:タンパク質構造予測(AlphaFold)

  • Séries temporelles : prévisions financières
  • Time series: financial forecasting
  • 時系列:金融予測

  • Recommandation : systèmes de recommandation
  • Recommendation: recommendation systems
  • 推薦:推薦システム

  • Musique : génération et analyse
  • Music: generation and analysis
  • 音楽:生成と分析

⚖️ Avantages et Limitations ⚖️ Advantages and Limitations ⚖️ 利点と制限

✅ Avantages

🚀 Parallélisation

Contrairement aux RNN, tous les tokens peuvent être traités en parallèle, accélérant considérablement l'entraînement.

🔗 Dépendances à longue distance

Chaque élément peut directement accéder à tous les autres, quelle que soit leur distance.

🔍 Interprétabilité

Les poids d'attention peuvent être visualisés pour comprendre sur quoi le modèle se concentre.

⚠️ Limitations

📊 Complexité quadratique

La complexité est $O(n^2)$ où $n$ est la longueur de la séquence. Problématique pour les très longues séquences.

💾 Consommation mémoire

La matrice d'attention $n \times n$ peut devenir très grande, nécessitant beaucoup de mémoire GPU.

🔧 Solutions émergentes

Sparse Attention, Linear Attention, Flash Attention, et architectures alternatives comme Mamba.

🏆 Pourquoi l'Attention surpasse les RNN et CNN 🏆 Why Attention Outperforms RNNs and CNNs 🏆 AttentionがRNNとCNNを上回る理由

L'Attention a révolutionné le Deep Learning en résolvant des problèmes fondamentaux des architectures précédentes. Comparons l'Attention avec les Réseaux Récurrents (RNN/LSTM) pour le texte et les Réseaux Convolutifs (CNN) pour les images.

📝 Attention vs RNN/LSTM pour le Traitement du Texte

❌ Problèmes des RNN/LSTM

  • Traitement séquentiel : Les tokens doivent être traités un par un, empêchant la parallélisation
  • Sequential processing: Tokens must be processed one by one, preventing parallelization
  • 逐次処理:トークンを1つずつ処理する必要があり、並列化ができない

  • Dépendances longue distance : L'information se dilue au fil de la séquence (vanishing gradient)
  • Long-range dependencies: Information dilutes along the sequence (vanishing gradient)
  • 長距離依存関係:シーケンスに沿って情報が希薄化する(勾配消失)

  • Complexité temporelle : $O(n)$ opérations séquentielles pour une séquence de longueur $n$
  • Time complexity: $O(n)$ sequential operations for a sequence of length $n$
  • 時間計算量:長さ$n$のシーケンスに対して$O(n)$の逐次操作

  • Goulot d'étranglement : Toute l'information doit passer par un état caché de taille fixe
  • Bottleneck: All information must pass through a fixed-size hidden state
  • ボトルネック:すべての情報が固定サイズの隠れ状態を通過する必要がある

✅ Avantages de l'Attention

  • Parallélisation totale : Tous les tokens sont traités simultanément sur GPU
  • Full parallelization: All tokens are processed simultaneously on GPU
  • 完全な並列化:すべてのトークンがGPU上で同時に処理される

  • Accès direct : Chaque token peut accéder directement à tous les autres en une seule opération
  • Direct access: Each token can directly access all others in a single operation
  • 直接アクセス:各トークンは1回の操作ですべての他のトークンに直接アクセスできる

  • Pas de vanishing gradient : Les gradients circulent directement entre tous les tokens
  • No vanishing gradient: Gradients flow directly between all tokens
  • 勾配消失なし:勾配がすべてのトークン間で直接流れる

  • Scalabilité : Fonctionne efficacement sur de très longues séquences (avec optimisations)
  • Scalability: Works efficiently on very long sequences (with optimizations)
  • スケーラビリティ:非常に長いシーケンスで効率的に動作(最適化あり)

💡 Exemple concret : Pour traduire une phrase de 100 mots, un RNN doit faire 100 étapes séquentielles. Avec l'Attention, toutes les relations entre les 100 mots sont calculées en parallèle en une seule passe, réduisant le temps d'entraînement de plusieurs heures à quelques minutes.

🖼️ Attention vs CNN pour la Vision

⚠️ Limitations des CNN

  • Champ réceptif local : Les convolutions ne voient qu'une petite région à la fois (ex: 3×3, 5×5)
  • Local receptive field: Convolutions only see a small region at a time (e.g., 3×3, 5×5)
  • 局所的な受容野:畳み込みは一度に小さな領域しか見ない(例:3×3、5×5)

  • Relations longue distance : Nécessitent de nombreuses couches pour capturer des dépendances globales
  • Long-range relationships: Require many layers to capture global dependencies
  • 長距離関係:グローバルな依存関係を捉えるために多くの層が必要

  • Biais inductif fort : Supposent que les pixels voisins sont corrélés (pas toujours vrai)
  • Strong inductive bias: Assume neighboring pixels are correlated (not always true)
  • 強い帰納バイアス:隣接ピクセルが相関していると仮定(常に真ではない)

  • Rigidité : Structure hiérarchique fixe, difficile d'adapter dynamiquement
  • Rigidity: Fixed hierarchical structure, difficult to adapt dynamically
  • 硬直性:固定された階層構造、動的に適応するのが難しい

✅ Avantages de l'Attention (Vision Transformers)

  • Champ réceptif global : Chaque patch d'image peut voir tous les autres patches dès la première couche
  • Global receptive field: Each image patch can see all other patches from the first layer
  • グローバルな受容野:各画像パッチは最初の層からすべての他のパッチを見ることができる

  • Relations adaptatives : Le modèle apprend quelles régions sont importantes pour chaque tâche
  • Adaptive relationships: The model learns which regions are important for each task
  • 適応的な関係:モデルは各タスクにとって重要な領域を学習する

  • Flexibilité : Fonctionne sur différentes résolutions et tailles d'images sans modification
  • Flexibility: Works on different resolutions and image sizes without modification
  • 柔軟性:変更なしで異なる解像度と画像サイズで動作する

  • Transfert d'apprentissage : Les ViT pré-entraînés surpassent les CNN sur de nombreuses tâches
  • Transfer learning: Pre-trained ViTs outperform CNNs on many tasks
  • 転移学習:事前学習されたViTは多くのタスクでCNNを上回る

📊 Résultats empiriques : Le Vision Transformer (ViT) de Dosovitskiy et al. (2020) a démontré qu'avec suffisamment de données d'entraînement, les Transformers surpassent les meilleurs CNN (comme ResNet) sur ImageNet, tout en étant plus efficaces à entraîner. Sur des tâches de détection d'objets, DETR (Carion et al., 2020) simplifie considérablement l'architecture par rapport aux détecteurs CNN traditionnels.

🤖 Les LLM et l'Architecture Transformer 🤖 LLMs and the Transformer Architecture 🤖 LLMとTransformerアーキテクチャ

Les Large Language Models (LLM) comme GPT-4, Claude, LLaMA, et Mistral sont tous basés sur l'architecture Transformer, qui utilise massivement le mécanisme d'Attention. Comprendre comment les LLM utilisent l'Attention est essentiel pour saisir leur fonctionnement.


🏗️ Architecture Transformer : Les trois types d'Attention

Le Transformer original (Vaswani et al., 2017) utilise trois types d'Attention différents :

1️⃣ Self-Attention dans l'Encodeur

Chaque mot de la phrase d'entrée peut prêter attention à tous les autres mots (y compris lui-même). Utilisé dans BERT pour la compréhension du langage.

Q, K, V = X × WQ, X × WK, X × WV

2️⃣ Masked Self-Attention dans le Décodeur

Chaque mot ne peut prêter attention qu'aux mots précédents (pas aux mots futurs). C'est le cœur des LLM génératifs comme GPT : le modèle prédit le mot suivant sans "tricher" en regardant le futur.

Masque : Aij = -∞ si j > i (empêche l'attention vers le futur)

3️⃣ Cross-Attention (Encodeur-Décodeur)

Le décodeur prête attention à la sortie de l'encodeur. Les Queries viennent du décodeur, les Keys et Values de l'encodeur. Utilisé pour la traduction automatique.

Q = Décodeur × WQ, K = Encodeur × WK, V = Encodeur × WV

🔮 Comment GPT génère du texte avec l'Attention

Les modèles GPT (Radford et al., 2018, 2019; Brown et al., 2020) utilisent uniquement le décodeur Transformer avec Masked Self-Attention. Voici le processus de génération :

  1. Entrée initiale : Le prompt utilisateur (ex: "Explique-moi l'Attention")
  2. Tokenisation : Le texte est découpé en tokens (sous-mots)
  3. Embeddings : Chaque token est converti en vecteur + encodage positionnel
  4. Multi-Head Attention masquée : Chaque token prête attention à tous les tokens précédents (typiquement 32-96 têtes dans GPT-4)
  5. Feed-Forward : Réseau de neurones dense appliqué à chaque position
  6. Répétition : Les étapes 4-5 sont répétées sur plusieurs couches (96 couches dans GPT-4)
  7. Prédiction : La dernière couche prédit une distribution de probabilité sur tous les tokens possibles
  8. Échantillonnage : Un token est sélectionné (avec température, top-p, etc.)
  9. Itération : Le token généré est ajouté à la séquence, et le processus recommence

📊 Échelle des LLM modernes

Modèle Model モデル Paramètres Parameters パラメータ Couches Layers Têtes d'Attention Attention Heads Attentionヘッド
GPT-2 1.5B 48 25
GPT-3 175B 96 96
LLaMA 2 70B 80 64
Mistral 7B 7B 32 32

💡 Point clé : Dans GPT-3 (175 milliards de paramètres), chaque token passe par 96 couches de Multi-Head Attention avec 96 têtes par couche. Cela signifie que pour générer un seul mot, le modèle effectue des milliers de calculs d'Attention pour capturer toutes les nuances du contexte. C'est cette profondeur et cette largeur qui permettent aux LLM de comprendre et générer du langage de manière si sophistiquée.

🎓 Conclusion 🎓 Conclusion 🎓 結論

Le mécanisme d'Attention a révolutionné le Deep Learning en permettant aux modèles de se concentrer sur ce qui est important. Que ce soit pour comprendre du texte, analyser des images, ou fusionner des informations multi-modales, l'Attention est devenue un outil indispensable. Comprendre son fonctionnement est essentiel pour quiconque souhaite travailler avec les architectures modernes de Deep Learning.

📚 Références Scientifiques 📚 Scientific References 📚 科学的参考文献

🎯 Papiers Fondamentaux 🎯 Foundational Papers 🎯 基礎論文

🤖 Large Language Models (LLM) 🤖 Large Language Models (LLM) 🤖 大規模言語モデル(LLM)

👁️ Vision par Ordinateur 👁️ Computer Vision 👁️ コンピュータビジョン

🎨 Modèles Multimodaux 🎨 Multimodal Models 🎨 マルチモーダルモデル

🧬 Autres Domaines 🧬 Other Domains 🧬 その他の分野

📝 Articles connexes 📝 Related Articles 📝 関連記事