Classifier les verbatims de 1 et 2 niveaux : tutoriel

Written by

Matthieu SAUSSAYE

Published

Mar 11, 2026

Classifier des verbatims ouverts (niveau 1 et 2) avec smartinterivew

Une fois les données collectées, que ce soit via SmartInterview ou un fichier externe, l'étape suivante est de transformer les réponses ouvertes en codes thématiques exploitables.

Smartinterview permet de:

  • Définir un plan de codification (1 ou 2 niveaux de profondeur) (bientôt 3)

  • Générer automatiquement des thèmes via l'IA, avec des instructions personnalisées

  • Contrôler précisément le nombre de codes par répondants grâce à un système de règles

  • Importer un jeu d'entraînement pour guider la classification

  • Pré-classifier un échantillon et corriger les résultats

  • Lancer la classification complète sur toutes les réponses

  • Évaluer la qualité des codes avec une matrice de corrélation MECE (mutuellement exclusifs, communément exhaustifs)

  • Exporter les résultats en Excel

  • Analyser les résultats sur la dashboard

Cet article explique, étape par étape, comment réaliser une classification à 1 ou 2 niveaux dans la plateforme.

1. Choisir la source de données

La codification accepte deux sources :

Source

Usage

Quand l'utiliser

Enquête SmartInterview

Sélectionnez une enquête existante, puis une question ouverte

Vous avez collecté des réponses via SmartInterview

Fichier Excel

Importez un fichier contenant les verbatims

Vous avez des données provenant d'un outil externe


Fichier excel:


Sondage:


Import de fichier : sélection des colonnes

Lors de l'import d'un fichier, vous devez indiquer au système :

  • La colonne répondant (identifiant unique de chaque répondant)

    • Si votre fichier ne contient pas d'identifiant, choisissez "No column" : le système numérote automatiquement les répondants de 1 à N

  • La colonne de réponses à classifier (les verbatims)

 Astuce : Le système détecte automatiquement les colonnes courantes (Respondent_IDSerialRéponsesAnswer, etc.) à partir des en-têtes du fichier.

[Capture d'écran : sélection des colonnes dans la configuration]

2. Choisir la profondeur de classification

Profondeur 1 niveau (L1 uniquement)

Une liste plate de thèmes principaux. Chaque réponse est associée à un ou plusieurs thèmes.

    Ease of use L1
    Performance L1
 User interface L1
        Nothing L1
    Ease of use L1
    Performance L1
 User interface L1
        Nothing L1
    Ease of use L1
    Performance L1
 User interface L1
        Nothing L1

Cas d'usage : études exploratoires, première analyse rapide, verbatims courts.

Profondeur 2 niveaux (L1 + L2)

Des thèmes principaux (L1) avec des sous-thèmes (L2) rattachés. La structure est hiérarchique : chaque sous-thème appartient à un seul thème parent.

Ease of use                          L1 (thème principal)
  ├── Interface is intuitive         L2 (sous-thème)
  ├── Navigation is confusing        L2
  └── Easy to complete tasks         L2

Performance                          L1
  ├── App is fast                    L2
  └── App crashes or freezes         L2

User interface                       L1
  ├── Interface is easy to use       L2
  └── Interface is confusing         L2


Nothing                              L1
  └── Nothing                        L2
Ease of use                          L1 (thème principal)
  ├── Interface is intuitive         L2 (sous-thème)
  ├── Navigation is confusing        L2
  └── Easy to complete tasks         L2

Performance                          L1
  ├── App is fast                    L2
  └── App crashes or freezes         L2

User interface                       L1
  ├── Interface is easy to use       L2
  └── Interface is confusing         L2


Nothing                              L1
  └── Nothing                        L2
Ease of use                          L1 (thème principal)
  ├── Interface is intuitive         L2 (sous-thème)
  ├── Navigation is confusing        L2
  └── Easy to complete tasks         L2

Performance                          L1
  ├── App is fast                    L2
  └── App crashes or freezes         L2

User interface                       L1
  ├── Interface is easy to use       L2
  └── Interface is confusing         L2


Nothing                              L1
  └── Nothing                        L2

Cas d'usage : études approfondies nécessitant une granularité fine, distinction des nuances au sein d'un même thème, codifications conformes aux standards market research.


Dans cet exemple :

  • Ease of use → L1 (thème principal)

  • les lignes avec un ID → L2 (sous-thèmes)


3. Définir le plan de codification

Vous avez par ailleurs; deux façons de créer votre plan de codes :

  • A - Importer un code-frame Excel (comme dans l'exemple) 

  • B - Laisser l'IA générer les thèmes.


Option A : Importer les codes via Excel

Si vous disposez déjà d'un code-frame, importez-le directement.

Format pour 1 niveau

Un fichier avec au minimum une colonne contenant les libellés des thèmes :

ID

Label

1

Interface is intuitive

2

Ease of use

3

Performance is fast

4

App crashes

5

Nothing

Format pour 2 niveaux

Le fichier doit structurer les L1 et L2 de manière hiérarchique. Le système détecte automatiquement les colonnes ID et Label à partir des en-têtes.

Option 1 :  Colonnes de niveaux séparées (dans une feuille excel):

L1

L2

Ease of use

Interface is intuitive

Ease of use

Navigation is confusing

Ease of use

Easy to complete tasks

Ease of use

Sensation is smooth

Ease of use

The shape is nice

Option 2 : Avec identifiants et Parent_ID :

💡 Astuce : Vous devez stocker les topics dans une feuille séparée de votre fichier Excel (par ex. un onglet "Topics"). Le système vous propose de sélectionner la feuille contenant les codes.

Prévisualisation et filtrage

Après l'import, une prévisualisation du code-frame s'affiche avec :

  • Le nombre de topics détectés (mis à jour automatiquement)

  • La possibilité de filtrer par colonne (utile pour exclure certaines catégories)

  • La possibilité d'exclure manuellement des lignes individuelles

Option B : Générer les codes par l'IA

Si vous n'avez pas de plan de code préexistant, l'IA analyse un échantillon de vos réponses et découvre automatiquement les thèmes récurrents.

Comment ça marche

  1. Le système échantillonne jusqu'à 400 réponses de votre fichier

  2. L'IA identifie les thèmes récurrents et les formule en libellés clairs

  3. Les thèmes sont triés par fréquences estimées (le nombre indicatif de répondants concernés)

  4. Les thèmes sont automatiquement numérotés (ID séquentiels)

Donner des instructions personnalisées (Guidelines)

Vous pouvez guider la génération en fournissant des instructions textuelles dans le champ "Guidelines" :

Focus on sensory attributes.
Separate positive and negative perceptions.
Include a "Nothing / No comment" category.
Always use English labels

Focus on sensory attributes.
Separate positive and negative perceptions.
Include a "Nothing / No comment" category.
Always use English labels

Focus on sensory attributes.
Separate positive and negative perceptions.
Include a "Nothing / No comment" category.
Always use English labels

Ces instructions influencent directement :

  • Le vocabulaire utilisé pour les libellés

  • Le niveau de granularité (plus ou moins de thèmes)

  • La perspective d'analyse (sensorielle, émotionnelle, fonctionnelle...)

  • La langue des libellés

⚠️ Important : Les instructions sont en version  Beta. Elles fonctionnent bien pour orienter la génération, mais les résultats peuvent varier. Vérifiez toujours les thèmes générés.

Génération en mode 2 niveaux

En mode 2 niveaux, le processus comporte deux étapes :

  1. Génération des L1: L'IA identifie les thèmes principaux

  2. Génération automatique des L2: Pour chaque thème L1, l'IA génère automatiquement des sous-thèmes basés sur les réponses correspondantes

Les L1 qui n'ont pas encore de sous-thèmes sont détectés automatiquement, et le système lance la génération des L2 manquants avant de démarrer la classification.

Éditeur de thèmes

Qu'ils soient importés ou générés, les thèmes apparaissent dans l'éditeur de thèmes (panneau latéral gauche), où vous pouvez :

Action

Comment

Renommer un thème

Cliquez sur le libellé et éditez-le directement

Supprimer un thème

Cliquez sur l'icône corbeille 🗑️

Ajouter un thème

Cliquez sur le bouton + en bas de la liste

Réordonner les thèmes

Glissez-déposez via la poignée ≡

Déplier / replier les L2

Cliquez sur la flèche ▶ à côté d'un thème L1

Re-générer les thèmes

Cliquez sur le bouton ✨ pour relancer la génération IA

Re-générer les L2 d'un parent

Cliquez sur ✨ à côté d'un thème L1 spécifique

💡 Les fréquences estimées (nombre indicatif affiché à côté de chaque thème) sont recalculées après chaque classification. Avant la première classification, elles proviennent de l'estimation de l'IA lors de la génération.

4. Configurer les règles de classification

Les règles contrôlent combien de codes peuvent être attribués à chaque répondant. Elles sont appliquées à trois niveaux : lors de la pré-classification, sur les exemples importés, et lors de la classification complète.

Règles pour 1 niveau

Paramètre

Description

Défaut

Max codes

Nombre maximum de thèmes par répondant

0 (illimité)

Exemple : Avec Max codes = 3, un répondant ne pourra recevoir que 3 thèmes au maximum, même si sa réponse en mentionne davantage.

Règles pour 2 niveaux

En mode 2 niveaux, trois paramètres complémentaires permettent un contrôle fin :

Paramètre

Code interne

Description

Défaut

Max L1

maxCodesL1

Nombre maximum de thèmes principaux par répondant

0 (illimité)

Max L2

maxCodesL2

Nombre maximum global de sous-thèmes par répondant

0 (illimité)

Max L2 par L1

maxCodesL2PerL1

Nombre maximum de sous-thèmes par thème parent

0 (illimité)

Ordre d'application des règles :

  1. Max L1 : Limite le nombre de thèmes principaux (Passe 1)

  2. Max L2/L1 : Limite les sous-thèmes par parent (Passe 2, par appels)

  3. Max L2 global : Plafond final après fusion de tous les sous-thèmes (post-traitement)

💡 Conseil : Le Max L2/L1 est particulièrement utile lorsque certains thèmes L1 sont très larges et risqueraient de monopoliser tous les sous-thèmes. Par exemple, avec Max L2/L1 = 2, chaque thème parent ne peut contribuer que 2 sous-thèmes maximum, assurant une répartition équilibrée.

5. Importer un jeu d'entraînement (data du passé) (optionnel)


Pourquoi importer des exemples ?

Un jeu d'entraînement (ou few-shot examples) permet de montrer des exemples de verbatims déjà codifiés. Ces exemples sont envoyés comme contexte pour guider chaque lot de classification.

L'import est recommandé lorsque :

  • Les thèmes sont nuancés ou proches les uns des autres.

  • Vous souhaitez une continuité au sein d'un projet ou entre plusieurs projets.

  • Vous avez des conventions de codification spécifiques (ex: certaines expressions doivent toujours être classées sous un thème particulier)

  • Vous souhaitez reproduire une classification existante sur de nouvelles données.

  • La pré-classification sans exemples donne des résultats insatisfaisants.

Format du fichier d'entraînement

Le fichier Excel doit se présenter comme ceci :

Answer

ANSW_1aCOMM1

ANSW_2aCOMM2

ANSW_3aCOMM3

ANSW_4aCOMM4

ANSW_5aCOMM5

L’interface reste fluide du début à la fin, très proche d’une application premium.

21





L’application est correcte, rien de particulièrement remarquable.

18

207




Navigation très douce, quelques animations agréables

18

207




Parfois un peu saccadé et certaines sections semblent mal optimisées.

45

212

233

240


Le système détecte automatiquement les colonnes contenant des codes en les comparant aux thèmes définis dans votre plan de codification. Les colonnes dont les valeurs correspondent à des thèmes connus sont automatiquement identifiées.

⚠️ Limite : 30 exemples sont conservés. Les codes doivent être les mêmes que ceux utilisés dans le plan de code initial du nouveau fichiers importés.

Vérification et traduction

Chaque exemple importé est affiché avec :

  • Le texte de la réponse (verbatim)

  • Les badges des thèmes attribués (avec code couleur)

  • Un bouton de traduction individuel avec choix de la langue (Français, English, Deutsch)

La traduction permet de vérifier le contenu des exemples dans votre langue de travail, sans modifier les données envoyées à la classification.

6. Pré-classifier un échantillon

Qu'est-ce que la pré-classification ?

Avant de lancer la classification sur l'ensemble des données, le système classe les 30 premières réponses à titre de test. C'est l'étape la plus importante pour valider la qualité de votre plan de codification.

La pré-classification utilise exactement le même algorithme que la classification complète, mais sur un échantillon réduit pour permettre une vérification rapide.

Ce que la pré-classification vous montre

Pour chaque réponse, vous voyez :

  • Le texte du verbatim (avec mise en surbrillance des mots-clés correspondant aux thèmes)

  • Les badges L1 attribués (avec code couleur)

  • Les badges L2 attribués (si profondeur = 2), groupés sous leurs parents L1

  • Un résumé : nombre de réponses classifiées sur le total

Corriger les résultats

La pré-classification est interactive vous pouvez corriger chaque ligne :

Action

Geste

Effet

Retirer un thème

Cliquez sur le badge ×

Le thème est retiré de cette réponse

Ajouter un thème L1

Cliquez sur + à côté des badges L1

Menu déroulant avec tous les thèmes L1 disponibles

Ajouter un thème L2

Cliquez sur + à côté des badges L2

Menu déroulant filtré : seuls les sous-thèmes des L1 déjà attribués sont proposés

Rechercher un thème

Tapez dans le champ de recherche du menu

Filtrage en temps réel des thèmes disponibles

💡 Zone de validation : Toutes les lignes entre votre première et votre dernière correction sont considérées comme validées. Elles sont surlignées en bleu et deviennent automatiquement des  pour la classification complète.

7. Lancer la classification complète

Quand lancer la classification ?

Lancez la classification complète lorsque :

  • Les thèmes de la pré-classification correspondent à vos attentes

  • Les corrections éventuelles sont faites sur les 30 premières lignes

  • Les données d'entraînement sont importées.

  • Les règles (Max codes) sont correctement configurées

Ce qui se passe en arrière-plan

  1. Les réponses sont découpées en lots (batches)

  2. Chaque lot est envoyé à l'IA avec :

    • La liste des thèmes disponibles

    • Les exemples d'entraînement (importés + corrections de pré-classification)

    • Les règles de limites configurées

  3. En mode 2 niveaux :

    • Passe 1 : Classification L1 sur tous les lots

    • Passe 2 : Pour chaque thème L1 attribué, classification L2 par parent

    • Post-traitement : Application du plafond global L2 (Max L2)

Résultat

Après classification, vous voyez :

  • Un bandeau de succès : "Classification complete : N classified responses"

  • Les 30 premières réponses avec leurs codes attribués (modifiables)

  • Les exemples importés (section dépliable, si un jeu d'entraînement a été utilisé)

  • La matrice de corrélation (voir section suivante)

8. Évaluer les résultats avec la matrice de corrélation

Le principe MECE

Un plan de codification de qualité doit être MECE :

  • Mutually Exclusive : Chaque thème couvre un aspect distinct. Deux thèmes ne doivent pas décrire la même chose.

  • Collectively Exhaustive : L'ensemble des thèmes couvre toutes les réponses. Aucun verbatim ne devrait rester sans code pertinent.

Lire la matrice de co-occurrence

La matrice affiche le pourcentage de répondants ayant reçu simultanément deux thèmes. La diagonale est toujours à 100% (un thème est toujours corrélé avec lui-même).


Interface is intuitive

(122)

App is fast (6)

Navigation is confusing. (14)

App crashes or freezes (28)

Interface is intuitive

(122)

100%

33%

21%

0%

App is fast (6)

33%

100%

0%

0%

Navigation is confusing (14)

21%

0%

100%

0%

App crashes or freezes (28)

0%

0%

0%

100%

Comment interpréter la matrice

Signal

Valeur

Signification

Action recommandée

🔴 Corrélation élevée

50%

Les deux thèmes se chevauchent souvent: possiblement redondants

Fusionner les thèmes ou reformuler les définitions

🟠 Corrélation moyenne

20-50%

Les thèmes sont liés mais distincts: acceptable

Vérifier quelques réponses pour confirmer

🟢 Corrélation faible

< 20%

Les thèmes sont bien mutuellement exclusifs

Rien à changer

⚪ Corrélation nulle

0%

Les thèmes ne coexistent jamais

Parfait pour des thèmes antagonistes (ex: "Nothing" vs les autres)

⚠️ Faible effectif

(1-2)

Le thème concerne très peu de répondants

Peut-être trop spécifique envisager de fusionner avec un thème parent / ou enlever dans une codification à 1 niveau

💡 Les cellules fortement corrélées sont mises en surbrillance colorée pour repérer rapidement les problèmes.

Exemple d'analyse

Dans la matrice ci-dessus :

  • App is fast × Interface is intuitive = 33% → Ces deux sensations sont parfois mentionnées ensemble. C'est normal pour un produit consommé par inhalation: les thèmes restent distincts.

  • Nothing × tout le reste = 0% → Parfait : les répondants qui n'ont rien à dire ne sont pas classés dans d'autres thèmes.

  • Interface is intuitive (122) est le thème dominant: 122 répondants sur 232, soit plus de la moitié.

Agir sur les résultats

Si la matrice révèle des problèmes :

  1. Cliquez sur "Back to codes" pour revenir à l'éditeur de thèmes

  2. Fusionnez les thèmes redondants ou reformulez les définitions ambiguës

  3. Relancez la classification; les corrections apportées sur les 30 premières lignes sont conservées comme exemples d'entraînement (bouton "Re-classify with corrections")

Ce cycle itératif classifier → évaluer → ajuster → re-classifier permet d'atteindre progressivement un plan de codification robuste et MECE.

9. Exporter les résultats

Une fois la classification validée, cliquez sur "Download Excel" pour obtenir un fichier structuré :

Feuille

Contenu

Description

FilesQO

Données classifiées

Chaque répondant avec son texte et ses codes attribués (colonnes L1 et L2 si applicable)

Topics

Plan de codification

La liste complète des thèmes avec leurs identifiants, organisée hiérarchiquement

Top Topics

Synthèse fréquentielle

Les thèmes les plus fréquents avec leurs comptages et pourcentages

Conseils pratiques

Combien de thèmes définir ?

Nombre de réponses

Thèmes L1 recommandés

Thèmes L2 recommandés

< 100

5 – 10

2 – 4 par L1

100 – 500

10 – 20

3 – 6 par L1

500

15 – 30

5 – 10 par L1

Quand utiliser 1 niveau vs 2 niveaux ?

Critère

1 niveau

2 niveaux

Objectif exploratoire rapide


Première analyse de données


Granularité fine requise


Verbatims longs et détaillés


Verbatims courts (< 20 mots)