Einstufung von Verbatims in Ebene 1 und 2: Tutorial

Verfasst von

Matthieu SAUSSAYE

Veröffentlicht

Inhalt

Offene Verbatims klassifizieren (Ebene 1 und 2) mit SmartInterview

Sobald die Daten erfasst sind, sei es über SmartInterview oder eine externe Datei, besteht der nächste Schritt darin, die offenen Antworten in nutzbare Code-Frames zu transformieren.

SmartInterview ermöglicht Ihnen:

  • Einen Code-Frame (1 oder 2 Hierarchie-Ebenen) zu definieren (bald 3)

  • Themen automatisch per KI mit benutzerdefinierten Anweisungen zu generieren

  • Die Anzahl der Codes pro Befragtem durch ein Regelsystem präzise zu steuern

  • Ein Trainings-Dataset zu importieren, um die Klassifizierung zu steuern

  • Eine Stichprobe vorab zu klassifizieren (Pre-classification) und die Ergebnisse zu korrigieren

  • Die vollständige Klassifizierung für alle Antworten zu starten

  • Die Qualität der Codes mit einer MECE-Korrelationsmatrix (mutually exclusive, collectively exhaustive) zu bewerten

  • Die Ergebnisse nach Excel zu exportieren

  • Die Ergebnisse auf dem Dashboard zu analysieren

Dieser Artikel erklärt Schritt für Schritt, wie Sie eine 1- oder 2-stufige Klassifizierung in der Plattform durchführen.

1. Datenquelle auswählen

Die Codierung akzeptiert zwei Quellen :

Quelle

Nutzung

Anwendungsfall

SmartInterview Umfrage

Wählen Sie eine bestehende Umfrage und dann eine offene Frage aus

Sie haben Antworten über SmartInterview gesammelt

Excel-Datei

Importieren Sie eine Datei, die die Verbatims enthält

Sie haben Daten aus einem externen Tool


Excel-Datei:


Umfrage:


Datei-Import: Spaltenauswahl

Beim Importieren einer Datei müssen Sie dem System Folgendes mitteilen :

  • Die Befragten-Spalte (eindeutige ID für jeden Befragten)

    • Wenn Ihre Datei keine ID enthält, wählen Sie "No column" : Das System nummeriert die Befragten automatisch von 1 bis N

  • Die Antwortspalte für die Klassifizierung (die Verbatims)

 Tipp : Das System erkennt geläufige Spaltennamen automatisch (Respondent_IDSerialRéponsesAnswer, etc.) anhand der Datei-Header.

[Screenshot: Spaltenauswahl in der Konfiguration]

2. Tiefe der Klassifizierung wählen

Tiefe 1 Ebene (nur L1)

Eine flache Liste von Hauptthemen. Jede Antwort wird einem oder mehreren Themen zugeordnet.

    Ease of use L1
    Performance L1
 User interface L1
        Nothing L1
    Ease of use L1
    Performance L1
 User interface L1
        Nothing L1
    Ease of use L1
    Performance L1
 User interface L1
        Nothing L1

Use Case : Explorative Studien, erste schnelle Analyse, kurze Verbatims.

Tiefe 2 Ebenen (L1 + L2)

Hauptthemen (L1) mit zugeordneten Unterthemen (L2). Die Struktur ist hierarchisch : Jedes Unterthema gehört zu genau einem übergeordneten Hauptthema (Parent).

Ease of use                          L1 (thème principal)
  ├── Interface is intuitive         L2 (sous-thème)
  ├── Navigation is confusing        L2
  └── Easy to complete tasks         L2

Performance                          L1
  ├── App is fast                    L2
  └── App crashes or freezes         L2

User interface                       L1
  ├── Interface is easy to use       L2
  └── Interface is confusing         L2


Nothing                              L1
  └── Nothing                        L2
Ease of use                          L1 (thème principal)
  ├── Interface is intuitive         L2 (sous-thème)
  ├── Navigation is confusing        L2
  └── Easy to complete tasks         L2

Performance                          L1
  ├── App is fast                    L2
  └── App crashes or freezes         L2

User interface                       L1
  ├── Interface is easy to use       L2
  └── Interface is confusing         L2


Nothing                              L1
  └── Nothing                        L2
Ease of use                          L1 (thème principal)
  ├── Interface is intuitive         L2 (sous-thème)
  ├── Navigation is confusing        L2
  └── Easy to complete tasks         L2

Performance                          L1
  ├── App is fast                    L2
  └── App crashes or freezes         L2

User interface                       L1
  ├── Interface is easy to use       L2
  └── Interface is confusing         L2


Nothing                              L1
  └── Nothing                        L2

Use Case : Tiefgehendere Marktstudien, die eine feine Granularität erfordern, Unterscheidung von Nuancen innerhalb desselben Themas, Codierung gemäß Market Research-Standards.


In diesem Beispiel:

  • Ease of use → L1 (Hauptthema)

  • die Zeilen mit einer ID → L2 (Unterthemen)


3. Code-Frame definieren

Es gibt zwei Möglichkeiten, Ihren Code-Frame zu erstellen :

  • A - Einen Excel-Code-Frame importieren (wie im Beispiel) 

  • B - Die KI die Themen generieren lassen.


Option A: Codes über Excel importieren

Wenn Sie bereits einen Code-Frame haben, importieren Sie ihn direkt.

Format für 1 Ebene

Eine Datei mit mindestens einer Spalte, die die Theme-Labels enthält :

ID

Label

1

Interface is intuitive

2

Ease of use

3

Performance is fast

4

App crashes

5

Nothing

Format für 2 Ebenen

Die Datei muss L1 und L2 hierarchisch strukturieren. Das System erkennt die Spalten ID und Label automatisch anhand der Header.

Option 1 :  Getrennte Spalten für die Ebenen (in einem Excel-Sheet):

L1

L2

Ease of use

Interface is intuitive

Ease of use

Navigation is confusing

Ease of use

Easy to complete tasks

Ease of use

Sensation is smooth

Ease of use

The shape is nice

Option 2 : Mit IDs und Parent_ID :

💡 Tipp : Sie müssen die Topics in einer separaten Tabelle Ihrer Excel-Datei speichern (z.B. ein Tab namens "Topics"). Das System fordert Sie auf, das Blatt auszuwählen, das die Codes enthält.

Vorschau und Filterung

Nach dem Import wird eine Vorschau des Code-Frames angezeigt mit :

  • Der Anzahl der erkannten Topics (wird automatisch aktualisiert)

  • Der Möglichkeit, nach Spalten zu filtern (nützlich, um bestimmte Kategorien auszuschließen)

  • Der Möglichkeit, einzelne Zeilen manuell auszuschließen

Option B: Codes durch KI generieren lassen

Wenn Sie keinen vordefinierten Code-Frame haben, analysiert die KI eine Stichprobe Ihrer Antworten und erkennt automatisch wiederkehrende Themen.

Wie es funktioniert

  1. Das System zieht eine Stichprobe von bis zu 400 Antworten aus Ihrer Datei

  2. Die KI identifiziert wiederkehrende Themen und formuliert sie in klaren Labels

  3. Die Themen werden nach geschätzten Häufigkeiten (Frequenzen) sortiert (indikative Anzahl der betroffenen Befragten)

  4. Die Themen werden automatisch nummeriert (sequenzielle IDs)

Eigene Anweisungen geben (Guidelines)

Sie können die Generierung steuern, indem Sie textuelle Anweisungen im Feld "Guidelines" eingeben :

Focus on sensory attributes.
Separate positive and negative perceptions.
Include a "Nothing / No comment" category.
Always use English labels

Focus on sensory attributes.
Separate positive and negative perceptions.
Include a "Nothing / No comment" category.
Always use English labels

Focus on sensory attributes.
Separate positive and negative perceptions.
Include a "Nothing / No comment" category.
Always use English labels

Diese Anweisungen beeinflussen direkt :

  • Das für die Labels verwendete Vokabular

  • Die Granularität (mehr oder weniger Themen)

  • Die Analyseperspektive (sensorisch, emotional, funktional...)

  • Die Sprache der Labels

⚠️ Wichtig : Die Guidelines befinden sich in der Beta-Version. Sie eignen sich gut, um die Generierung zu steuern, die Ergebnisse können jedoch variieren. Überprüfen Sie die generierten Themen immer selbst.

Generierung im 2-Ebenen-Modus

Im 2-Ebenen-Modus umfasst der Prozess zwei Schritte :

  1. Generierung der L1-Themen: Die KI identifiziert die Hauptthemen

  2. Automatische Generierung der L2-Themen: Für jedes L1-Thema generiert die KI automatisch Unterthemen basierend auf den entsprechenden Antworten

L1-Themen, die noch keine Unterthemen haben, werden automatisch erkannt, und das System startet die Generierung der fehlenden L2-Themen, bevor die Klassifizierung beginnt.

Code-Frame-Editor

Egal, ob importiert oder generiert: Die Themen erscheinen im Code-Frame-Editor (linkes Seitenpanel), wo Sie folgende Aktionen ausführen können :

Aktion

Wie

Thema umbenennen

Klicken Sie auf das Label und bearbeiten Sie es direkt

Thema löschen

Klicken Sie auf das Papierkorb-Symbol 🗑️

Thema hinzufügen

Klicken Sie auf die Schaltfläche + unten in der Liste

Themen neu anordnen

Per Drag-and-Drop über das Griff-Symbol ≡ verschieben

L2 ein-/ausklappen

Klicken Sie auf den Pfeil ▶ neben einem L1-Thema

Themen neu generieren

Klicken Sie auf die Schaltfläche ✨, um die KI-Generierung neu zu starten

L2-Themen eines Parents neu generieren

Klicken Sie auf ✨ neben einem bestimmten L1-Thema

💡 Die geschätzten Häufigkeiten (die indikative Zahl neben jedem Thema) werden nach jeder Klassifizierung neu berechnet. Vor der ersten Klassifizierung stammen sie aus der Schätzung der KI während der Generierung.

4. Klassifizierungsregeln konfigurieren

Die Regeln steuern, wie viele Codes jedem Befragten zugeordnet werden können. Sie werden auf drei Ebenen angewendet : bei der Pre-Classification, auf die importierten Beispiele und bei der vollständigen Klassifizierung.

Regeln für Ebene 1

Parameter

Beschreibung

Standardwert

Max Codes

Maximale Anzahl von Themen pro Befragtem

0 (unbegrenzt)

Beispiel : Mit Max Codes = 3 kann ein Befragter maximal 3 Themen erhalten, selbst wenn seine Antwort mehr Themen anspricht.

Regeln für Ebene 2

Im 2-Ebenen-Modus ermöglichen drei zusätzliche Parameter eine feine Steuerung :

Parameter

Interner Code

Beschreibung

Standardwert

Max L1

maxCodesL1

Maximale Anzahl von Hauptthemen pro Befragtem

0 (unbegrenzt)

Max L2

maxCodesL2

Maximale gesamte Anzahl von Unterthemen pro Befragtem

0 (unbegrenzt)

Max L2 pro L1

maxCodesL2PerL1

Maximale Anzahl von Unterthemen pro Hauptthema (Parent)

0 (unbegrenzt)

Reihenfolge der Regelanwendung:

  1. Max L1 : Begrenzt die Anzahl der Hauptthemen (Schritt 1)

  2. Max L2/L1 : Begrenzt die Unterthemen pro Parent (Schritt 2, über Aufrufe)

  3. Globales Max L2 : Endgültige Obergrenze nach Zusammenführung aller Unterthemen (Post-Processing)

💡 Tipp : Das Max L2/L1 ist besonders nützlich, wenn einige L1-Themen sehr breit gefächert sind und Gefahr laufen, alle Unterthemen an sich zu reißen. Mit Max L2/L1 = 2 kann beispielsweise jedes übergeordnete Thema maximal 2 Unterthemen beisteuern, was für eine ausgewogene Verteilung sorgt.

5. Ein Trainings-Dataset importieren (historische Daten) (optional)


Warum Beispiele importieren?

Ein Trainings-Dataset (oder few-shot examples) ermöglicht es, Beispiele für bereits codierte Verbatims zu zeigen. Diese Beispiele werden als Kontext gesendet, um jeden Batch der Klassifizierung anzuleiten.

Der Import wird empfohlen, wenn:

  • Themen sehr nuanciert oder nahe beieinander sind.

  • Sie Kontinuität innerhalb eines Projekts oder zwischen mehreren Projekten wünschen.

  • Sie spezifische Codierungskonventionen haben (z. B. müssen bestimmte Begriffe immer einem bestimmten Thema zugeordnet werden).

  • Sie eine bestehende Klassifizierung auf neue Daten reproduzieren möchten.

  • Die Pre-classification ohne Beispiele unbefriedigende Ergebnisse liefert.

Format der Trainingsdatei

Die Excel-Datei sollte wie folgt aufgebaut sein :

Answer

ANSW_1aCOMM1

ANSW_2aCOMM2

ANSW_3aCOMM3

ANSW_4aCOMM4

ANSW_5aCOMM5

L’interface reste fluide du début à la fin, très proche d’une application premium.

21





L’application est correcte, rien de particulièrement remarquable.

18

207




Navigation très douce, quelques animations agréables

18

207




Parfois un peu saccadé et certaines sections semblent mal optimisées.

45

212

233

240


Das System erkennt Spalten mit Codes automatisch, indem es sie mit den in Ihrem Code-Frame definierten Themen abgleicht. Spalten, deren Werte mit bekannten Themen übereinstimmen, werden automatisch identifiziert.

⚠️ Limitierung : Es werden maximal 30 Beispiele gespeichert. Die Codes müssen mit denen übereinstimmen, die im ursprünglichen Code-Frame der neu importierten Dateien verwendet werden.

Überprüfung und Übersetzung

Jedes importierte Beispiel wird angezeigt mit :

  • Dem Text der Antwort (Verbatim)

  • Den Badges der zugeordneten Themen (mit Farbcodierung)

  • Einer Übersetzungsschaltfläche für die Sprachauswahl (Français, English, Deutsch)

Die Übersetzung ermöglicht es Ihnen, den Inhalt der Beispiele in Ihrer Arbeitssprache zu überprüfen, ohne die an die Klassifizierung gesendeten Originaldaten zu ändern.

6. Eine Stichprobe vorab klassifizieren (Pre-classification)

Was ist die Pre-classification?

Bevor Sie die Klassifizierung für den gesamten Datensatz starten, klassifiziert das System die ersten 30 Antworten als Test. Dies ist der wichtigste Schritt, um die Qualität Ihres Code-Frames zu validieren.

Die Pre-classification verwendet exakt denselben Algorithmus wie die vollständige Klassifizierung, jedoch auf einer kleineren Stichprobe für eine schnelle Überprüfung.

Was Ihnen die Pre-classification zeigt

Für jede Antwort sehen Sie :

  • Den vollständigen Verbatim-Text (mit Hervorhebung der Schlüsselwörter, die den Themen entsprechen)

  • Die zugeordneten L1-Badges (mit Farbcodierung)

  • Die zugeordneten L2-Badges (falls Tiefe = 2), gruppiert unter ihren L1-Parents

  • Eine Zusammenfassung : Anzahl der klassifizierten Antworten im Verhältnis zur Gesamtzahl

Ergebnisse korrigieren

Die Pre-classification ist interaktiv – Sie können jede Zeile manuell korrigieren :

Aktion

Geste

Wirkung

Thema entfernen

Klicken Sie auf das Badge-Symbol ×

Das Thema wird von dieser Antwort entfernt

L1-Thema hinzufügen

Klicken Sie auf + neben den L1-Badges

Dropdown-Menü mit allen verfügbaren L1-Themen

L2-Thema hinzufügen

Klicken Sie auf + neben den L2-Badges

Gefiltertes Dropdown-Menü: Nur Unterthemen der bereits zugeordneten L1-Themen werden angezeigt

Thema suchen

Geben Sie den Suchbegriff im Menü-Suchfeld ein

Echtzeit-Filterung der verfügbaren Themen

💡 Validierungsbereich : Alle Zeilen zwischen Ihrer ersten und Ihrer letzten Korrektur gelten als validiert. Sie werden blau hervorgehoben und dienen automatisch als Gold Standard/Beispiele für die vollständige Klassifizierung.

7. Vollständige Klassifizierung starten

Wann sollte die Klassifizierung gestartet werden?

Starten Sie die vollständige Klassifizierung, wenn :

  • Die Themen der Pre-classification Ihren Erwartungen entsprechen

  • Etwaige Korrekturen an den ersten 30 Zeilen vorgenommen wurden

  • Die Trainingsdaten importiert wurden.

  • Die Regeln (Max Codes) korrekt konfiguriert sind

Was im Hintergrund passiert

  1. Die Antworten werden in Batches aufgeteilt

  2. Jeder Batch wird an die KI gesendet mit:

    • Der Liste der verfügbaren Themen

    • Den Trainingsbeispielen (importiert + manuelle Korrekturen der Pre-classification)

    • Den Regeln für die konfigurierten Limits

  3. Im 2-Ebenen-Modus :

    • Schritt 1 : L1-Klassifizierung für alle Batches

    • Schritt 2 : Für jedes zugewiesene L1-Thema erfolgt die L2-Klassifizierung pro Parent

    • Post-Processing : Anwendung des globalen L2-Limits (Max L2)

Ergebnis

Nach der Klassifizierung sehen Sie :

  • Ein Erfolgsbanner : "Classification complete : N classified responses"

  • Die ersten 30 Antworten mit den zugewiesenen Codes (bearbeitbar)

  • Die importierten Beispiele (ausklappbarer Bereich, falls ein Trainings-Dataset verwendet wurde)

  • Die Korrelationsmatrix (siehe nächster Abschnitt)

8. Ergebnisse mit der Korrelationsmatrix bewerten

Das MECE-Prinzip

Ein qualitativ hochwertiger Code-Frame muss MECE sein :

  • Mutually Exclusive : Jedes Thema deckt einen eigenständigen Aspekt ab. Zwei Themen sollten nicht dasselbe beschreiben.

  • Collectively Exhaustive : Die Summe der Themen deckt alle Antworten ab. Kein Verbatim sollte ohne passenden Code bleiben.

Lesen der Co-Occurrence-Matrix

Die Matrix zeigt den Prozentsatz der Befragten, die gleichzeitig zwei Themen erhalten haben. Die Diagonale zeigt immer 100 % (ein Thema korreliert immer mit sich selbst).


Interface is intuitive

(122)

App is fast (6)

Navigation is confusing. (14)

App crashes or freezes (28)

Interface is intuitive

(122)

100%

33%

21%

0%

App is fast (6)

33%

100%

0%

0%

Navigation is confusing (14)

21%

0%

100%

0%

App crashes or freezes (28)

0%

0%

0%

100%

Wie die Matrix zu interpretieren ist

Signal

Wert

Bedeutung

Empfohlene Maßnahme

🔴 Hohe Korrelation

50%

Die beiden Themen überschneiden sich häufig: möglicherweise redundant

Themen zusammenführen oder Definitionen präzisieren

🟠 Mittlere Korrelation

20-50%

Die Themen sind verwandt, aber unterschiedlich: akzeptabel

Einige Antworten stichprobenartig prüfen

🟢 Geringe Korrelation

< 20%

Die Themen sind gut mutually exclusive

Keine Änderung erforderlich

⚪ Keine Korrelation

0%

Die Themen treten nie gemeinsam auf

Perfekt für gegensätzliche Themen (z. B. "Nothing" vs. andere)

⚠️ Geringe Fallzahl

(1-2)

Das Thema betrifft nur sehr wenige Befragte

Eventuell zu spezifisch; Zusammenlegung mit einem übergeordneten Thema erwägen / bei 1-Ebenen-Codierung entfernen

💡 Stark korrelierende Zellen werden farblich hervorgehoben, um Probleme schnell zu erkennen.

Beispiel für eine Analyse

In der obigen Matrix :

  • App is fast × Interface is intuitive = 33% → Diese beiden Aspekte werden manchmal zusammen genannt. Das ist normal für ein digitales Produkt: Die Themen bleiben funktional verschieden.

  • Nothing × alles andere = 0% → Perfekt: Befragte, die nichts zu sagen haben, werden keinen anderen Themen zugeordnet.

  • Interface is intuitive (122) ist das dominante Thema: 122 Befragte von 232, also mehr als die Hälfte.

Auf Ergebnisse reagieren

Wenn die Matrix Probleme aufzeigt :

  1. Klicken Sie auf "Back to codes", um zum Code-Frame-Editor zurückzukehren

  2. Fügen Sie redundante Themen zusammen oder formulieren Sie mehrdeutige Definitionen um

  3. Starten Sie die Klassifizierung neu; die Korrekturen an den ersten 30 Zeilen bleiben als Trainingsbeispiele erhalten (Schaltfläche "Re-classify with corrections")

Dieser iterative Zyklus aus Klassifizieren → Evaluieren → Anpassen → Neu-Klassifizieren ermöglicht es, schrittweise einen robusten und MECE-konformen Code-Frame zu erarbeiten.

9. Ergebnisse exportieren

Sobald die Klassifizierung validiert ist, klicken Sie auf "Download Excel", um eine strukturierte Datei zu erhalten :

Tabellenblatt

Inhalt

Beschreibung

FilesQO

Klassifizierte Daten

Jeder Befragte mit Originaltext und zugewiesenen Codes (Spalten für L1 und ggf. L2)

Topics

Code-Frame

Die vollständige Liste der Themen mit ihren IDs, hierarchisch geordnet

Top Topics

Häufigkeitsanalyse

Die am häufigsten genannten Themen mit absoluten Fallzahlen und Prozentangaben

Praktische Tipps

Wie viele Themen sollte man definieren?

Anzahl der Antworten

Empfohlene L1-Themen

Empfohlene L2-Themen

< 100

5 – 10

2 – 4 pro L1

100 – 500

10 – 20

3 – 6 pro L1

500

15 – 30

5 – 10 pro L1

Wann sollte man 1 Ebene vs. 2 Ebenen nutzen?

Kriterium

1 Ebene

2 Ebenen

Schnelles exploratives Ziel


Erste grobe Datenanalyse


Feine Granularität erforderlich


Lange und detaillierte Verbatims


Kurze Verbatims (< 20 Wörter)