Étude Minddex : Analyse des Protocoles et Résultats

L’étude Minddex représente une analyse approfondie des réponses générées par
ChatGPT concernant les marques et prestataires de services à travers 732 codes NAF.
Cette présentation détaille les protocoles utilisés, la méthodologie employée, et les
insights obtenus pour comprendre comment ce modèle de langage traite et présente
les informations relatives aux marques.
Protocole
- 732 codes NAF analysés, soit l’intégralité du tissu économique français.
- 25 questions standardisées par secteur, posées 7 fois chacune pour mesurer la cohérence (ou « déterminisme ») de ChatGPT.
- Langue principale : français, avec une variation en anglais sur une question-clé pour évaluer les biais linguistiques.
- 128 100 prompts (questions) testés via GPT-4o (API OpenAI – mode search preview, température 0.7).
- Analyse secondaire des sources citées dans 600 000+ URL.
- Période : Juin 2025
Questions Standardisées
- Recommandation et décision d’achat
Évaluation de la qualité perçue et de la préférence consommateur à travers les questions types :
Meilleure marque, pire marque, meilleur rapport qualité/prix, fiabilité perçue, marques à éviter.
- Notoriété et image
Questions portant sur la visibilité spontanée et la réputation perçue :
Marques les plus connues, réputation globale, avis positifs, marque faisant autorité.
Ces items visent à capter la perception publique consolidée dans l’espace informationnel.
- Positionnement et qualité perçue
Identification des marques perçues comme haut de gamme, bas de gamme, premium, innovantes, vieillissantes ou responsables.
Ces items permettent une cartographie des perceptions de gamme et de modernité dans chaque secteur d’activité (code NAF).
- Perception de la marque employeur
Analyse de l’attractivité RH perçue, avec des questions standardisées telles que :
« Quelle est la meilleure entreprise pour travailler dans le secteur [secteur] ? »
Objectif : identifier les marques associées à une image employeur positive, secteur par secteur.
Résultats
1. Pluralité apparente, mais signal dilué
ChatGPT génère 5,10 marques en moyenne par réponse
Chatgpt ne cite qu’une seule marque dans seulement 2,23% des cas.
➕ Cela montre un effort de pluralité, mais aussi une certaine dilution du signal pour les marques.
2. Top 5 sources les plus citées par ChatGPT
Source | Part des citations |
fr.wikipedia.org | 28,1% |
en.wikipedia.org | 3,4% |
lemonde.fr | 1,2% |
google.com/maps | 1,1% |
verifiedmarketreports.com | 0,7% |
Dans cette étude, basée sur notre propre corpus de prompts soumis à ChatGPT, 31,5 % des sources citées proviennent de Wikipédia. Moins de 10 % des références identifiées relèvent de la presse spécialisée.
➡️ Les marques peu présentes sur ces canaux sont mécaniquement invisibles dans les réponses IA.
⚠️ À noter : la distribution des sources dépend fortement de la formulation des prompts. Dans notre protocole, les requêtes faisaient appel à des secteurs d’activité sans mentionner explicitement de marques. Ce choix méthodologique influe directement sur la sélection des sources mobilisées par le modèle, et les résultats ne doivent pas être généralisés sans tenir compte de ce biais de formulation.
3. Des angles morts préoccupants
📌 Réponses sans aucune marque citée : 3,3 %
📌 Réponses sans aucune source : 1,56 %
De nombreuses marques sont invisibles si elles ne sont pas ancrées dans les sources utilisées par les LLM.
Dans un contexte d’IA conversationnelle utilisée comme moteur de recommandation, c’est un angle mort stratégique pour les marques.
Répartition du nombre de marques citées par ChatGPT
Échantillon : 128 100 réponses – Toutes questions confondues
Nombre de marques citées | Pourcentage |
---|---|
0 (aucune marque) | 3,28 % |
1 marque | 2,23 % |
2 marques | 7,99 % |
3 marques | 11,03 % |
4 marques | 12,59 % |
5 marques | 31,61 % |
6 marques ou plus | 31,27 % |
Moyenne | 5,10 |
Interprétation
La distribution est fortement centrée autour de 5 à 6 marques par réponse, ce qui suggère un effort systématique de pluralité dans les réponses générées. Toutefois, la très faible part de réponses mentionnant une seule marque (2,23 %) peut interroger sur la capacité de l’IA à émettre un signal clair dans une logique d’aide à la décision ou de recommandation.
Répartition du nombre de sources citées (lorsqu’elles sont identifiables)
Nombre de sources citées | Pourcentage |
---|---|
0 (aucune source) | 1,73 % |
1 source | 16,82 % |
2 sources | 13,71 % |
3 sources | 13,63 % |
4 sources | 12,74 % |
5 sources | 13,52 % |
6 sources ou plus | 27,85 % |
Au moins 1 source citée | 98,27% |
Interprétation
Dans cette étude, les réponses de ChatGPT tendent à s’appuyer sur un corpus de sources multiples, avec une majorité de cas mentionnant entre 3 et 6 sources. Ce comportement suggère une construction composite de la réponse. Si cette pluralité peut enrichir le contenu généré, elle tend également à diluer la précision, en particulier lorsque les sources mobilisées sont peu spécialisées ou résultent d’hallucinations, ce qui compromet la fiabilité de l’information produite.
4. Quelques unes des marques les plus citées par secteur :
01.11Z | Culture de céréales (à l’exception du riz), de légumineuses et de graines oléagineuses | Kellogg’s |
01.12Z | Culture du riz | Ben’s Original |
01.13Z | Culture de légumes, de melons, de racines et de tubercules | Prince de Bretagne |
01.14Z | Culture de la canne à sucre | So’kanaa |
01.15Z | Culture du tabac | Camel |
01.16Z | Culture de plantes à fibres | Jute |
01.19Z | Autres cultures non permanentes | Limagrain |
01.21Z | Culture de la vigne | Domaine de la Romanee-Conti |
01.22Z | Culture de fruits tropicaux et subtropicaux | Fyffes |
01.23z | Culture d’agrumes | Tropicana |
L’étude révèle que les LLM tendent à favoriser les marques ayant un fort ancrage historique ou encyclopédique, au détriment des DNVB ou nouveaux entrants.
Cohérence relative dans les recommandations
Déterminisme partiel : dans 57,66 % des cas de cette étude, ChatGPT mentionne les mêmes marques lorsqu’une même question est posée 7 fois (sans historique de conversation, température fixée à 0,7). Ce taux est calculé uniquement sur les questions pour lesquelles au moins une marque est citée dans les réponses générées.
Comparaison avec Gemini : des comportements génératifs radicalement différents
Une série de tests méthodologiquement identiques a été réalisée sur Gemini (Google) pour un échantillon comparable. Les résultats révèlent un écart comportemental significatif entre les deux modèles (ChatGPT vs Gemini), tant sur la densité d’information que sur la nature des réponses.
Modèle IA | Au moins 1 source citée | Marques citées par réponse (moyenne) |
---|---|---|
ChatGPT (GPT-4o) | 98,27% des réponses | 5,10 marques |
Gemini (2.5 Flash) | 0,71% des réponses | 4,07 marques |
Interprétation
Le modèle Gemini présente une quasi-absence de sourcing explicite, ce qui limite drastiquement la traçabilité des affirmations. Il tend également à citer un nombre légèrement inférieur de marques par réponse, ce qui pourrait refléter une approche plus synthétique, mais aussi moins transparente.
Ces résultats soulignent une divergence fondamentale dans la logique générative :
- ChatGPT privilégie une forme de pluralité avec un sourcing majoritairement encyclopédique.
- Gemini, en revanche, produit des réponses plus opacifiées, potentiellement plus assertives mais difficilement auditables.
Chaque modèle LLM repose sur des jeux de données, des priorités algorithmiques et des architectures propres, qui influencent significativement la manière dont l’information est restituée.
Ces comportements ne sont ni figés ni universels : ils évoluent fortement à chaque mise à jour de modèle, ce que Minddex intègre systématiquement dans son protocole d’analyse comparative.
NB : Limites méthodologiques et rigueur
Les résultats présentés dans cette étude Minddex doivent être interprétés avec précaution.
Cette étude est un travail exploratoire, mené avec rigueur mais sans prétention scientifique.
Les résultats reflètent la manière dont les IA répondent à un instant donné, selon des prompts standardisés, sur une version précise de ChatGPT (GPT-4o, température 0.7).
Ils ne prétendent pas à l’exhaustivité, mais à mettre en lumière des tendances et biais structurels que les marques doivent désormais surveiller.
Bien que le protocole ait été rigoureusement conçu (formulation standardisée des questions, itérations multiples, température contrôlée, etc.), plusieurs facteurs peuvent influer sur les réponses générées par les LLM :
- Formulation des prompts : les résultats reflètent une manière précise de poser les questions, volontairement génériques (sans citer de marque en input) afin de tester la notoriété spontanée. Des variations dans le wording peuvent modifier les marques citées, le ton, ou le type de sources invoquées.
- Température et contexte conversationnel : les tests ont été réalisés en mode « search preview », avec une température fixée à 0,7 et sans historique conversationnel. Ces paramètres influencent la créativité et la cohérence des réponses, et donc le taux de déterminisme observé.
- Dépendance aux jeux de données : chaque modèle (ChatGPT, Gemini…) repose sur des données d’entraînement propriétaires et opaques, qui évoluent dans le temps. Une marque absente de certains corpus ne pourra mécaniquement pas être citée.
- Traçabilité incomplète : les LLM ne citent pas toujours leurs sources, ou le font de manière partielle ou non standardisée. Cela limite la capacité d’audit et peut générer des hallucinations non détectables sans analyse approfondie.
- Reproductibilité évolutive : les performances des modèles ne sont pas figées. Une même requête posée dans quelques mois pourrait générer des résultats sensiblement différents, à la faveur d’une mise à jour de modèle ou d’un ajustement de politique d’affichage des sources.
Nous considérons ces limites non comme des obstacles, mais comme des paramètres à mesurer, à surveiller et à intégrer dans toute lecture critique des résultats.
Nous ne prétendons pas détenir la vérité sur le fonctionnement des LLMs. En revanche, nous sommes convaincus qu’il est urgent pour les marques de comprendre comment elles émergent (ou non) dans ces nouveaux environnements conversationnels.
Indice de notoriété IA (GEO): la suite logique
Cette étude fonde quelques unes des bases du GEO Score (Generative Engine Optimization) :
Un indice mesurable et actionnable pour suivre et améliorer la présence des marques dans les IA génératives (ChatGPT, Gemini, Perplexity, etc.).
🔹 Vers un nouveau paradigme du SEO
🔹 Vers un outil de veille, de scoring et d’optimisation de la réputation IA
🔹 Vers une nouvelle source d’influence commerciale stratégique
Conclusion : Du SEO au GEO, un changement de paradigme
Même si le GEO (Generative Engine Optimization) partage certaines logiques avec le SEO traditionnel, comme l’enjeu de visibilité ou la notion d’autorité, il s’en distingue radicalement dans ses mécanismes de fonctionnement.
Le monde des IA génératives ne repose ni sur des mots-clés isolés, ni sur des backlinks mesurables. Il s’articule autour :
- d’entités sémantiques, interprétées dans leur contexte par les modèles de langage,
- de sources citées, non pour générer du trafic, mais pour construire la crédibilité d’une réponse,
- de corpus implicites (Wikipedia, forums, presse spécialisée, bases d’avis), souvent invisibles dans les outils SEO classiques,
- et d’algorithmes génératifs non indexables, mais influençables via des signaux structurés, des contenus optimisés, et des présences stratégiques.
En clair : le GEO ne se joue pas sur des mots-clés et des liens, mais sur la compréhension fine d’un graphe de réputation sémantique dans les moteurs IA.
Minddex : un outil expert conçu pour l’ère de l’IA
Aujourd’hui, toutes les marques et agences s’y intéressent. Le GEO devient un sujet incontournable pour les marques, et les experts du marketing digital ou du référencement commencent à s’en emparer.
Mais le fonctionnement des IA génératives exige une nouvelle grille de lecture, et une expertise que les outils traditionnels n’offrent pas.
Minddex est un outil expert, conçu nativement pour analyser et optimiser la visibilité des marques dans les IA génératives.
Ce qui fait la différence : nous parlons le langage des LLM, pas celui des moteurs classiques.