Comment chaque modèle d'IA écrit : une comparaison stylométrique
Nous avons analysé 320 échantillons de Claude, GPT et Gemini pour mesurer 6 dimensions du style d'écriture. Voici ce que les données révèlent sur la personnalité de chaque modèle.
By Emmanuel
Vous avez probablement remarqué que ChatGPT, Claude et Gemini n'écrivent pas de la même façon. L'un rédige des emails soignés et mesurés. Un autre penche vers l'enthousiasme. Un troisième sonne comme un manuel universitaire.
Ce ne sont pas des impressions aléatoires. Ce sont des différences mesurables — et c'est précisément pourquoi l'écriture IA sonne générique. Nous avons les données pour le prouver.
L'expérience
Nous avons généré 320 échantillons d'écriture à travers cinq grands modèles d'IA : Claude Opus 4.6, Claude Sonnet 4.5, Claude Haiku 4.5, GPT-5.2 et Gemini 3 Pro. Chaque modèle a reçu les mêmes huit types de prompts — emails formels, emails informels, rapports d'entreprise, publications sur les réseaux sociaux, introductions de blog, messages Slack, contenus de présentation et comptes rendus de réunion — dans quatre langues, avec deux variantes par combinaison.
Chaque échantillon a ensuite été analysé par stylométrie computationnelle : des formules déterministes qui mesurent la complexité des phrases, la richesse du vocabulaire, l'expressivité, la formalité, la cohérence et la concision. Les mêmes formules que nous utilisons pour les Snapshots d'ADN d'Écriture, appliquées aux productions de l'IA plutôt qu'à l'écriture humaine. (Pour approfondir le fonctionnement de l'extraction de style, consultez notre article technique.)
Pour la méthodologie complète, voir Comment nous mesurons l'« IA moyenne ».
Le résultat est un profil à six dimensions pour chaque modèle — une personnalité d'écriture mesurée en chiffres, pas en adjectifs.
Les six dimensions
Avant de comparer les modèles, un bref rappel de ce que chaque axe mesure :
- Complexité des phrases (0-100) : Densité structurelle. Les phrases longues et imbriquées avec des propositions et des nuances font monter le score.
- Richesse du vocabulaire (0-100) : Diversité lexicale via le ratio Type-Token. Plus le score est élevé, plus les mots sont variés par rapport au nombre total de mots.
- Expressivité (0-100) : Énergie émotionnelle et rhétorique — points d'exclamation, questions, marqueurs d'attitude, tirets cadratins, points de suspension.
- Formalité (0-100) : Densité de mots fonctionnels, langage de couverture, usage des points-virgules. Plus le score est élevé, plus la prose est structurée et prudente.
- Cohérence (0-100) : Uniformité de la longueur des phrases. Une cohérence élevée signifie un rythme régulier ; une cohérence faible signifie une variation dynamique.
- Concision (0-100) : Inverse de la longueur moyenne des phrases. Les phrases courtes font monter le score.
Chaque dimension est indépendante. Un modèle peut être très formel tout en étant concis. Expressif tout en étant cohérent. Les six axes combinés créent une empreinte.
Analyse modèle par modèle
Claude Opus 4.6 : l'architecte méticuleux
Opus est le modèle le plus performant de la famille Claude, et son écriture le reflète. Il produit les phrases les plus longues et les plus structurellement complexes de tous les modèles testés, se classant en tête pour la complexité des phrases. Sa formalité est élevée — Opus nuance avec soin, utilise densément les mots fonctionnels et bascule rarement dans un registre décontracté, même quand le prompt l'y invite.
Là où Opus se distingue, c'est la richesse du vocabulaire. Il déploie un éventail de mots plus large que tout autre modèle Claude, choisissant des termes précis plutôt que courants. Le compromis : son score de concision est parmi les plus bas. Opus écrit de manière expansive. Si vous avez besoin de rigueur, c'est votre modèle. Si vous avez besoin de brièveté, vous passerez du temps à éditer.
Claude Sonnet 4.5 : le professionnel équilibré
Sonnet se situe au milieu de la famille Claude par conception, et les données le confirment. Il obtient des scores modérés sur les six dimensions — ni les phrases les plus complexes, ni les plus simples. Ni le plus expressif, ni le plus retenu.
Mais « modéré » ne signifie pas « générique ». L'équilibre de Sonnet est sa force. Son score de formalité se situe proche de la moyenne globale de l'IA à 58, ce qui en fait le plus polyvalent pour la communication professionnelle. Il s'adapte bien à différents types de prompts, ajustant son registre avec plus de réactivité qu'Opus. Pour l'écriture professionnelle quotidienne — les emails, les mises à jour et les messages dont la plupart des professionnels ont besoin — Sonnet est ce qui se rapproche le plus d'un choix par défaut universel.
Claude Haiku 4.5 : le communicateur efficace
Haiku est conçu pour la vitesse, et il écrit en conséquence. Ses phrases sont les plus courtes de la famille Claude, poussant son score de concision bien au-dessus de la moyenne de 42. La richesse du vocabulaire diminue en proportion — Haiku réutilise des mots familiers plutôt que de rechercher la précision.
La surprise dans les données est l'expressivité de Haiku. Malgré des phrases plus courtes, Haiku maintient de forts marqueurs expressifs — questions, points d'exclamation, mots d'attitude. Il se lit comme percutant plutôt que laconique. Voyez Haiku comme le modèle des messages Slack : direct, énergique, compact.
GPT-5.2 : le communicateur enthousiaste
GPT-5.2 se démarque immédiatement sur un axe : l'expressivité. Il se classe en tête, déployant questions rhétoriques, points d'exclamation et marqueurs d'attitude plus généreusement que tout autre modèle. Si vous avez déjà remarqué que les productions de ChatGPT semblent plus « chaleureuses » ou plus conversationnelles, les données confirment votre intuition.
La complexité des phrases de GPT-5.2 est modérée — il construit des structures lisibles sans être simplistes. Sa formalité se situe légèrement en dessous de la moyenne, lui donnant un côté conversationnel. La richesse du vocabulaire est solide mais pas exceptionnelle — GPT-5.2 privilégie un langage accessible plutôt qu'une terminologie précise.
Le trait distinctif de GPT est son score de cohérence. GPT-5.2 varie la longueur de ses phrases plus que les modèles Claude, créant un rythme plus dynamique mais moins prévisible. C'est un choix stylistique ancré dans l'entraînement du modèle, et il est mesurable.
Gemini 3 Pro : le pragmatique structuré
Gemini 3 Pro écrit différemment de la famille Claude et de GPT-5.2. Sa complexité de phrases est élevée — proche de Claude Opus — mais son expressivité est sensiblement plus basse. Gemini produit une prose dense et structurée, sans les fioritures rhétoriques qui caractérisent les productions de GPT.
La formalité est le domaine où Gemini se distingue. Il obtient l'un des scores de formalité les plus élevés de tous les modèles, porté par un usage important des mots fonctionnels et des précautions stylistiques. Les productions de Gemini se lisent comme un rapport bien rédigé. Professionnel, rigoureux, prudent.
La concision est faible. Gemini partage la tendance d'Opus vers des phrases expansives, bien que le contenu de ces phrases soit plus structuré et moins exploratoire. Là où Opus divague intellectuellement, Gemini construit systématiquement.
Ce que les moyennes nous apprennent
Quand vous faites la moyenne des cinq modèles, vous obtenez la référence « IA moyenne » que nous utilisons dans les Snapshots d'ADN d'Écriture :
| Axe | IA moyenne (anglais) |
|---|---|
| Complexité des phrases | 65 |
| Richesse du vocabulaire | 48 |
| Expressivité | 76 |
| Formalité | 58 |
| Cohérence | 53 |
| Concision | 42 |
Sample Writing DNA Radar Chart
How one writer's style compares to Average AI on all six axes
Trois éléments ressortent de cet agrégat :
L'expressivité est disproportionnellement élevée. À 76, c'est l'axe le plus haut. Chaque modèle produit par défaut une prose énergique et persuasive — questions, exclamations, marqueurs emphatiques. C'est probablement une conséquence directe de l'entraînement RLHF, où les évaluateurs humains préfèrent un texte qui semble engagé et dynamique.
La concision est disproportionnellement basse. À 42, c'est l'axe le plus bas. Les modèles d'IA écrivent universellement long. La longueur moyenne des phrases de tous les modèles dépasse ce que la plupart des professionnels produisent dans des emails et messages Slack. Si vous êtes un rédacteur concis, les productions de chaque modèle vous sembleront verbeuses par rapport à votre style naturel.
La cohérence se concentre au milieu. À 53, tous les modèles produisent une variation modérée de la longueur des phrases — ni monotone, ni chaotique. Cette cohérence intermédiaire est un autre signe de l'optimisation RLHF : les évaluateurs pénalisent probablement les deux extrêmes.
L'enseignement clé : chaque modèle a une personnalité
La découverte la plus importante n'est pas que les modèles diffèrent — c'est que les différences de chaque modèle sont constantes et prévisibles. Claude Opus produit systématiquement des phrases plus longues et plus complexes. GPT-5.2 écrit systématiquement de manière plus expressive. Gemini écrit systématiquement de manière plus formelle.
Ce ne sont pas des fluctuations aléatoires. Ce sont des signatures stylistiques stables, ancrées dans l'entraînement de chaque modèle. Et elles comptent pour une raison pratique : quel que soit le modèle que vous utilisez, sa personnalité d'écriture par défaut n'est pas votre personnalité d'écriture.
AI Model Writing Style Comparison
Comparing Claude Opus 4.6 vs GPT-5.2 in English
Claude Opus pourrait correspondre à votre complexité mais manquer votre concision. GPT-5.2 pourrait correspondre à votre expressivité mais dépasser vos préférences de formalité. Gemini pourrait correspondre à votre structure mais éliminer votre ton conversationnel.
La solution n'est pas de choisir le « meilleur » modèle. C'est d'apprendre au modèle que vous préférez à écrire comme vous. C'est ce que mesure un Snapshot d'ADN d'Écriture — les écarts spécifiques entre votre style et les paramètres par défaut du modèle, sur les six dimensions.
Convergence et divergence entre modèles
Le schéma le plus intéressant dans les données est peut-être celui des points de convergence et de divergence entre les modèles.
Les modèles convergent sur : la richesse du vocabulaire (regroupée autour de 44-49), la cohérence (regroupée autour de 52-55) et la formalité (regroupée autour de 42-59). Ces axes montrent le moins de variation entre les modèles — ce qui suggère que l'entraînement RLHF pousse tous les modèles vers des niveaux de référence similaires sur ces dimensions.
Les modèles divergent sur : l'expressivité (l'écart le plus large), la concision (des différences significatives entre la famille Claude et les autres) et la complexité des phrases (Opus et Gemini contre le reste). Ces divergences deviennent encore plus prononcées selon les langues.
Les zones de convergence sont celles où le problème de l'utilisateur médian est le plus fort. Quand les cinq modèles produisent des scores de richesse du vocabulaire similaires, changer de modèle ne résoudra pas votre problème de vocabulaire. Seul un profil de style le pourra.
Les zones de divergence sont celles où le choix du modèle compte le plus. Si vous êtes un rédacteur peu expressif — quelqu'un qui laisse les idées parler d'elles-mêmes sans fioritures rhétoriques — choisir un modèle avec une expressivité par défaut plus basse vous donne un écart plus petit à combler. Mais vous aurez toujours besoin d'un calibrage sur les cinq autres axes.
Ce que cela signifie pour votre écriture avec l'IA
Trois enseignements pratiques tirés des données :
-
Aucun modèle ne correspond à un humain en particulier. La probabilité que votre personnalité d'écriture s'aligne avec les paramètres par défaut d'un modèle sur les six dimensions est effectivement nulle. La comparaison des modèles est intéressante mais insuffisante — vous avez besoin d'un calibrage dimension par dimension.
-
Le choix du modèle est un point de départ, pas une solution. Choisir un modèle dont les paramètres par défaut sont plus proches de votre style réduit le travail qu'un profil de style doit accomplir. Mais il ne l'élimine pas. Notre comparaison directe des modèles explore ce compromis en détail. Et ces dynamiques changent selon les langues — le meilleur modèle en anglais n'est pas forcément le meilleur en français ou en japonais.
-
Les données rendent la personnalisation précise. Au lieu d'instructions vagues comme « écris de manière plus concise », un profil de style basé sur ces données peut spécifier : « cible une concision de 68 par rapport au défaut du modèle de 42 ». C'est un delta de 26 points sur lequel l'IA peut agir. Nous avons construit des profils d'écriture pour chaque modèle pour montrer exactement comment cela fonctionne.
Comparez votre écriture à celle de l'IA
Curieux de savoir comment votre écriture se compare à ces cinq modèles ? Essayez votre Snapshot d'ADN d'Écriture gratuit — soumettez quelques échantillons d'écriture et voyez exactement où vous divergez de l'IA moyenne sur les six dimensions. Aucune carte bancaire requise.
Votre écriture a une empreinte. Nous la mesurons. My Writing Twin transforme cette mesure en instructions qui font écrire n'importe quelle IA comme vous.