Volver al blog

Cómo escribe cada modelo de IA: una comparación estilométrica

Analizamos 320 muestras de Claude, GPT y Gemini para medir 6 dimensiones del estilo de escritura. Esto es lo que los datos revelan sobre la personalidad de cada modelo de IA.

By Emmanuel

ResearchAI Writing
Compartir:

Probablemente ha notado que ChatGPT, Claude y Gemini no escriben de la misma manera. Uno redacta correos que se sienten pulidos y mesurados. Otro se inclina hacia el entusiasmo. Un tercero suena como si estuviera escribiendo un libro de texto.

Estas no son impresiones aleatorias. Son diferencias medibles — y son la razón por la que la escritura de IA suena genérica en primer lugar. Tenemos los datos para demostrarlo.


El experimento

Generamos 320 muestras de escritura en cinco modelos principales de IA: Claude Opus 4.6, Claude Sonnet 4.5, Claude Haiku 4.5, GPT-5.2 y Gemini 3 Pro. Cada modelo recibió los mismos ocho tipos de prompt — correos formales, correos informales, informes de negocio, publicaciones en redes sociales, introducciones de blog, mensajes de Slack, contenido de presentaciones y seguimientos de reuniones — en cuatro idiomas, con dos variantes por combinación.

Cada muestra fue analizada mediante estilometría computacional: fórmulas determinísticas que miden la complejidad de las oraciones, la riqueza del vocabulario, la expresividad, la formalidad, la consistencia y la concisión. Las mismas fórmulas que usamos para los Writing DNA Snapshots, aplicadas al resultado de IA en lugar de a la escritura humana. (Para una mirada más profunda sobre cómo funciona la extracción de estilo, consulte nuestro explicador técnico.)

Para la metodología completa, consulte Cómo medimos la "IA promedio".

El resultado es un perfil de seis dimensiones para cada modelo — una personalidad de escritura medida en números, no en adjetivos.


Las seis dimensiones

Antes de comparar modelos, un breve repaso de lo que captura cada eje:

  • Complejidad de las oraciones (0-100): Densidad estructural. Las oraciones largas y anidadas con cláusulas y calificadores elevan la puntuación.
  • Riqueza del vocabulario (0-100): Diversidad léxica mediante la relación tipo-token. Un valor más alto significa más palabras únicas en relación con el total de palabras.
  • Expresividad (0-100): Energía emocional y retórica — signos de exclamación, preguntas, marcadores de actitud, rayas, puntos suspensivos.
  • Formalidad (0-100): Densidad de palabras funcionales, lenguaje de cobertura, uso de punto y coma. Un valor más alto significa prosa más estructurada y cautelosa.
  • Consistencia (0-100): Uniformidad en la longitud de las oraciones. Alta consistencia significa cadencia estable; baja significa variación dinámica.
  • Concisión (0-100): Inversa de la longitud media de las oraciones. Las oraciones más cortas elevan la puntuación.

Cada dimensión es independiente. Un modelo puede ser muy formal y a la vez conciso. Expresivo y a la vez consistente. Los seis ejes juntos crean una huella digital.


Análisis modelo por modelo

Claude Opus 4.6: El arquitecto meticuloso

Opus es el modelo más capaz de la familia Claude, y su escritura lo refleja. Produce las oraciones más largas y estructuralmente complejas de todos los modelos que probamos, obteniendo las puntuaciones más altas en complejidad de oraciones. Su formalidad es alta — Opus se cubre con cuidado, usa palabras funcionales densamente y rara vez cae en un registro informal incluso cuando el prompt lo invita.

Donde Opus se distingue es en la riqueza del vocabulario. Despliega una gama más amplia de palabras que cualquier otro modelo Claude, eligiendo términos precisos en lugar de comunes. La contrapartida: su puntuación de concisión está entre las más bajas. Opus escribe de manera expansiva. Si necesita exhaustividad, este es su modelo. Si necesita brevedad, tendrá que editar.

Claude Sonnet 4.5: El profesional equilibrado

Sonnet se sitúa en el medio de la familia Claude por diseño, y los datos lo confirman. Obtiene puntuaciones moderadas en las seis dimensiones — ni las oraciones más complejas, ni las más simples. Ni el más expresivo, ni el más contenido.

Pero "moderado" no significa "genérico". El equilibrio de Sonnet es su fortaleza. Su puntuación de formalidad se sitúa cerca del promedio general de IA de 58, lo que lo convierte en el más versátil para la comunicación profesional. Se adapta bien a los distintos tipos de prompt, cambiando de registro con más fluidez que Opus. Para la escritura empresarial cotidiana — los correos, actualizaciones y mensajes que la mayoría de los profesionales necesitan — Sonnet es lo más cercano a un valor predeterminado universal.

Claude Haiku 4.5: El comunicador eficiente

Haiku está diseñado para la velocidad, y escribe como tal. Sus oraciones son las más cortas de la familia Claude, elevando su puntuación de concisión muy por encima del promedio de 42. La riqueza del vocabulario disminuye proporcionalmente — Haiku reutiliza palabras familiares en lugar de buscar precisión.

La sorpresa en los datos es la expresividad de Haiku. A pesar de las oraciones más cortas, Haiku mantiene fuertes marcadores expresivos — preguntas, signos de exclamación, palabras de actitud. Se lee como enérgico más que telegráfico. Piense en Haiku como el modelo para mensajes de Slack: directo, enérgico, compacto.

GPT-5.2: El comunicador entusiasta

GPT-5.2 destaca inmediatamente en un eje: la expresividad. Obtiene la puntuación más alta del rango, desplegando preguntas retóricas, signos de exclamación y marcadores de actitud con más libertad que cualquier otro modelo. Si alguna vez ha notado que los resultados de ChatGPT se sienten "más cálidos" o más conversacionales, los datos confirman su intuición.

La complejidad de las oraciones de GPT-5.2 es moderada — construye estructuras que son legibles sin ser simples. Su formalidad se sitúa ligeramente por debajo del promedio, dándole una ventaja conversacional. La riqueza del vocabulario es sólida pero no excepcional — GPT-5.2 favorece el lenguaje accesible sobre la terminología precisa.

El rasgo distintivo de GPT es su puntuación de consistencia. GPT-5.2 varía la longitud de sus oraciones más que los modelos Claude, creando un ritmo que se siente más dinámico pero menos predecible. Esta es una elección estilística incorporada en el entrenamiento del modelo, y es medible.

Gemini 3 Pro: El pragmático estructurado

Gemini 3 Pro escribe de manera diferente tanto a la familia Claude como a GPT-5.2. Su complejidad de oraciones es alta — cercana a Claude Opus — pero su expresividad es notablemente menor. Gemini escribe prosa densa y estructurada sin los adornos retóricos que caracterizan el resultado de GPT.

La formalidad es donde Gemini se distingue. Obtiene una de las puntuaciones más altas entre todos los modelos en medidas de formalidad, impulsado por un uso intensivo de palabras funcionales y una cobertura cuidadosa. El resultado de Gemini se lee como un informe bien editado. Profesional, exhaustivo, cauteloso.

La concisión es baja. Gemini comparte la tendencia de Opus hacia oraciones expansivas, aunque el contenido dentro de esas oraciones es más estructurado y menos exploratorio. Donde Opus divaga intelectualmente, Gemini construye sistemáticamente.


Lo que nos dicen los promedios

Cuando se promedian los cinco modelos, se obtiene la línea base de "IA promedio" que usamos en los Writing DNA Snapshots:

EjeIA promedio (inglés)
Complejidad de las oraciones65
Riqueza del vocabulario48
Expresividad76
Formalidad58
Consistencia53
Concisión42

Sample Writing DNA Radar Chart

How one writer's style compares to Average AI on all six axes

Tres cosas destacan en este agregado:

La expresividad es desproporcionadamente alta. Con 76, es el eje con la puntuación más alta. Cada modelo tiende por defecto a una prosa enérgica y persuasiva — preguntas, exclamaciones, marcadores enfáticos. Esto es probablemente una consecuencia directa del entrenamiento RLHF, donde los evaluadores humanos prefieren texto que se siente comprometido y dinámico.

La concisión es desproporcionadamente baja. Con 42, es la más baja. Los modelos de IA escriben universalmente de forma extensa. La longitud promedio de las oraciones en todos los modelos excede lo que la mayoría de los profesionales humanos producen en correos y mensajes de Slack. Si es un escritor conciso, el resultado de cualquier modelo se sentirá inflado en comparación con su estilo natural.

La consistencia se agrupa en el medio. Con 53, todos los modelos producen una variación moderada en la longitud de las oraciones — ni monótonos ni caóticos. Esta consistencia intermedia es otra señal de la optimización RLHF: los evaluadores probablemente penalizaron ambos extremos.


La idea clave: cada modelo tiene una personalidad

El hallazgo más importante no es que los modelos difieran — es que las diferencias de cada modelo son consistentes y predecibles. Claude Opus escribe de manera confiable oraciones más largas y complejas. GPT-5.2 escribe de manera confiable con más expresividad. Gemini escribe de manera confiable con más formalidad.

Estas no son fluctuaciones aleatorias. Son firmas estilísticas estables, integradas en el entrenamiento de cada modelo. Y son importantes por una razón práctica: cualquiera que sea el modelo que use, su personalidad de escritura predeterminada no es su personalidad de escritura.

AI Model Writing Style Comparison

Comparing Claude Opus 4.6 vs GPT-5.2 in English

Claude Opus podría coincidir con su complejidad pero fallar en su concisión. GPT-5.2 podría coincidir con su expresividad pero exceder sus preferencias de formalidad. Gemini podría coincidir con su estructura pero eliminar su tono conversacional.

La solución no es elegir el "mejor" modelo. Es enseñar al modelo que prefiera a escribir como usted. Eso es lo que mide un Writing DNA Snapshot — las brechas específicas entre su estilo y los valores predeterminados del modelo, en las seis dimensiones.


Convergencia y divergencia entre modelos

Quizás el patrón más interesante en los datos es dónde los modelos coinciden y dónde divergen.

Los modelos convergen en: riqueza del vocabulario (agrupándose alrededor de 44-49), consistencia (agrupándose alrededor de 52-55) y formalidad (agrupándose alrededor de 42-59). Estos ejes muestran la menor variación entre modelos — sugiriendo que el entrenamiento RLHF empuja a todos los modelos hacia líneas base similares en estas dimensiones.

Los modelos divergen en: expresividad (la dispersión más amplia), concisión (diferencias significativas entre la familia Claude y los demás) y complejidad de las oraciones (Opus y Gemini versus el resto). Estas divergencias se vuelven aún más pronunciadas entre idiomas.

Las zonas de convergencia son donde el Problema del usuario mediano es más fuerte. Cuando los cinco modelos producen puntuaciones similares de riqueza de vocabulario, significa que cambiar de modelo no resolverá su problema de vocabulario. Solo un perfil de estilo lo hará.

Las zonas de divergencia son donde la elección del modelo importa más. Si es un escritor de baja expresividad — alguien que deja que las ideas hablen sin adornos retóricos — elegir un modelo con menor expresividad predeterminada le da una brecha menor que cerrar. Pero aún necesitará calibración en los otros cinco ejes.


Qué significa esto para su escritura con IA

Tres conclusiones prácticas de los datos:

  1. Ningún modelo coincide con ningún humano individual. Las probabilidades de que su personalidad de escritura se alinee con los valores predeterminados de cualquier modelo en las seis dimensiones son efectivamente cero. La comparación de modelos es interesante pero insuficiente — necesita calibración por dimensión.

  2. La elección del modelo es un punto de partida, no una solución. Elegir un modelo cuyos valores predeterminados estén más cerca de su estilo reduce el trabajo que un perfil de estilo tiene que hacer. Pero no lo elimina. Nuestra comparación directa entre modelos explora este compromiso en detalle. Y estas dinámicas cambian entre idiomas — el mejor modelo en inglés puede no ser el mejor en francés o japonés.

  3. Los datos hacen que la personalización sea precisa. En lugar de instrucciones vagas como "escribe de forma más concisa", un perfil de estilo basado en estos datos puede especificar: "objetivo de concisión de 68 versus el predeterminado del modelo de 42". Esa es una diferencia de 26 puntos sobre la que la IA puede actuar. Hemos creado perfiles de escritura para cada modelo para mostrar exactamente cómo funciona esto.


Vea cómo se compara su escritura con la IA

¿Tiene curiosidad por saber cómo se compara su escritura con estos cinco modelos? Pruebe su Writing DNA Snapshot gratuito — envíe algunas muestras de escritura y vea exactamente dónde diverge de la IA promedio en las seis dimensiones. No se necesita tarjeta de crédito.

Su escritura tiene una huella digital. Nosotros la medimos. My Writing Twin convierte esa medición en instrucciones que hacen que cualquier IA escriba como usted.

Obtenga su Writing DNA Snapshot gratuito

Compartir:

Comentarios

Cargando comentarios...

Deja un comentario

Tu correo electrónico no se mostrará públicamente.