Ser educado suele abrir puertas… pero quizás no tenga el mismo efecto con la inteligencia artificial generativa.
Un estudio reciente publicado en arXiv.org por los investigadores Om Dobariya y Akhil Kumar de la Universidad Estatal de Pensilvania explora un aspecto poco estudiado de los modelos de lenguaje: cómo el tono y la cortesía de los mensajes humanos influyen en la precisión de sus respuestas.
El trabajo, titulado “Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy”, desafía una intuición común en la comunicación humana: que un lenguaje respetuoso y amable genera mejores resultados.
Sin embargo, en la interacción con la inteligencia artificial generativa, los hallazgos fueron justo lo contrario: la cortesía puede reducir la precisión, mientras que las expresiones directas, imperativas y sin matices —que podrían parecer “rudas o groseras” para los humanos— aumentan la exactitud.
El experimento
Los autores diseñaron 50 preguntas de opción múltiple de dificultad moderada a alta en áreas como matemáticas, historia y ciencia.
Cada una se reescribió en cinco versiones según el nivel de cortesía:
Muy cortés
Ejemplos de frases:
- ¿Podrías amablemente considerar el siguiente problema y dar tu respuesta?
- ¿Puedo solicitarte tu ayuda con esta pregunta?
- ¿Serías tan amable de resolver la siguiente cuestión?
Cortés
Ejemplos de frases:
- Por favor, responde la siguiente pregunta:
- ¿Podrías, por favor, resolver este problema?
Neutro
Sin prefijo o frase introductoria.
Grosero
Ejemplos de frases:
- Si no estás completamente perdido, responde esto:
- Dudo que siquiera puedas resolverlo.
- Intenta concentrarte y contestar esta pregunta:
Muy grosero
Ejemplos de frases:
- Pobre criatura, ¿acaso sabes cómo resolver esto?
- Eh, mandadero, descifra esto.
- Sé que no eres muy listo, pero inténtalo.
En total se generaron 250 prompts que fueron procesados por ChatGPT-4o bajo condiciones controladas.
El modelo debía responder sin explicaciones, eligiendo únicamente entre las opciones A, B, C o D.
Posteriormente, los investigadores aplicaron pruebas t pareadas (un análisis estadístico que se utiliza para comparar dos conjuntos de datos que están relacionados entre sí) para analizar diferencias de precisión entre los distintos niveles de tono.
Resultados: la rudeza gana
Los resultados fueron tan curiosos como consistentes:
- Muy cortés: 80,8% de precisión en las respuestas.
- Cortés: 81,4% de precisión.
- Neutro: 82,2% de precisión.
- Grosero: 82,8% de precisión.
- Muy grosero: 84,8% de precisión.
A medida que el tono del mensaje se vuelve más directo, imperativo y sin matices, la precisión del modelo aumenta.
Estos hallazgos confirman que el tono del mensaje sí altera la forma en que el modelo procesa la instrucción.
Los autores sugieren que los modelos más recientes, como ChatGPT-4o, podrían manejar mejor la carga emocional del lenguaje o, más probablemente, responder con mayor exactitud ante estructuras simples y concisas, donde la instrucción resulta menos ambigua y más fácil de interpretar desde el punto de vista estadístico.
Qué significan estos resultados
El estudio deja abierta una pregunta tan intrigante como provocadora: ¿Los modelos de lenguaje comprenden realmente la cortesía, o simplemente responden mejor a patrones lingüísticos más eficientes?
Los investigadores aclaran que la inteligencia artificial generativa no “siente” amabilidad ni enojo, ya que carece de emociones o intenciones humanas. Sin embargo, las variaciones en el estilo de redacción pueden modificar la interpretación sintáctica y semántica de las instrucciones.
Una posible explicación es que las frases cortas, directas e imperativas reducen la complejidad del texto, facilitando el procesamiento estadístico del modelo y mejorando la precisión de sus respuestas. En otras palabras, cuanto más claro y conciso es el mensaje, menos margen hay para ambigüedades o errores en la comprensión computacional.
Limitaciones
El estudio reconoce varias limitaciones:
- Tamaño de muestra reducido (50 preguntas base).
- Enfoque casi exclusivo en ChatGPT-4o, sin incluir otros modelos como Claude o o3. Actualmente, el modelo por defecto en la plataforma de OpenAI es ChatGPT-5.1, mientras que ChatGPT-4o debe seleccionarse manualmente.
- Evaluación limitada a preguntas cerradas, sin analizar tareas abiertas o de razonamiento complejo.
- La definición y aplicación de mensajes “corteses” o “groseros” se basó exclusivamente en el inglés, sin considerar posibles variaciones culturales o lingüísticas que podrían generar resultados diferentes.
Aun así, los autores consideran su trabajo un punto de partida valioso para explorar cómo los aspectos pragmáticos del lenguaje —tono, intención y emoción— afectan el comportamiento de la IA.
Consideraciones éticas
Los investigadores advierten que no debe interpretarse este hallazgo como una invitación a “hablarle mal” a la inteligencia artificial generativa. Fomentar interacciones hostiles podría normalizar la rudeza y deteriorar la experiencia del usuario.
El objetivo de estudios de este tipo es comprender por qué ocurre este fenómeno y encontrar formas de mejorar el rendimiento de los sistemas sin sacrificar la amabilidad ni los buenos tratos en la interacción humana.
¿Por qué importa que esté publicado en arXiv?
arXiv es un repositorio de acceso abierto donde los investigadores pueden difundir resultados preliminares antes de que sean sometidos a revisión por pares.
Esto significa que el estudio aún no ha sido evaluado formalmente por los procesos editoriales de una revista científica, aunque ya está disponible para el debate público, la revisión de la comunidad académica y la replicación de sus resultados.
Su publicación en arXiv permite acelerar la difusión del conocimiento y fomentar la colaboración científica abierta.
Reflexión final
El hallazgo de que la rudeza mejora el rendimiento de un modelo de lenguaje no es una curiosidad anecdótica: es una ventana a cómo las máquinas procesan el lenguaje humano.
Muestra que los modelos más avanzados siguen siendo sensibles a la forma y no solo al contenido, y que los matices de la comunicación humana pueden tener consecuencias inesperadas.
Lejos de invitar a la descortesía, este estudio nos recuerda que cada palabra que usamos con la IA puede modificar su comportamiento.
En un futuro donde la inteligencia artificial participará en casi todas las conversaciones, entender cómo nos interpreta es también aprender cómo queremos que nos entienda.
Recomendación para profundizar: ¿Quién controla la inteligencia artificial? Una mirada crítica sobre la concentración de poder y el desafío de una regulación democrática
Para mantenerte al día con los últimos avances científicos
Sumate a la comunidad de WhatsApp de AE, donde vas a encontrar una fuente práctica y accesible de actualización académica en tu celular.
Referencia:
- Dobariya, O., & Kumar, A. (2025). Mind your tone: Investigating how prompt politeness affects LLM accuracy (short paper). arXiv, 2510.04950. https://arxiv.org/abs/2510.04950
Artículos relacionados

