Una reciente investigación publicada en la revista médica BMJ Open evaluó el desempeño de la inteligencia artificial frente a consultas sobre medicina y salud. Y encontró que casi la mitad de las respuestas eran inexactas o problemáticas.
En total se evaluaron cinco chatbots populares: Gemini (Google), DeepSeek (High-Flyer), Meta AI (Meta), ChatGPT (OpenAI) y Grok (xAI). A cada chatbot se le hicieron 10 preguntas de cinco categorías: cáncer, vacunas, células madre, nutrición y rendimiento deportivo.
Dos expertos de cada categoría calificaron las respuestas como «no problemáticas», «algo problemáticas» o » muy problemáticas» utilizando una matriz basada en criterios objetivos y predefinidos.
¿Qué encontraron? Que casi la mitad (49,6%) de las respuestas fueron problemáticas: 30% algo problemáticas y 19,6% altamente problemáticas.
«Los chatbots analizados tuvieron un desempeño deficiente al responder preguntas en los ámbitos de la salud y la medicina, donde la desinformación es frecuente. Su implementación continua sin educación pública ni supervisión conlleva el riesgo de amplificar la desinformación», concluyó el estudio.
Acá se puede conocer el estudio completo.

