El invierno pasado, una de las enfermeras principales de nuestra unidad psiquiátrica me dijo: “El tablero dice que tenemos un riesgo bajo. Pero durante los turnos de noche, ni siquiera me siento segura caminando al baño”.
El informe de calidad mensual sobre su escritorio decía lo mismo que decía hace casi un año: “Incidentes de violencia: No hay diferencias significativas entre los tres pabellones (p>.05)”.
Sobre el papel, su ala parecía normal. Y al lado de la cama, no había nada más que eso.
Su unidad atendía a un mayor número de pacientes con enfermedades agudas, tenía una tasa de rotación mucho mayor y usaba restricciones con mayor frecuencia. El personal no fue el problema. Los pacientes no eran el problema. Y las estadísticas lo fueron.
Error: tratar los eventos como si fueran calificaciones promedio
El tranquilizador informe se basó en un error estadístico muy común. El analista utilizó el análisis de varianza (ANOVA), un método diseñado para comparar promedios, para comparar números de incidentes violentos.
En los hospitales existen dos tipos de números completamente diferentes:
- Cargos: ¿Cuántas veces pasó algo (20 incidentes violentos, 7 caídas, 6 códigos de depresión)?
- medio: Qué tamaño promedio tiene el objeto (promedio de horas de documentación, puntajes promedio de dolor, presión arterial promedio).
Los números responden “cuánto”. La respuesta significa “cuánto”. No son intercambiables.
En nuestro hospital, los tres departamentos informaron:
- Pabellón A (psiquiatría): 20 incidentes violentos
- Ala B (Médica): 7 accidentes
- Sala C (quirúrgica): 6 casos
Para cualquier médico, la diferencia es clara. Pero ANOVA no ve “20 versus 7 versus 6” como lo vemos nosotros. Los convierte a promedios para cada paciente. Si cada sala atiende a unos 100 pacientes, el número será:
- 0,20 eventos por paciente
- 0,07 eventos por paciente
- 0,06 eventos por paciente
Una vez convertida, la gran diferencia se reduce a tres pequeños decimales. Debido a que el número de eventos es bajo y a que el ANOVA no está diseñado para eventos de sí o no, es fácil concluir que la diferencia puede ser aleatoria. Luego el informe oficial afirma: No hay ninguna diferencia significativa.
Es como usar una regla para determinar cuántos gatos tienes. La herramienta incorrecta hace que diferentes grupos parezcan iguales. La prueba de chi-cuadrado, diseñada para números categóricos, casi con certeza habría señalado al distrito A como de riesgo verdaderamente mayor.
Pero usar el método equivocado produjo el mensaje equivocado: todas las barreras son iguales.
Las consecuencias humanitarias de “no haber grandes diferencias”
Una vez distribuido el informe, las consecuencias fueron inmediatas y dolorosas.
- Se rechazaron las solicitudes de personal adicional para la Unidad Psiquiátrica. El mando creía que los riesgos del barrio no eran estadísticamente mayores.
- Las preocupaciones de las enfermeras de primera línea se reformularon como emocionales en lugar de basadas en evidencia.
- Los funcionarios confiaron en el valor de probabilidad y creyeron que eran justos.
Al mismo tiempo, se ha ampliado la brecha entre los datos y la realidad.
Las enfermeras aprendieron una lección frustrante: los números en las diapositivas no describían el mundo en el que trabajaban y algunas se marcharon. Los que se quedaron soportaron la carga de trabajo y la pesadez emocional.
Luego llegó el sistema de inteligencia artificial y fue entrenado con los mismos números incorrectos.
Tres meses después, el hospital introdujo una herramienta de inteligencia artificial para predecir la agitación y la violencia. La idea era simple: entrenar el modelo sobre incidentes pasados y luego identificar a los pacientes de alto riesgo.
Pero la IA aprendió del mismo malentendido estadístico que afirmaba que las tres divisiones tenían los mismos riesgos. Para el algoritmo, cada ala parecía igual.
El pabellón psiquiátrico pronto se llenó de alarmas. Los pacientes de riesgo intermedio se clasificaron como pacientes de alto riesgo, mientras que en ocasiones se pasó por alto a los pacientes verdaderamente inestables. “Cuando todo el mundo corre un alto riesgo, nadie corre un alto riesgo”, me dijo una enfermera junior.
La fatiga de alerta comenzó. Una herramienta diseñada para aumentar la seguridad ahora está socavando la confianza.
Cuando la inteligencia artificial anula los instintos clínicos
Durante una noche ajetreada, nuestro médico tratante de 62 años examinó una superposición de IA en un paciente recién ingresado. La pantalla mostraba una tranquila marca verde: bajo riesgo de agitación.
La enfermera a cargo no estuvo de acuerdo. Noté la velocidad del paciente, la tensión facial y el aumento de la voz. “Tengo un mal presentimiento sobre esto”, dijo.
Ante la falta de tiempo y viendo la señal confiada de la inteligencia artificial, los asistentes se pusieron del lado de la modelo. Diez minutos después, el paciente le dio un puñetazo en la cara a uno de los residentes.
Después de eso, el asistente dijo con calma: “Quizás me estoy haciendo viejo. Quizás la IA ve cosas que yo no veo”.
Pero la IA no veía más. Estaba repitiendo las estadísticas equivocadas con las que le habían entrenado. El daño no se limitó a lesiones físicas. Fue la duda implantada en un médico con décadas de experiencia.
Problema 2: detenerse en ANOVA y omitir las pruebas posteriores
Otro error provino de un tipo diferente de análisis.
Cuando un hospital comparó el tiempo promedio de documentación en tres departamentos, se utilizó correctamente el análisis de varianza (ANOVA). El valor de p fue inferior a 0,01, lo que indica una diferencia real. Pero el análisis se detuvo ahí. Nadie hizo la pregunta: ¿En qué se diferencian exactamente las secciones entre sí?
Pruebas posteriores, como la prueba de Tukey, responden a esta pregunta. Pueden detectar resultados como:
- La Sección Z documenta mucho más que las Secciones X e Y.
- Las secciones X e Y no difieren significativamente entre sí.
Sin este paso, el liderazgo respondió con una política general: “Todos deberían reducir el tiempo de documentación en 20 minutos”.
El departamento sumido en el papeleo no recibió ninguna ayuda específica. Los otros dos tuvieron que tomar atajos en el tiempo que no tenían, sólo para cumplir con un número.
Cuando resultados como estos alimentan modelos de IA que intentan identificar unidades “ineficaces”, el algoritmo aprende silenciosamente el mismo mensaje ambiguo: todos somos parte del problema.
¿Cómo afectan estas elecciones estadísticas a los médicos?
Estos errores no permanecen dentro de las hojas de cálculo. Mostrar de la siguiente manera:
- Falsa seguridad
- Falsas alarmas
- Sesgo automatizado
- Erosión del juicio clínico
- Pérdida de confianza en los datos y la inteligencia artificial
- Fatiga en el frente
Así es como las malas estadísticas perjudican a los buenos médicos.
La solución es básica y no de alta tecnología.
La protección de los médicos en la era de la inteligencia artificial comienza mucho antes de la llegada de los algoritmos. Comienza con datos.
- Utilice chi-cuadrado para calcular eventos.
- Utilice ANOVA para promedios.
- Siga ANOVA con pruebas post hoc cuando corresponda.
- Empareja valores de probabilidad con números y porcentajes simples.
- Nos damos cuenta de que “no importa” no siempre significa “no hay diferencia”.
- Enseñar a los médicos suficientes estadísticas para que se pregunten: “¿Qué estamos comparando exactamente?”
- Asegúrese de que los sistemas de IA aprendan de los datos analizados adecuadamente.
No se trata de convertir a los médicos en estadísticos. Se trata de darles números confiables.
La IA no erosiona el juicio clínico; Los malos datos hacen eso
Cuando nuestras estadísticas están equivocadas, nuestra IA estará equivocada. Cuando la IA se equivoca, los médicos dudan de sí mismos.
Amnistía Internacional no le dijo a la enfermera psiquiátrica que su sala estaba a salvo. Hice ANOVA del que abusé. La inteligencia artificial no ha debilitado el instinto de asistencia. Hice una larga serie de atajos estadísticos.
La protección del juicio clínico en la era de la inteligencia artificial no comienza con el algoritmo. Comienza con los números que ingresamos y escuchando a los médicos que sabían que algo andaba mal mucho antes de que el valor de probabilidad entrara en juego.
Gerald Kuo, estudiante de doctorado en el Instituto de Graduados en Administración de Empresas de la Universidad Católica Fu Jen en Taiwán, se especializa en gestión de atención médica, sistemas de atención a largo plazo, gobernanza de la IA en entornos de atención clínica y social, y políticas de atención a personas mayores. Está afiliado a la Home Health Care Charitable Society y mantiene su profesionalismo. Presencia en Facebookdonde comparte actualizaciones sobre investigación y trabajo comunitario. Ko ayuda a administrar una guardería para personas mayores, trabajando en estrecha colaboración con familias, enfermeras y médicos de la comunidad. Su investigación y sus esfuerzos prácticos se centran en reducir la presión administrativa sobre los médicos, mejorar la continuidad y la calidad de la atención geriátrica y desarrollar modelos de servicio sostenibles a través de datos, tecnología y colaboración interdisciplinaria. Está particularmente interesado en cómo las herramientas emergentes de IA pueden apoyar a una fuerza laboral clínica que envejece, mejorar la prestación de atención y generar una mayor confianza entre los sistemas de salud y el público.
















