Human-in-the-loop no basta: cómo diseño supervisión real para IA médica
Supervisar IA médica no es poner un médico mirando. Requiere autoridad, trazabilidad, escalamiento, monitoreo de drift y evidencia auditable.
Mario Inostroza
El falso confort del humano mirando
En IA médica se repite mucho una frase tranquilizadora: “hay un humano en el loop”.
Suena prudente. Suena responsable. Suena como el tipo de frase que deja tranquila a una mesa clínica, a un comité de ética o a un regulador.
Pero en la práctica puede significar casi cualquier cosa.
Puede significar que un médico revisa cada recomendación con tiempo, contexto y autoridad real para intervenir. O puede significar que el sistema muestra una alerta más en una pantalla saturada, y después le transfiere la responsabilidad al profesional si algo sale mal.
Ambas cosas se llaman igual: human-in-the-loop.
No deberían.
Supervisión no es presencia
La primera distinción importante es simple: presencia humana no equivale a supervisión humana.
Un profesional puede estar nominalmente presente y aun así no tener forma real de supervisar.
Si no entiende por qué el sistema recomendó algo, no supervisa.
Si no puede detener el flujo, no supervisa.
Si no queda trazabilidad de su decisión, no supervisa.
Si no existe un mecanismo de escalamiento cuando detecta un patrón raro, no supervisa.
Si nadie monitorea si el modelo empezó a degradarse con el tiempo, tampoco hay supervisión. Hay una persona cargando con responsabilidad sobre un sistema que no controla.
Eso en salud es especialmente delicado, porque el error no se queda en una métrica. Puede llegar al paciente.
Lo que aprendí construyendo agentes médicos
En Examya he ido aprendiendo esto desde abajo, no desde la teoría.
Cuando un paciente envía una orden médica por WhatsApp, el sistema no solo “lee una imagen”. Hay varias capas: OCR, normalización de exámenes, matching contra catálogo, cotización, interpretación, validación, estado conversacional y derivación cuando algo no calza.
Cada capa puede fallar de forma distinta.
Un OCR puede leer mal una sigla.
Un normalizador puede mapear un examen ambiguo al código incorrecto.
Un agente conversacional puede sonar seguro cuando debería pedir confirmación.
Un embedding puede traer un resultado parecido, pero clínicamente irrelevante.
Por eso, cuando hablamos de supervisión humana, la pregunta no puede ser solo “¿hay alguien mirando?”.
La pregunta real es: ¿en qué punto exacto del flujo puede intervenir, con qué información, con qué autoridad y dejando qué evidencia?
Las cinco capas mínimas
Hoy pienso la supervisión humana efectiva como una arquitectura de cinco capas.
1. Señales interpretables
El profesional necesita ver algo más que una respuesta final.
Necesita saber qué dato de entrada usó el sistema, qué alternativa descartó, qué nivel de confianza tiene y qué parte requiere confirmación.
No siempre hace falta explicar todo el modelo. Pero sí hay que mostrar señales útiles para decidir.
Un “la IA recomienda X” no sirve.
Un “se detectó hemograma, coincidencia alta con código FONASA Y, pero la imagen tiene baja calidad en la zona del diagnóstico” sí cambia la conversación.
2. Autoridad real de intervención
Supervisar implica poder actuar.
El humano debe poder aprobar, corregir, escalar o detener el flujo. Si solo puede mirar y luego el sistema sigue igual, no es supervisión. Es observación pasiva.
En salud digital esto debe estar diseñado en el workflow, no en una política escrita aparte.
3. Trazabilidad
Toda intervención importante debe dejar evidencia.
Quién intervino. Qué vio. Qué corrigió. Qué decidió. En qué momento. Con qué input disponible.
No por burocracia. Por aprendizaje y responsabilidad.
Si el sistema se equivoca tres veces con el mismo patrón y nadie puede reconstruirlo, la organización no aprende.
4. Escalamiento
No todos los errores son iguales.
Algunos se corrigen caso a caso. Otros revelan un problema sistémico: un prompt mal diseñado, un catálogo desactualizado, un modelo degradado, una mala integración o un flujo clínico que nunca debió automatizarse.
La supervisión real necesita umbrales de escalamiento.
Cuándo pasa de “corrijo este caso” a “detengo esta funcionalidad”.
Cuándo pasa de “lo revisa soporte” a “lo revisa clínico + compliance + ingeniería”.
5. Monitoreo longitudinal
Un modelo puede funcionar bien el lunes y degradarse en silencio durante semanas.
Cambian los datos. Cambian los usuarios. Cambian los formatos de órdenes. Cambian los laboratorios. Cambia la forma en que la gente escribe por WhatsApp.
Por eso la supervisión humana no puede ser solo en tiempo real. También tiene que mirar comportamiento agregado: falsos positivos, falsos negativos, drift, casos rechazados, casos corregidos, tiempos de respuesta y patrones de error.
El riesgo de usar IA para exprimir más al clínico
Hay otra trampa.
Si la IA solo se mide por throughput, puede terminar aumentando la presión sobre equipos ya saturados.
Más pacientes atendidos. Más mensajes procesados. Más alertas. Más validaciones. Más pantallas.
Pero no necesariamente más tiempo clínico real.
La métrica correcta no debería ser solo “cuánto más produce el sistema”.
También deberíamos medir cuánto tiempo devuelve.
Menos doble digitación. Menos búsqueda manual de información. Menos copy-paste entre sistemas. Menos tareas repetitivas. Más tiempo para explicar, escuchar y decidir con el paciente.
Si la IA no reduce carga cognitiva, puede convertirse en otra capa de trabajo disfrazada de eficiencia.
Compliance no es un documento
En salud, compliance no debería ser el PDF que aparece al final para justificar lo que ya se construyó.
Tiene que estar dentro del diseño.
Eso significa logs, permisos, auditoría, criterios de derivación, roles claros, evidencias de validación y límites explícitos del sistema.
La supervisión humana efectiva vive ahí: en la intersección entre clínica, ingeniería, privacidad, calidad y operación.
No pertenece solo al médico. Tampoco solo al equipo técnico. Es una responsabilidad organizacional.
Lo que viene
En Examya, el próximo paso es convertir estas ideas en guardrails más visibles dentro del producto.
No solo que el agente responda bien, sino que el sistema pueda mostrar cuándo está seguro, cuándo necesita confirmación y cuándo debe salir del flujo automático.
La pregunta que me interesa no es si la IA médica va a reemplazar médicos.
La pregunta es mejor:
¿Estamos diseñando sistemas donde los humanos realmente pueden supervisar, o solo sistemas que les transfieren responsabilidad?
Si la respuesta es lo segundo, el problema no es el modelo. Es la arquitectura.
📱 WhatsApp: +56962170366 🐦 X.com: @mariohealthbits 🌐 mariohealthbits.dev
Lecturas relacionadas
Por temas similares
Ley 21.719 en software clínico: consentimiento y ARCO-P real
Cómo convertí privacidad en arquitectura para Examya: consent ledger, ARCO-P, reportes y autoservicio antes de diciembre de 2026.
Por temas similares
La IA no arregla procesos rotos: los acelera
Antes de automatizar con IA, hay que mapear decisiones, datos, trazabilidad y reglas. Si automatizamos caos, solo obtenemos caos más rápido.
Por temas similares
Compliance no es feature: es evidencia
En salud digital, que una feature funcione no basta. Sin trazabilidad auditable, para el regulador simplemente no existe.