¿Qué tan buena es esa IA? - Shenzhen inyección parte Inc.

2 minutos de lectura

De un vistazo:

Las herramientas de inteligencia artificial que crean de manera rápida y precisa informes narrativos detallados de la tomografía computarizada o la radiografía de un paciente pueden aliviar en gran medida la carga de trabajo de los radiólogos ocupados.

En lugar de simplemente identificar la presencia o ausencia de anomalías en una imagen, estos informes de IA transmiten información de diagnóstico compleja, descripciones detalladas, hallazgos matizados y grados apropiados de incertidumbre. En resumen, reflejan cómo los radiólogos humanos describen lo que ven en una exploración.

Obtenga más noticias sobre HMS aquí

Varios modelos de IA capaces de generar informes narrativos detallados han comenzado a aparecer en escena. Con ellos han surgido sistemas de puntuación automatizados que evalúan periódicamente estas herramientas para ayudar a informar su desarrollo y aumentar su desempeño.

Entonces, ¿qué tan bien miden los sistemas actuales el rendimiento radiológico de un modelo de IA?

La respuesta es buena, pero no excelente, según un nuevo estudio realizado por investigadores de la Facultad de Medicina de Harvard publicado el 3 de agosto en la revista Patterns.

Garantizar que los sistemas de puntuación sean confiables es fundamental para que las herramientas de IA sigan mejorando y para que los médicos confíen en ellas, dijeron los investigadores, pero las métricas probadas en el estudio no lograron identificar de manera confiable errores clínicos en los informes de IA, algunos de ellos significativos. El hallazgo, dijeron los investigadores, resalta una necesidad urgente de mejora y la importancia de diseñar sistemas de puntuación de alta fidelidad que monitoreen fiel y precisamente el rendimiento de la herramienta.

La salud del corazón. Nutrición. Salud cerebral. Y más.

El equipo probó varias métricas de puntuación en informes narrativos generados por IA. Los investigadores también pidieron a seis radiólogos humanos que leyeran los informes generados por la IA.

El análisis mostró que, en comparación con los radiólogos humanos, los sistemas de puntuación automatizados obtuvieron peores resultados en su capacidad para evaluar los informes generados por la IA. Interpretaron mal y, en algunos casos, pasaron por alto los errores clínicos cometidos por la herramienta de IA.

"Evaluar con precisión los sistemas de IA es el primer paso fundamental hacia la generación de informes radiológicos que sean clínicamente útiles y confiables", dijo el autor principal del estudio, Pranav Rajpurkar, profesor asistente de informática biomédica en el Instituto Blavatnik del HMS.

En un esfuerzo por diseñar mejores métricas de puntuación, el equipo diseñó un nuevo método (RadGraph F1) para evaluar el rendimiento de las herramientas de inteligencia artificial que generan automáticamente informes radiológicos a partir de imágenes médicas.

También diseñaron una herramienta de evaluación compuesta (RadCliQ) que combina múltiples métricas en una sola puntuación que se adapta mejor a cómo un radiólogo humano evaluaría el rendimiento de un modelo de IA.

Al utilizar estas nuevas herramientas de puntuación para evaluar varios modelos de IA de última generación, los investigadores encontraron una brecha notable entre la puntuación real de los modelos y la puntuación máxima posible.

"Medir el progreso es imperativo para hacer avanzar la IA en la medicina al siguiente nivel", dijo el coprimer autor Feiyang 'Kathy' Yu, investigador asociado en el laboratorio de Rajpurkar. "Nuestro análisis cuantitativo nos acerca a la IA que ayuda a los radiólogos a brindar una mejor atención al paciente".

A largo plazo, la visión de los investigadores es construir modelos médicos generalistas de IA que realicen una variedad de tareas complejas, incluida la capacidad de resolver problemas nunca antes encontrados. Rajpurkar dijo que dichos sistemas podrían conversar con fluidez con radiólogos y médicos sobre imágenes médicas para ayudar en el diagnóstico y las decisiones de tratamiento.

El equipo también tiene como objetivo desarrollar asistentes de inteligencia artificial que puedan explicar y contextualizar los hallazgos de las imágenes directamente a los pacientes utilizando un lenguaje sencillo y cotidiano.

"Al alinearnos mejor con los radiólogos, nuestras nuevas métricas acelerarán el desarrollo de una IA que se integre perfectamente en el flujo de trabajo clínico para mejorar la atención al paciente", afirmó Rajpurkar.

Autoría, financiación, divulgaciones.

Los coautores incluyen a Mark Endo, Ryan Krishnan, Ian Pan, Andy Tsai, Eduardo Pontes Reis, Eduardo Kaiser, Ururahy Nunes Fonseca, Henrique Min, Ho Lee, Zahra Shakeri, Hossein Abad, Andrew Ng, Curtis P. Langlotz y Vasantha Kumar. Venugopal.

El apoyo para este trabajo fue proporcionado en parte por el Centro de recursos de datos de imágenes médicas en virtud de los contratos 75N92020C00008 y 75N92020C00021 del Instituto Nacional de Imágenes Biomédicas y Bioingeniería de los Institutos Nacionales de Salud.

Pan es consultor de MD.ai y Diagnosticos da America. Langlotz forma parte de la junta directiva y es accionista de Bunkerhill Health. Es asesor y titular de opciones para GalileoCDS, Sirona Medical, Adra y Kheiron. Es asesor de Sixth Street y titular de opciones en Whiterabbit.ai. Su programa de investigación ha recibido subvenciones o donaciones de Carestream, Clairity, GE HealthCare, Google Cloud, IBM, IDEXX, Hospital Israelita Albert Einstein, Kheiron, Lambda, Lunit, Microsoft, Nightingale Open Science, Nines, Philips, Subtle Medical, VinBrain, Whiterabbit.ai, el Fondo Paustenbach, la Fundación Lowenstein y la Fundación Gordon y Betty Moore.

De un vistazo:Un nuevo estudio identifica brechas preocupantes entre cómo los radiólogos humanos califican la precisión de los informes radiológicos generados por IA y cómo los sistemas automatizados los califican.Los investigadores diseñaron dos sistemas de puntuación novedosos que superan a los sistemas automatizados actuales que evalúan la precisión de los informes narrativos de la IA.Los sistemas de puntuación confiables que miden con precisión el desempeño de los modelos de IA son fundamentales para garantizar que la IA continúe mejorando y que los médicos puedan confiar en ellos.Obtenga más noticias sobre HMS aquíMejorando la puntuaciónAutoría, financiación, divulgaciones.