info@redbioetica.com.ar | lunes 20 de octubre de 2025
Categorías
Bioética y sociedad

Inteligencia artificial (IA) y evaluación subjetiva

Inteligencia artificial (IA) y evaluación subjetiva 

Vemos como el uso de la IA (inteligencia artificial) viene creciendo con el beneplácito de las sociedades que lo asocian al progreso científico. Este trabajo que reproducimos interesa en tanto y en cuanto vemos que la verdad científica solo depende de acuerdos a los que lleguemos para considerarla tal. Cuando esto se aplica a la medicina nos enfrenta al problema que tiene hoy la llamada medicina basada en la evidencia, en que los datos suplantan al sujeto. Si bien por ahora se busca usar la IA para diagnósticos, en poco tiempo se la usará en la terapéutica, para tratamientos, intervenciones sobre las personas que no son datos.  Esto que viene acelerándose en la medicina lo hace también, con menos prensa, en todos los aspectos de la vida humana. La  información que nos da este artículo acerca de cómo se obtiene la “verdad” para la IA deberá ponernos en guardia para lo que sucederá en el futuro si no logramos revertir la tendencia. 

“Se ha avanzado rápidamente en los modelos de inteligencia artificial (IA) para aplicaciones médicas, especialmente en los últimos 5 años, con esfuerzos sustanciales centrados en el diagnóstico a partir de imágenes médicas. Un aspecto esencial de la evaluación del rendimiento de los modelos de IA y su potencial utilidad clínica es el rigor del estándar de referencia.1 

 Una norma de referencia es «el mejor método disponible para establecer la presencia o ausencia de la condición objetivo»,2 y, por lo tanto, es equivalente a lo que comúnmente se conoce como la verdad básica en la literatura de IA. La determinación de lo que constituye un estándar de referencia se establece por «opinión y práctica dentro de la comunidad médica, de laboratorio y reguladora». 3 

 El estándar de referencia puede ser un estándar de oro ampliamente acordado 2  o, en su ausencia, un proxy que esté altamente correlacionado con el resultado clínico. Aunque también se puede utilizar un estándar que no sea de referencia, las afirmaciones de corrección como la precisión, la sensibilidad y la especificidad deben abandonarse en favor del acuerdo con un método comparativo.3 

En este comentario, nos centramos en tareas en las que la llamada verdad del suelo es subjetiva (es decir, implica la interpretación humana). Cuando la calidad de esta verdad básica excede un requisito de calidad específico de la tarea, podría considerarse un estándar de referencia. Por ejemplo, un resultado como la mortalidad implica interpretación, pero rara vez es ambiguo. Sin embargo, la clasificación de una fotografía de retina para la retinopatía diabética puede estar sujeta a una mayor variabilidad. Como ejemplo, consideraremos la clasificación de Gleason de muestras de biopsia de próstata, una tarea subjetiva que implica una variabilidad sustancial entre evaluadores e tratantes y que ha sido el foco de múltiples esfuerzos de desarrollo de IA.4 ,5, 6, 7  Aunque un estándar de referencia ideal podría basarse en un resultado como la mortalidad específica por cáncer 8  o resurgimiento del PSA, estos resultados no solo requieren años para desarrollarse, sino que también se confunden con el diagnóstico y el tratamiento originales en estudios retrospectivos. Como tal, podría decirse que la mejor verdad de terreno disponible para validar un modelo de calificación de AI Gleason es la calificación de Gleason por patólogos urológicos expertos, que también refleja el mejor estándar de atención disponible. 

La variabilidad en la verdad del terreno puede afectar sustancialmente el rendimiento medido del modelo de IA. Como ejemplo ilustrativo, presentamos un problema de clasificación binaria simplificada (por ejemplo, es un tumor presente; o es la puntuación de Gleason del tumor al menos 4 + 3 = 7) en la figura. Si el 30% de las calificaciones de verdad del suelo cambian sobre la base de qué calificador revisó cada caso, entonces la concordancia medida entre la IA y las calificaciones de diferentes calificadores también puede cambiar potencialmente hasta en un 30%; un resultado de concordancia del 70% reportado podría llegar a ser del 40% si se compara con los grados de otro calificador. Tal advertencia es claramente inaceptable, aunque tal ocurrencia debería ser afortunadamente rara (porque asume el escenario improbable de que el 30% de los casos con grados cambiados sean exactamente aquellos para los que la IA estuvo de acuerdo con el primer grado). El cambio también puede ser positivo; el resultado del 70% puede oscilar entre el 40% y el 100% (figura A). 

ia

Evaluación del modelo de IA contra la verdad del terreno de diferentes procesos de verdad del terreno 

¿Cómo podría mejorarse el rigor de la verdad del terreno para una tarea subjetiva como la calificación de Gleason? Sobre la base del ejemplo de la figura, es necesario reducir la variabilidad en la verdad sobre el terreno. Tres soluciones potenciales son la contratación de calificadores experimentados o especializados; aumentar el número de niveladores; y aplicar un proceso de resolución imparcial cuando los clasificadores no estén de acuerdo (tabla). El primer método es sencillo: los clasificadores deben tener experiencia especializada relevante. Para la clasificación de Gleason, los grados de los subespecialistas urológicos muestran una menor variabilidad entre los tasadores y tienen un valor pronóstico más alto que el de los generalistas. El segundo aspecto, el aumento del número de clasificadores, puede ayudar a detectar errores accidentales (por ejemplo, por fatiga) o aspectos sutiles perdidos por casualidad, y mejorar la representatividad de los calificadores que revisan cada caso. El último aspecto, resolver los desacuerdos, es más matizado. Los calificadores deben revisar los casos de forma independiente para reducir las posibilidades de que el pensamiento grupal o las voces dominantes sesguen las calificaciones. Aunque la discusión entre los calificadores puede ayudar a resolver los desacuerdos, algunos desacuerdos ocurren debido a la ambigüedad inherente en las guías clínicas. Como tal, el proceso de resolución debe ser imparcial haciendo que árbitros separados revisen las opiniones disidentes y determinen la calificación final, o a través de un proceso de votación sistemático.9 

Tres enfoques sinérgicos para mejorar la reproducibilidad del proceso de verdad sobre el terreno y así aumentar el rigor de la verdad sobre el terreno 

Beneficios Desafíos Recomendación 
Aumentar la experiencia de los clasificadores Es más probable que los expertos experimentados confíen en calificar los casos correctamente los casos dificiles; incluir expertos de múltiples instituciones puede proporcionar diversidad de opiniones que se basan en una mayor amplitud de experiencia clínica y poblaciones de pacientes. Número limitado y disponibilidad de expertos. Involucrar a expertos con experiencia suficiente para revisar los casos; los expertos pueden ser subespecialistas experimentados en las mismas instituciones o expertos de clase mundial. 
Aumentar el número de niveladoras para cada caso La forma más fácil de obtener opiniones adicionales. Esto puede reducir los errores accidentales (por ejemplo, por fatiga o hallazgos sutiles perdidos) Costos de tiempo (es decir, limitados por la clasificación más lenta); dificultad para administrar los horarios; número limitado de niveladoras disponibles; la complejidad de la comunicación aumenta con más niveladores; dificultad potencial para conciliar las diferencias de opinión entre los clasificadores Asegúrese de que más de un calificador revise cada caso para reducir las posibilidades de errores de calificación; si hay un gran grupo de niveladoras disponibles, paralelice las revisiones para acelerar el proceso 
Asegúrese de que el proceso de resolución de desacuerdos sea imparcial Reduce el sesgo al reducir el efecto de una opinión dominante (por la cual las opiniones de algunos calificadores afectan el proceso de resolución) Si el proceso de resolución implica discusión, la programación puede ser difícil Asegurar que las revisiones iniciales se realicen de forma independiente para evitar el pensamiento grupal; anonimizar las opiniones durante la discusión si es posible; si no se puede llegar a un acuerdo solo a través de la discusión, considere un proceso de votación sistemático o que involucre a un árbitro separado con acceso a revisiones anonimizadas anteriores 

Para evaluar el rigor de un llamado proceso de verdad sobre el terreno, proponemos medir la reproducibilidad del proceso en sí. Por ejemplo, si se utiliza el voto mayoritario de un panel, ¿con qué frecuencia converge el mismo panel en el mismo grado después de un período de lavado (concordancia dentro del panel) y con qué frecuencia dos paneles están de acuerdo (concordancia entre paneles)? Un proceso altamente reproducible disminuirá la incertidumbre en el rendimiento medido. Por ejemplo, si un proceso da como resultado una reproducibilidad del 90%, entonces la incertidumbre en torno al mismo resultado del 70% que en el ejemplo anterior puede variar solo del 60% al 80% (figura B, C). 

Presumiblemente, las revisiones por parte de grandes paneles de expertos experimentados darán como resultado la mayor reproducibilidad. Sin embargo, el número y la experiencia de los expertos que pueden participar en un estudio podrían verse reducidos por consideraciones prácticas; el consenso de los diez principales expertos del mundo podría ser deseable, pero inviable. Esta compensación entre la calidad del proceso de veracidad sobre el terreno y los recursos necesarios podría calibrarse sobre la base de la etapa del trabajo: tal vez menos lectores para estudios de prueba de concepto y un panel más grande de lectores experimentados a medida que los algoritmos maduran hacia casos de uso real. Tal vez en reconocimiento de la compensación, una guía del Gobierno de los Estados Unidos actualmente dice: «las agencias deben evitar un enfoque de precaución que mantenga los sistemas de IA a un nivel tan increíblemente alto que la sociedad no pueda disfrutar de sus beneficios». 10 

Si un panel de expertos tiene una reproducibilidad no ideal, este problema podría indicar una ambigüedad fundamental en el sistema de clasificación o dificultad en la caracterización de la enfermedad. Más importante aún, los casos en los que los expertos no están de acuerdo podrían ser precisamente los casos difíciles en los que la IA podría proporcionar opiniones coherentes con el mayor valor, y no debe excluirse reflexivamente del análisis. Como tal, las consideraciones prácticas y la complejidad inherente del problema deben equilibrarse con la necesidad de un proceso riguroso de veracidad sobre el terreno con el fin de estimar con precisión el rendimiento de la IA. 

Hemos discutido varios factores involucrados en el establecimiento de la verdad del terreno para las tareas de diagnóstico subjetivo y cómo reducir la incertidumbre en las conclusiones del estudio: involucrar a expertos experimentados o especializados, aprovechar múltiples calificadores y un proceso de resolución de desacuerdos imparcial. Medir la reproducibilidad del proceso puede ayudar a indicar la precisión de las conclusiones del estudio. Si el proceso permite que la verdad final del terreno se considere un estándar de referencia requerirá un mayor debate, y probablemente dependerá del escenario clínico específico. Sin embargo, anticipamos que medir la reproductibilidad puede ayudar con esa determinación.Yun Liu 

Referencias 

  • Liu Y Chen P-HC, Krause J, Peng L. Cómo leer artículos que utilizan el aprendizaje automático: guías de usuario de la literatura médica. JAMA. 2019; 322: 1806-1816 
  • Center for Devices and Radiological Health. Statistical guidance on reporting results from studies evaluating diagnostic tests—guidance for industry and FDA staff. March 13, 2017. https://www.fda.gov/regulatory[1]information/search-fda-guidance-documents/statistical-guidance[1]reporting-results-studies-evaluating-diagnostic-tests-guidance-industry[1]and-fda (accessed May 17, 2020). 
  • Bulten W, Pinckaers H, van Boven H, et al. Automated deep-learning system for Gleason grading of prostate cancer using biopsies: a diagnostic study. Lancet Oncol 2020; 21: 233–41.  
  • Ström P, Kartasalo K, Olsson H, et al. Artificial intelligence for diagnosis and grading of prostate cancer in biopsies: a population-based, diagnostic study. Lancet Oncol 2020; 21: 222–32.  
  • Nagpal K, Foote D, Tan F, et al. Development and validation of a deep learning algorithm for Gleason grading of prostate cancer from biopsy specimens. JAMA Oncology 2020; 6: 1372.  
  • Pantanowitz L, Quiroga-Garza GM, Bien L, et al. An artificial intelligence algorithm for prostate cancer diagnosis in whole slide images of core needle biopsies: a blinded clinical validation and deployment study. Lancet Digit Health 2020; 2: e407–16.  
  • Wulczyn E, Nagpal K, Symonds M, et al. Predicting prostate cancer specific[1]mortality with artificial intelligence-based Gleason grading. Commun Med 2021; published online June 30. https://doi.org/10.1038/s43856-021- 00005-3.  
  • Bertens LCM, Broekhuizen BDL, Naaktgeboren CA, et al. Use of expert panels to define the reference standard in diagnostic research: a systematic review of published methods and reporting. PLoS Med 2013; 10: e1001531.  
  • 10 Vought RT. Guidance for regulation of artificial intelligence applications. https://www.whitehouse.gov/wp-content/uploads/2020/01/Draft-OMB-Memo-on-Regulation-of-Al-1-7-19.pdf 


    Po-Hsuan Cameron Chen, Craig, H Mermel, Yun Liu 

    PH-HCC, CHM y YL son empleados de Google LLC, poseen acciones de Alphabet e informan de varias patentes concedidas o pendientes sobre modelos de aprendizaje automático para imágenes médicas relacionadas con el cáncer de próstata pero fuera del contenido de este Comentario. 

     Fuente:  The Lancet, Digital Health, vol..3  num 11, E693-E695, noviembre 1 ,2021 

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.