2.Detección de COVID-19 en radiografías de tórax mediante aprendizaje profundo

Desarrollo

Para la construcción del sistema se buscaron diferentes modelos de arquitectura de redes neuronales convolucionales para identificar cuál de ellas proporciona mejores resultados en imágenes de rayos X de tórax de pulmones. Estas pertenecen a pacientes que presentaban tres clases de diagnóstico: COVID-19, neumonía y pacientes sanos.

El sistema se entrenó con bases de datos provenientes de diversas fuentes y con las clases mencionadas. Esto es importante para que el sistema no solo aprenda de una única fuente y así evitar el sesgo.

Después de probar diversas opciones, al final se emplearon dos modelos distintos que generaron los mejores resultados, se procedió a compararlos y encontrar cuál tiene una mejor precisión. El primero consistió en entrenar dos redes neuronales convolucionales binarias para hacer la clasificación de las tres clases. La primera red neuronal identificó si la imagen estaba enferma o sana. En la clase enfermo se juntaron las imágenes de COVID-19 y neumonía, si el resultado era positivo, se aplica la segunda red neuronal para identificar si la imagen pertenece a COVID-19 o neumonía. El segundo modelo consistió en hacer uso solo de una arquitectura de red neuronal con tres salidas para detectar todas las clases en un solo paso.

El conjunto de imágenes totales se dividió y seleccionó de forma aleatoria para balancear el entrenamiento. En el primer enfoque, la clase enfermo y la clase sano tienen aproximadamente el mismo número de imágenes. Dentro de la clase enfermo, el número de imágenes son las mismas para las clases COVID-19 y neumonía. En el segundo enfoque, las tres clases están balanceadas, es decir, contienen aproximadamente el mismo número de imágenes. Al equilibrar las clases se proporciona un impulso significativo al rendimiento en el entrenamiento de la red neuronal convolucional [6]. El conjunto de validación también está balanceado y corresponde al 20% del conjunto de entrenamiento. Solo en los datos del conjunto de prueba no están balanceadas las clases debido a que no influye en el aprendizaje de los algoritmos. La precisión fue la principal métrica para analizar los resultados obtenidos, para este caso, se utilizó la especificidad y sensibilidad como métricas complementarias.

2.1 Base de datos

Las radiografías conformadas por imágenes rayos X de tórax proceden tanto de México como de varios países. Los pacientes tenían un amplio rango de edades, siendo imágenes tanto de hombres como de mujeres, lo que añadió gran diversidad. En ellas se observan pulmones que pertenece a pacientes con COVID-19, neumonía y sanos. La base de datos se integró con dos modalidades de rayos X de tórax, las antero-posteriores (AP) que se toman del pecho hacia la espalda, en ellas se observa la parte delantera del tórax. Las postero-anteriores (PA) que son lo opuesto, se toman de la espalda hacia el pecho, en este caso se ve la parte trasera del tórax. En la figura 1 se muestra un ejemplo de imágenes de rayos X, PA y AP.

Las imágenes de la clase COVID-19 se recopilaron de diversas instituciones médicas y repositorios de datos abiertos, principalmente del Centro Médico Nacional la Raza y del Hospital General de Zona 48 en la ciudad de México, además de la Facultad de Medicina de la Universidad de Montreal se consiguió un notable número de materiales para nutrir el sistema. Los datos sumaron un total de 4,991 imágenes con las modalidades AP y PA [7]-[9].
Las imágenes para la clase neumonía y sano se consiguieron de distintas fuentes, principalmente de algunos institutos de Estados Unidos como la Sociedad Radiológica de América del Norte (RSNA), el Instituto Nacional de Salud (NIH) y la Universidad de California, San Diego, Estados Unidos. Se contó con un total de 15,961 radiografías para la clase neumonía y 70,795 para pulmones sanos, ambas clases con modalidades AP y PA [10]-[11]. El total de los datos para las tres clases fueron 91,747 imágenes.

2.2 Redes neuronales convolucionales (CNN)

En las redes neuronales existe una gran variedad de arquitecturas, ya sean versiones establecidas o nuevas, así como la conjunción de nuevas arquitecturas que combinan los aspectos más importantes de cada una en un modelo híbrido. Para nuestro caso se probaron dos modelos, uno en cascada y otro multiclase. Es de conocimiento general que los modelos basados en redes neuronales convolucionales poseen una fase de entrenamiento y otra de validación antes de ser ejecutados con datos de prueba.

2.2.1 Modelo 1: redes residuales en cascada

En este modelo existen dos redes residuales ResNet 152 en cascada. El proceso se muestra en la figura 2, primero se emplea una ResNet para detectar pulmones sanos y enfermos. En el caso de que la red detecte la información como sano termina el proceso y se clasifica como sano. Si la red neuronal la detecta como enfermo, la información pasará a una segunda ResNet entrenada para clasificar neumonía y COVID-19. En contraste, el modelo analiza una sola red multiclase donde se detecten los tres casos: neumonía, COVID-19 y pacientes sanos.

Clasificación de imágenes: sanos y enfermos

Se usaron 8,611 imágenes de tórax para detectar pulmones sanos o enfermos. 4,121 para la clase sano y 4,490 para enfermo. De este conjunto se dedicaron 6,944 imágenes para el entrenamiento y 1,667 imágenes para validación.
Para el entrenamiento se empleó una red neuronal convolucional ResNet 152 y el método de transferencia de aprendizaje (“transfer learning” en inglés), la finalidad es tomar una red donde los pesos y parámetros han sido previamente entrenados con una base de datos de ImageNet, para después sintonizarla (“fine tuning” en inglés) con los datos propios [12].

El proceso del entrenamiento se muestra en la figura 3, en el cual aparece la técnica de congelamiento (“freezing” en inglés), que consiste en mantener los pesos de la red preentrenada, a excepción de la capa de salida y el método de búsqueda de tasa de aprendizaje (“learning rate finder” en inglés), para mejorar la tasa de aprendizaje en el entrenamiento [13]-[14].

Clasificación de imágenes neumonía y COVID-19

El entrenamiento para detectar enfermedades contó con 4,490 imágenes, de las cuales 2,150 pertenecen a la clase de neumonía y 2,340 son de la clase COVID-19. Un 20% de ellas se editó, se procedió a ejecutar acercamientos, alejamientos, voltear horizontalmente, rotar y agregar más iluminación para tener un aprendizaje más heterogéneo.

Se seleccionaron 3,647 imágenes para el entrenamiento y 843 imágenes para la validación. Se empleó una red neuronal convolucional ResNet 152 preentrenada en ImageNet, y se entrenó con las imágenes de neumonía y COVID-19 para ajustar la red neuronal. En la figura 4 se muestra el proceso gráficamente.

2.2 Modelo 2: clasificación multiclase de imágenes: sanas, neumonía y COVID-19

La red convolucional ResNet 152 fue ocupada para la detección de las tres clases, para el entrenamiento se usaron radiografías de tórax, 2,340 con COVID-19, 2,150 con neumonía y 2,021 sanas. Se seleccionaron 5,264 imágenes para el entrenamiento y 1,247 para la validación. La ResNet 152 preentrenada posee “transfer learning” con la base de datos de ImageNet. También se aplicaron las técnicas de freezing y el método learning rate finder, explicados previamente. En la figura 5 se muestra a detalle el proceso realizado.

Fecha de recepción: 23 de noviembre de 2021
Fecha de publicación: marzo de 2023

Resumen • Introducción • Desarrollo • Resultados • Conclusiones • Bibliografía • [Versión PDF]

TIES, REVISTA DE TECNOLOGÍA E INNOVACIÓN EN EDUCACIÓN SUPERIOR (www.ties.unam.mx) 2023, Año 4, No. 7, marzo 2023, es una publicación semestral editada por la Universidad Nacional Autónoma de México (UNAM), Ciudad Universitaria, Alcaldía Coyoacán, C.P. 04510, Ciudad de México, a través de la Dirección General de Cómputo y de Tecnologías de Información y Comunicación, (DGTIC), Circuito Exterior s/n, Ciudad Universitaria, Alcaldía Coyoacán, C.P. 04510, Ciudad de México, Teléfono: (55) 56228166, https://www.ties.unam.mx, revista.ties@unam.mx. Editor responsable: Mtra. Lizbeth Luna González. Número de reserva de Derechos de Autor otorgado por INDAUTOR: 04-2019-011816190900-203 ISSN: 2683-2968, ambos otorgados por el Instituto Nacional del Derecho de Autor. Responsable de la última actualización de este número, Dirección General de Cómputo y de Tecnologías de Información y Comunicación, (DGTIC). Circuito Exterior s/n, Ciudad Universitaria, Alcaldía Coyoacán, C.P. 04510, Ciudad de México, fecha de la última modificación, diciembre de 2022. El contenido de los artículos es responsabilidad de los autores y no refleja el punto de vista de los árbitros, del Editor o de la UNAM. Se autoriza la reproducción total o parcial de los textos aquí publicados siempre y cuando se cite la fuente completa y la dirección electrónica de la publicación. La revista se ha desarrollado sin fines de lucro, con finalidades de diseminación del conocimiento, bajo licencia Creative Commons Reconocimiento-NoComercial (CC BY-NC-SA 4.0). Hecho en México, 2023.