Mobirise

Publicación semestral   • ISSN 2683-2968   •  Noviembre 2023   •  Número de revista 8

Robot Autónomo para la detección y clasificación de fresas en campos de cultivo mediante Deep Learning

3/7

Evaluación de la madurez de las fresas y detección mediante inteligencia artificial

 Estar en el campo rodeado de fresas de diferentes tamaños y colores e intentar cosechar las que están a punto de entrar a su madurez comercial es una tarea que requiere de mucho esfuerzo y dedicación, ya que si se cosechan demasiado verdes no madurarán y si están maduras llegarán a los centros de distribución en mal estado, por lo que hay que comprobar constantemente la madurez de la cosecha. Utilizando técnicas de procesamiento de imágenes se puede detectar la madurez de la fresa basándose en su cambio de color, de verde a rojo, como lo haría normalmente un agricultor.

¿Cómo se logra detectar este cambio en las imágenes? Mediante la transformación del espacio de color de una imagen, especificamente utilizando el espacio de color CIE Lab [7]. Este espacio de color cuenta con 3 canales, L (Luminosidad), a (tonos rojos y verdes), b (tonos azules y amarillos), que permiten percibir los cambios de color de manera uniforme. CIE Lab facilita la detección de diferencias entre el verde y el rojo en el canal a sin verse afectado por los cambios de iluminación.

El proceso de clasificación comienza con la imagen RGB original, con canales rojo R, verde G, y azul B, a la cual se le aplica la transformación al espacio de color CIE Lab. Posteriormente, a cada canal resultante (L, a, b) se le aplican límites para separar los tonos propios de la fresa del entorno. La Figura 1 muestra las tres capas del CIE Lab resultantes. 

Figura 1. Extracción de los canales de color L, a y b de una imagen de entrada utilizando el espacio de color CIE Lab[8].

Figura 1. Extracción de los canales de color L, a y b de una imagen de entrada utilizando el espacio de color CIE Lab[8].

Tras esto se suman las capas (L + a + b), y se realizan algunas operaciones morfológicas para obtener una máscara con la forma aproximada de la fresa en la imagen original, sin perder información relevante de la misma, como forma y color. Ver figura 2.  

Figura 2: Máscara obtenida del proceso de binarización, seguida de dilatación, erosión y aplicación de la máscara a la imagen RGB original.

Figura 2: Máscara obtenida del proceso de binarización, seguida de dilatación, erosión y aplicación de la máscara a la imagen RGB original.

Una vez extraída la segmentación de la fresa en formato RGB, se utiliza el canal rojo R de la imagen para la clasificación de madurez, ya que está fuertemente relacionado con el nivel de madurez de la fresa. El nivel de la madurez de la fruta se clasifica en 3 niveles: fresa inmadura, semi-madura, y madura, según la intensidad media de sus pixeles. Lo anterior se ilustra en la Figura 3.

Figura 3: Histograma de color en el canal R de la imagen, clasificado en 3 niveles: inmaduro, semi-maduro y maduro.

Figura 3: Histograma de color en el canal R de la imagen, clasificado en 3 niveles: inmaduro, semi-maduro y maduro.

Si bien las técnicas de procesamiento de imágenes son muy útiles para clasificar la madurez de las fresas, tienen sus limitaciones, como la presencia de objetos diferentes a la fresa que compartan los mismos colores, lo que puede generar falsos positivos y que dichos objetos sean identificados como fresas sin serlo. Para solucionar este problema y mejorar la precisión en la detección de fresas, se aplica Deep Learning, específicamente utilizando redes neuronales convolucionales (CNN) para la identificación de las fresas por forma y textura.

Las CNN, como señala LeCun, uno de los pioneros de la inteligencia artificial, son un tipo de red neuronal, diseñada para trabajar con imágenes, que utiliza convoluciones en lugar de multiplicaciones matriciales para aprovechar los datos de entrada [9]. En lugar de mirar toda la imagen y tratar de encontrar patrones, la CNN divide la imagen en diferentes partes y las procesa por separado, buscando patrones en los datos y extrayendo características generales como líneas o bordes, para luego utilizar estos patrones para formar objetos más complejos, permitiendo detectar y clasificar con mucha más precisión los objetos de la imagen, lo que es muy útil para tareas de reconocimiento. 

Figura 4: Arquitectura de la CNN utilizada en este trabajo.

Figura 4: Arquitectura de la CNN utilizada en este trabajo.

En una CNN, como se muestra en la Figura 4, las múltiples capas trabajan juntas para realizar la tarea de clasificación. La primera etapa es la extracción de características, en la cual la CNN divide la imagen en fragmentos y procesa cada uno por separado para buscar patrones en los datos. A medida que la red avanza, las dimensiones se reducen, encontrando características cada vez más complejas. Al final de la red hay neuronas simples que realizan la clasificación en una o más clases, según las características encontradas.

En el caso de la detección de fresas, la CNN se entrenó con imágenes de fresas del popular conjunto de datos ImageNet [10], y se aumentó con un conjunto de imágenes de fresas en el campo de prueba, lo que le permitió a la red identificar la forma y textura de las fresas para su posterior clasificación. En este proyecto se contó con la colaboración de Huawei, que proporcionó recursos de cómputo de alto desempeño, como sus servidores avanzados, lo que permitió un mayor rendimiento en el procesamiento de información y en el entrenamiento de la IA. 

Figura 5. Detección de fresas en el conjunto de datos. Imagen izquierda: Muestra la imagen segmentada correspondiente a la entrada de la imagen. Imagen derecha: Muestra las fresas maduras detectadas por la CNN, representadas por cuadros verdes en las regiones de interés.

Figura 5. Detección de fresas en el conjunto de datos. Imagen izquierda: Muestra la imagen segmentada correspondiente a la entrada de la imagen. Imagen derecha: Muestra las fresas maduras detectadas por la CNN, representadas por cuadros verdes en las regiones de interés. 

El uso de los servidores avanzados de Huawei en este proyecto permitió acelerar significativamente el tiempo de entrenamiento de la CNN y mejorar su capacidad para trabajar con conjuntos de datos más grandes, lo que permitió a la red generalizar de mejor manera las características que describen a una fresa. Estos servidores de alto desempeño son especialmente útiles en el campo de la inteligencia artificial, ya que pueden manejar eficientemente la gran cantidad de datos y operaciones matemáticas necesarias para entrenar una red neuronal. 

Fecha de recepción: julio de 2023
Fecha de publicación: noviembre de 2023

TIES, REVISTA DE TECNOLOGÍA E INNOVACIÓN EN EDUCACIÓN SUPERIOR (www.ties.unam.mx) 2023, Año 4, No. 7, marzo 2023, es una publicación semestral editada por la Universidad Nacional Autónoma de México (UNAM), Ciudad Universitaria, Alcaldía Coyoacán, C.P. 04510, Ciudad de México, a través de la Dirección General de Cómputo y de Tecnologías de Información y Comunicación, (DGTIC), Circuito Exterior s/n, Ciudad Universitaria, Alcaldía Coyoacán, C.P. 04510, Ciudad de México, Teléfono: (55) 56228166, https://www.ties.unam.mx, revista.ties@unam.mx. Editor responsable: Mtra. Lizbeth Luna González. Número de reserva de Derechos de Autor otorgado por INDAUTOR: 04-2019-011816190900-203 ISSN: 2683-2968, ambos otorgados por el Instituto Nacional del Derecho de Autor. Responsable de la última actualización de este número, Dirección General de Cómputo y de Tecnologías de Información y Comunicación, (DGTIC). Circuito Exterior s/n, Ciudad Universitaria, Alcaldía Coyoacán, C.P. 04510, Ciudad de México, fecha de la última modificación, diciembre de 2022. El contenido de los artículos es responsabilidad de los autores y no refleja el punto de vista de los árbitros, del Editor o de la UNAM. Se autoriza la reproducción total o parcial de los textos aquí publicados siempre y cuando se cite la fuente completa y la dirección electrónica de la publicación. La revista se ha desarrollado sin fines de lucro, con finalidades de diseminación del conocimiento, bajo licencia Creative Commons Reconocimiento-NoComercial (CC BY-NC-SA 4.0). Hecho en México, 2023.

Landing Page Maker