Abstract:
La clasificación de objetos en imágenes utilizando redes convolucionales es una técnica para el análisis de imágenes que utiliza Deep Learning o Aprendizaje Profundo. La misma consiste determinar a qué clase, de un conjunto de clases dado, pertenece el objeto que se encuentra en la imagen. Para la tarea de clasificación, dicho elemento a clasificar tiene el foco principal de la imagen y es el único objeto en la misma.
Las redes convolucionales son un tipo especial de red neuronal, que realizan la operación matemática de convolución durante su operación. Las mismas suponen explícitamente que las entradas son imágenes, lo que permite codificar ciertas propiedades en su arquitectura. Esto permite una implementación y funcionamiento mucho más eficiente reduciendo enormemente la cantidad de parámetros de la red.
En el presente documento se realiza una comparativa entre algunos modelos de renombre y ampliamente utilizados como VGG16, VGG19 y ResNet, midiendo los resultados obtenidos sobre el dataset CIFAR100; mediciones en función de la exactitud alcanzada por el modelo, la reducción del error lograda en el reconocimiento, y los tiempos necesarios de ejecución (siempre en un mismo ambiente de pruebas).
Los modelos utilizados para la clasificación de objetos son la base para otras tareas referentes al análisis de imágenes: detección y localización, y segmentación. La motivación del presente trabajo es comparar y seleccionar el modelo más apropiado para realizar las actividades de análisis de imágenes mencionadas. Con esto, nos referimos al más eficiente en un determinado ambiente de pruebas, con recursos computacionales definidos, tiempos de pruebas establecidos y objetivos de aplicación particulares para el uso del modelo.