Abstract:
El lenguaje utilizado en el ámbito de las redes sociales, suele tener un mayor grado de informalidad que el proveniente de fuentes tradicionales. Los trabajos que toman
dicho contenido para tareas de clasificación basadas en aprendizaje automático realizan, en primer lugar, una limpieza y estandarización de los textos. Esto último tiene por finalidad,
mejorar la exactitud final de la tarea de clasificación antes mencionada. En este trabajo se definen y ejecutan una serie de tareas de limpieza sobre un dataset de comentarios extraídos de la red social Facebook. El objetivo es verificar si las correcciones
realizadas por dichas tareas, se traducen en una mejora significativa en la exactitud alcanzada por el algoritmo de clasificación. Los resultados obtenidos indican que, sobre este tipo de dataset, tareas de preprocesamiento con un desempeño razonablemente bueno en lo que se refiere a corrección de errores, no necesariamente conducen a una mejora notoria en la exactitud de la clasificación de los textos.