Resumen:
El texto que surge de la interacción entre usuarios en redes sociales suele ser más disperso que el
contenido tradicional. Es decir, contiene errores ortográficos, uso informal del lenguaje, emoticones, urls y otras construcciones que no suelen estar presentes en el lenguaje formal. Dicha dispersión puede
afectar el desempeño de los clasificadores de texto basados en aprendizaje automático. El presente trabajo propone medir el desempeño de diferentes tareas de preprocesamiento, aplicadas primero de manera aislada y luego combinadas, sobre contenido extraído de redes sociales. Se busca
determinar cuán aptas resultan ser estas tareas para corregir errores en textos de este tipo.
Para ello, en primer lugar, se determinará en qué magnitud se reduce el porcentaje de palabras “incorrectas” y, en segundo lugar, cómo impactan en la precisión final alcanzada por clasificadores basados en aprendizaje automático.
Este trabajo, se enmarca en una línea de investigación más amplia que propone la construcción de un clasificador automático de opiniones utilizando algoritmos de aprendizaje automático, el cual fuera presentado previamente en otra edición de este Workshop, y que permitirá realizar
análisis automáticos de bajo costo para determinar las emociones manifestadas por consumidores o usuarios acerca de productos o servicios, a partir del análisis de sus opiniones escritas. Este clasificador será entrenado a partir de los comentarios en lenguaje informal presente en redes sociales.