Tessore, Juan Pablo; Esnaola, Leonardo; Russo, Claudia; Ramón, Hugo; Pompei, Sabrina
Resumen:
El presente trabajo propone construir un clasificador automático de opiniones, que permitirá realizar análisis automáticos a bajo costo del juicio de los consumidores acerca de productos o servicios. Dicho clasificador será entrenado a partir de los comentarios en lenguaje informal presente en redes sociales.
Para alcanzar el objetivo descripto, en primer lugar, se prevé construir una base de datos que reúna diversos fragmentos de texto en idioma español, incorporando los modismos propios de nuestra región.
En segundo lugar, a través de un proceso incremental de limpieza y normalización de cada fragmento de texto, que incluye actividades como la eliminación de hashtags, enlaces, emoticones, etc.; corrección ortográfica; etiquetado sintáctico (también conocido como “Part Of Speech Tagging”, o simplemente “POS tagging”); desambiguación, entre otras.
Una vez realizada la recopilación y normalizado el contenido, se definirá un criterio de clasificación de dichos fragmentos, de manera de establecer clases que permitan agrupar los mismos según su afinidad, es decir a partir de características comunes.
Finalmente, a partir del diseño, desarrollo e implementación de un algoritmo inteligente se buscará determinar el grado de pertenencia a cada uno de los grupos definidos de cualquier texto arbitrario.