International OPEN
Journal
ACCESS
Of Modern Engineering Research (IJMER)
Recomendación De Contactos Mediante La Implementación De Clúster En Redes Complejas Aplicadas Al Análisis De Opiniones En Español En La Red Social Twitter Jefferson Beltrán1, Michelle Guerra2 *(Facultad de Ingenieria Ciencias Físicas y Matemáticas, Universidad Central del Ecuador ** (Facultad de Ingenieria Ciencias Fisicas y Matematicas, Universidad Central del Ecuador
RESUMEN: Con el objeto de aprovechar los datos introducidos por millones de usuarios en redes sociales y convertirlos en información relevante, el presente trabajo presenta un caso de estudio sobre recomendación de contactos afines de acuerdo con sus preferencias en Twitter. Tomando las publicaciones generadas por una muestra de usuarios, se realiza un Análisis de Sentimientos, para determinar la polaridad y las emociones expresadas en las publicaciones, para luego identificar las relaciones de afinidad entre los usuarios formado una red compleja, a la que se aplicó un algoritmo de Clustering para formar grupos dentro de la Red y analizar los gustos expresados dentro de los clústers formados. De esta manera se logró crear una nueva forma buscar contactos que tienen los mismos gustos expresados en Twitter. Palabras Clave: Redes Sociales; Twitter; Análisis de Sentimientos; Análisis de Polaridad; Análisis de Emociones; Clustering; Red Compleja.
I. INTRODUCCIÓN El hombre es un ser naturalmente sociable, nos encontramos en una era donde compartir en redes sociales ocupa gran importancia en nuestras vidas, muchos buscan compartir sus experiencias y ser partícipes de las de otros, ya sean sus amigos o personas ajenas a su círculo más próximo. “Esta revolución tecnológica constituye a todas luces un elemento esencial para entender nuestra sociedad, en la medida que crea nuevas formas de socialización, e incluso nuevas definiciones de identidad individual y colectiva... “ [8]. Todas las personas tienen la necesidad de comunicar o compartir lo que les sucede, sus logros, sus gustos, buscando en muchos casos la aprobación del resto de las personas, así como un reconocimiento de su parte, es por eso que surge la necesidad de crear este tipo de plataformas, que de cierta manera han logrado que la comunicación sea mucho más sencilla, fomentando nuevos estereotipos de comunicación que permiten a las personas relacionarse entre sí. Es conocido también que muchas de las redes sociales actuales recomiendan usuarios por los amigos en común que tienen, sin notar la potencialidad de realizar un análisis más a fondo sobre los gustos y opiniones que los usuarios tienen sobre algún tema en particular y recomendarles amistades afines con sus gustos, permitiendo de esta forma la creación de una nueva tendencia de recomendación de contactos. En este artículo se presenta un método para realizar la recomendación de contactos de la red Social Twitter, basada en el establecimiento de relaciones entre quien publica un Tweet y quien lo comparte, formando de esta manera una red de relaciones, a la cual se le aplicará un algoritmo de Clustering que permita identificar agrupaciones dentro de la red formada, además se realizará un análisis de polaridad (positiva, negativa, neutra o mixta) de un texto [5]. El artículo se organiza de la siguiente manera: En la sección II se describe brevemente la situación actual del análisis de polaridad. En la Sección III se describe la metodología empleada describiendo la propuesta planteada. En la Sección IV se detallan los resultados de la aplicación de este método. Por último, en la sección V se presentan las conclusiones de este estudio
II. REVISIÓN BIBLIOGRÁFICA La habilidad de entender rápidamente actitudes del consumidor y reaccionar adecuadamente es algo que Expedia Canadá aprovechó cuando se dieron cuenta de que había un crecimiento continuo de feedback | IJMER | ISSN: 2249–6645 |
www.ijmer.com
| Vol. 7 | Iss. 2 | Feb. 2017 | 31 |
Recomendación De Contactos Mediante La Implementación De Clúster En Redes Complejas… negativo hacia la música de uno de sus anuncios de televisión. El peor anuncio, lo repiten tanto que llega a ser molesto, y probablemente no vuelva a usar Expedia, solo porque su anuncio es tan irritante.” El análisis de sentimiento que la marca llevó a cabo reveló que la música de uno de sus anuncios llegaba a ser muy irritante tras varias escuchas, y los consumidores se estaban dirigiendo a las redes sociales para desahogarse. Un par de semanas después de que el anuncio se emitiera por primera vez, más de la mitad de los comentarios de la conversación online eran negativos. En vez de anotarse un fallo con el anuncio, Expedia supo dirigir el sentimiento negativo de una manera divertida y consciente al emitir una nueva versión del anuncio que ´mostraba como rompían el violín que tanto molestaba. La mayor parte de los sistemas de Análisis de Opiniones se centran en el tratamiento de textos en inglés. En el caso de textos escritos en español, probablemente el sistema más relevante sea The Spanish SO Calculator [1], desarrollado en la Universidad Simon Fraser de Canadá. Este sistema, además de resolver las opiniones almacenadas a nivel individual en adjetivos, sustantivos, verbos y adverbios; trata modificadores de la polaridad como son la negación o los intensificadores (\muy", \poco", \bastante", ...). También detecta y descarta el sentimiento relejado en el contenido no fáctico del texto, representado, por ejemplo, mediante expresiones condicionales o subjuntivas. La manera más habitual de tratar todas estas construcciones lingüísticas es a nivel léxico y en este aspecto The Spanish SO Calculator no es una excepción. En lo que respecta al tratamiento de la negación, Taboada [7] utiliza información morfológica para identificar el alcance de la negación, mientras que Yang [9] considera dicho alcance como los términos situados a la derecha de la negación y Fernández [2] emplea una heurística que asume que los tres elementos a continuación de una negación son los que deben cambiar su polaridad. Para la intensificación, Fernández [2] considera de nuevo que los tres términos a la derecha son los que deben variar su polaridad. Taboada propone [7] que además de los intensificadores propiamente dichos, se trate como aspectos del discurso, la conjunción \pero" o las mayúsculas.
III. METODOLOGÍA Para la investigación, se parte tomando como muestra los seguidores de una cuenta de Twitter de ejemplo, obteniéndose de esta forma un total de 158 personas, de las cuales se obtuvo la siguiente información: Nombre del usuario registrado en Twitter que realizó la publicación. Tweet o Retweet realizado. Nombre del usuario registrado en Twitter que compartió la publicación. De un total de 2248 publicaciones, distribuidas entre Tweets y Retweets, para efectos de este estudio tomamos únicamente los Retweets, debido a que en ellos se expresan los gustos de las personas que los comparten, un Retweet tiene como estructura: RT sigla que denomina un retweet. Nombre del usuario como se encuentre registrado en la cuenta de Twitter (@Usuario1). Texto o mensaje publicado. Vínculos a otras páginas, imágenes, videos, etc. Conociendo la estructura que poseen los Retweets que forman parte de este estudio, se procedió a incluir únicamente a los usuarios que realizaron algún Retweet, con la finalidad de establecer la relación entre quien realiza un Tweet y quien lo publica, como se muestra en la Tabla 1. Tabla 1. Ejemplo de Relaciones Who_post Who_retweet @GramaticaReal @Deycarii @Inukki @DavidKTheo @Inukki @EstebanPazR @HiRezClumzyD @DavidKTheo Una vez establecida la red compleja se procede a realizar la detección de comunidades mediante la implementación conceptual del algoritmo de Girvan Newman que es un método jerárquico para detectar comunidades en sistemas complejos [3]. Este algoritmo detecta comunidades eliminando progresivamente los enlaces de la red original. Los componentes conectados de la red que quedan son las comunidades. En lugar de tratar de construir una medida que indique qué enlaces son los más importantes para las comunidades, el algoritmo de Girvan- Newman se centra en los enlaces que son más probables “entre comunidades”. La
| IJMER | ISSN: 2249–6645 |
www.ijmer.com
| Vol. 7 | Iss. 2 | Feb. 2017 | 32 |
Recomendación De Contactos Mediante La Implementación De Clúster En Redes Complejas… intermediación de vértices se ha estudiado en el pasado como una medida de la centralidad y la influencia de los nodos en las redes.[4] Como manifiesta Larrosa, La intermediación del vértice se define como el número de caminos más cortos entre pares de nodos que se ejecutan a través de él. Es una medida de la influencia de un nodo sobre el flujo de información entre otros nodos, especialmente en los casos donde el flujo de información a través de una red sigue principalmente el camino más corto disponible.[4] Además el algoritmo extiende esta definición para el caso de enlaces, donde la intermediación de un enlace se define como el número de caminos más cortos entre pares de nodos que se ejecutan a lo largo de ella.[4] Si hay más de una ruta corta entre un par de nodos, cada uta se le asigna el mismo peso, tal que el peso total de todos los caminos es igual a la unidad. Si una red contiene las comunidades o grupos que están solo conectados por unos enlaces entre grupos, entonces todos los caminos más cortos entre las diferentes comunidades deben pasar por una de estas pocas aristas. [4] Por lo tanto, los enlaces de conexión de comunidades tendrán alta intermediación de enlace. Mediante la eliminación de estos enlaces, los grupos están separados uno de otro y por lo que la estructura de la comunidad subyacente de la red se revela. [4] Los pasos que este algoritmo sigue se resume en: Se calcula primero la intermediación de todos los enlaces existentes en la red. Se elimina el enlace con la más alta intermediación. Se vuelve a calcular la intermediación de todos los enlaces afectados por la eliminación. Los primeros dos puntos se vuelven a repetir hasta que ya no queden enlaces. Como manifiesta Larrosa el que la intermediación de los enlaces afectados por la eliminación sean recalculados podría disminuir el tiempo de ejecución del proceso de simulación, sin embargo, la centralidad de intermediación debe ser recalculado con cada paso, o se podrían producir errores graves. La razón es que la red se adapta a las nuevas condiciones establecidas después de la eliminación del enlace. [4] Al aplicar este algoritmo como resultado final tenemos un dendograma, es decir, la red se divide en diferentes comunidades con la eliminación sucesiva de los enlaces. Las hojas del dendograma son los nodos individuales. [4] Una vez identificadas las comunidades mediante la implementación del algoritmo de Girvan Newman, se procede a darle una denominación a cada comunidad formada por los individuos de estudio, para esto se analizó las publicaciones que forman parte de cada comunidad, obteniendo de ellas las palabras que son utilizadas con mayor frecuencia, dándole así la denominación a cada comunidad. Para el caso del análisis de Opiniones se realizó una clasificación por Score, el cual se definió como Score = Número de Palabras Positivas - Número de Palabras Negativas, que se obtiene con la comparación de las publicaciones realizadas frente a los diccionarios de palabras Positivas y Negativas, estos diccionarios fueron formados por la recolección de cuatro fuentes (Diccionario de Hardvard, El diccionario de Lasswell, Mayoría de categorías de reciente construcción, Categorías de marcadores desarrollado como recursos para la desambiguación) [6], las mismas que son reunidas en el diccionario The General Inquerer, [6] el cual fue traducido a idioma español, contando así con los datos registrados en la Tabla 2 presentada a continuación: Tabla 2. Diccionario de Palabras Positivas y Negativas. Palabras Cantidad Positivas 2006 Negativas 4783 Antes de realizar la comparación de las publicaciones con los diccionarios, las publicaciones realizadas deben pasar por un proceso de limpieza el cual consta de los siguientes pasos: Eliminación del RT (Señal de Retweet). Eliminación de Menciones a otros usuarios, por ejemplo @Usuario1. Eliminación de tendencias o hashtags por ejemplo #Tendencia1. Eliminación de Urls. Eliminación de signos de puntuación. Eliminación de números. Conversión a formato UTF-8 para tratamiento de tildes y ñ. Conversión a minúsculas.
| IJMER | ISSN: 2249–6645 |
www.ijmer.com
| Vol. 7 | Iss. 2 | Feb. 2017 | 33 |
Recomendación De Contactos Mediante La Implementación De Clúster En Redes Complejas… Una vez realizada la limpieza se comparó la publicación dividida en palabras contra los diccionarios de palabras positivas y negativas, definiendo el Score como Score = Número de palabras positivas - Número de Palabras Negativas, calificando a las publicaciones bajo los parámetros: Score > 1 = Positivo. Score = 0 = Neutro. Score < 0 = Negativo.
IV. RESULTADOS Los principales resultados que se obtuvieron del Análisis de Opiniones y de la formación de la Red Compleja, con su determinación respectiva en comunidades son. A. Formación de Red Compleja. Las comunidades formadas por la implementación conceptual del algoritmo de Girvan- Newman fueron un total de 47, denominadas por la frecuencia de palabras utilizadas en cada publicación de cada comunidad, un ejemplo de las definiciones de cada grupo se muestran en la tabla siguiente:
Grupos 1 2 3 4 5 6 7 8 9 10
Tabla 3. Denominación de Grupos. Denominación Total Usuarios Escritura Correcta 2 Video Juegos 9 Liga Noticias 185 Jugadores Liga 10 Noticias Ecuador 19 Música Banda 4 Stopa Educación 5 Sátira Política 5 Seguidores Joya 10 Stereo Fans Claudio 16 Bieler
Se puedo observar que los usuarios que forman parte de la red compleja, fueron un total de 493 personas. B. Análisis de Sentimientos En el Análisis de Sentimientos se tomaron un total de 600 publicaciones, las mismas que se clasificaron en: Tabla 4. Clasificación de Publicaciones. Clasificación Total Positivo 247 Negativo 99 Neutro 254 Como parte de evaluación del modelo se utilizó una muestra de 119 publicaciones las mismas que tuvieron su respectiva clasificación según el criterio de los autores, para posteriormente evaluarlas con la aplicación del Score, de esta forma los retweets evaluados presentaron un total de 60 publicaciones positivas, 37 publicaciones negativas y 12 publicaciones neutras. Los resultados se la matriz de confusión se muestran a continuación: Tabla 5. Resultados Matriz de Confusión Sistema (Modelo) Real Positivos Negativos 42 4 Positivos 5 14 Negativos 5 1 Neutros
Neutros 9 3 26
Podemos apreciar que el Porcentaje de Precisión Global es de 75,22%, la Precisión Positiva es de 80,76%, la Precisión Negativa es de 73,68% y como Precisión Neutra un 68,42%. Como notamos el porcentaje | IJMER | ISSN: 2249–6645 |
www.ijmer.com
| Vol. 7 | Iss. 2 | Feb. 2017 | 34 |
Recomendación De Contactos Mediante La Implementación De Clúster En Redes Complejas… de precisión del algoritmo de Score fue del 75% con una tendencia a mejorar dependiendo de la calidad del texto de opinión y mayor tamaño del conjunto de datos.
V. CONCLUSIONES Y TRABAJO FUTURO En la sección de análisis de sentimientos, al tenerse una Precisión Global del 75%, es necesario que se realice una mejora de los diccionarios, así como también la toma de la muestra para la evaluación. Al ser los diccionarios traducidos a lenguaje español, se notó una limitación que podría afectar al análisis como tal, debido a que el idioma español es muy complejo con relación al idioma inglés en el que originalmente se encuentran los diccionarios de apoyo. En la sección de formación de la red compleja, el aplicar el algoritmo de Girvan Newman da los resultados adecuados para la formación de comunidades, además al formar una red de relaciones se tiene mayor oportunidad de conocer usuarios que tengan intereses afines manifestados en las publicaciones que se realizan, esto da la pauta a que se creen automáticamente agrupaciones permitiendo a los usuarios establecer relaciones con quienes muestren sus mismos intereses. Como trabajo futuro se propone realizar un análisis más completo incluyendo detección de sarcasmos, análisis de emoticones, además de una inclusión de diccionarios más completos, para la sección de procesamiento de información también se propone la inclusión de técnicas de procesamiento de información en paralelo, para realizar un análisis más eficiente.
REFERENCIAS [1]. [2]. [3]. [4]. [5]. [6]. [7]. [8]. [9].
Brooke, J., M. Toloski, y M. Taboada. 2009. Cross-Linguistic Sentiment Analysis: From English to Spanish. En Proceedings of the International Conference RANLP-2009, p_aginas 50{54, Borovets, Bulgaria. ACL Fernández Anta, A., P. Morere, L. Nuñez Chiroque, y A. Santos. 2012. Techniques for Sentiment Analysis and Topic Detection of Spanish Tweets: Preliminary Report. En TASS 2012 Working Notes, Castell_on, Spain.. Girvan M, Newman M. E. J (2002), “Community structure in social and biological networks”, Recuperado el 04/05/2016 de: http://www.pnas.org/content/99/12/7821. Larrosa J, (2014/05/02), “Detección de Comunidades- Algoritmo de Girvan Newman” [Mensaje en un Blog], Recuperado de http://ars-uns.blogspot.com/2014/05/deteccion-de-comunidades-algoritmo.html Pang, B. , L. Lee, y S. Vaithyanathan. 2002. Thumbs up? Sentiment classication using machine learning techniques. En Proceedinggs of EMNLP pag 79-86. Stone P, (2002/09/02) “Welcome to the General Inquerer home Page” [Sitio Web] Obtenido de http://soybibliotecario.blogspot.mx/2016/09/normas-apa-2016-aprende-citar-posts-de.html?m=1 Taboada, M., J. Brooke, M. Toloski, K. Voll, y M, Stede. 2011. Lexicon-based methods for sentiment analysis. Computational Linguistics, 37(2):267-307. UNESCO (1996): La educación encierra un tesoro. Informe a la UNESCO de la Comisión inernacional sobre la educación para el s. XXI. Madrid, Santillana- UNESCO. Yang, K. 2008. WIDIT in TREC 2008 blog track: Leveraging multiple sources of opinion evidence. En E.M. Voorhees y Lori P. Buckland, editores NIST Special Publication 500-277: The Seventeenth Text Retrieval Conference Proeedings (TREC 2008)
| IJMER | ISSN: 2249–6645 |
www.ijmer.com
| Vol. 7 | Iss. 2 | Feb. 2017 | 35 |