Twitter-Topics (Tesis de grado de Ingeniería en Informática, FIUBA)

Autores

Tesista: Tomás Mussi Reyero
Director: Dr. Ing. Mariano G. Beiró
Co-director: Dr. Ing. J. Ignacio Alvarez-Hamelin

Contenido

El objetivo de la presente tesis es analizar un conjunto de datos extraido de Twitter que contiene usuarios y los tweets que publicaron, para extraer tópicos de discusión y comparar la similitud entre grupos de usuarios seguidores de distintos candidatos políticos, durante las elecciones argentinas de 2015. A través de los notebooks se puede reproducir todo el proceso.

Notebooks

El trabajo se dividió en seis notebooks, en los cuales detallamos:

01 Análisis preliminar: graficamos la cantidad de tweets por día capturados. También observamos la distribución de grados entrante y saliente de la red de usuarios.
02 Matriz de coocurrencia de hashtags: a partir de los tweets que los usuarios publicaron y filtrando contenido, generamos el grafo de coocurrencia de hashtags. Luego de aplicar el algoritmo de detección de comunidades OSLOM, obtenemos los tópicos a los que pertenece cada hashtag.
03 Homofilia temática: luego de obtener los tópicos, pasamos a hacer un análisis sobre los tópicos que utilizaron los usuarios. Analizamos la similitud que hay entre usuarios de la red.
04 Evolución de similitud temporal: convertimos la utilización de hashtags en la utilización de tópicos, y particionamos la utilización a través del tiempo en múltiples matrices usuario-tópico para la ventana de tiempo bajo análisis. Comparamos la evolución de la similitud entre grupos de usuarios que siguen a un único candidato a presidente dentro de la red.
05 Análisis temporal de tópicos: observamos la utilización de ciertos tópicos por parte de los seguidores de los candidatos y detectamos que tópicos son los más específicos dentro de las comunidades.
06 Predicción de alineamiento político de los usuarios: clasificamos a los usuarios de acuerdo a si retweetearon a un único candidato. Vamos a analizar y extraer matrices para dos períodos, uno el período electoral completo y el otro hasta la primera vuelta. Luego obtenemos dos matrices de features para cada período, una con los tópicos obtenidos en el proceso y la otra aplicando reducción de dimensiones sobre la matriz de usuario-hashtag para conseguir la misma cantidad de features que los tópicos. Finalmente tenemos cuatro matrices a las que utilizamos el clasificador Random Forest y verificamos la eficacia para cada una de las cuatro matrices.

Name		Name	Last commit message	Last commit date
Latest commit History 17 Commits
data		data
01 Analisis preliminar.ipynb		01 Analisis preliminar.ipynb
02 Matriz de coocurrencia de hashtags.ipynb		02 Matriz de coocurrencia de hashtags.ipynb
03 Homofilia tematica.ipynb		03 Homofilia tematica.ipynb
04 Evolucion de similitud temporal.ipynb		04 Evolucion de similitud temporal.ipynb
05 Evolucion topicos.ipynb		05 Evolucion topicos.ipynb
06 Prediccion de usuarios.ipynb		06 Prediccion de usuarios.ipynb
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Twitter-Topics (Tesis de grado de Ingeniería en Informática, FIUBA)

Autores

Contenido

Notebooks

About

Uh oh!

Releases

Packages

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Twitter-Topics (Tesis de grado de Ingeniería en Informática, FIUBA)

Autores

Contenido

Notebooks

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Packages