Tres científicos de la organización IBM Research han desarrollado un nuevo algoritmo que permite conocer la ubicación de los usuarios, así como otros datos relacionados con la localización, usando el contenido de los tweets publicados y sin que sea necesaria que la geolocalización esté activada.
Si eres de los que usas Twitter a menudo para contar tus historias o enseñar lo que estás haciendo, pero no quieres que se sepa dónde te encuentras y no activas la opción de geolocalización, es posible que, por mucho que quieras ocultar tu ubicación, se pueda llegar a saber dónde estás o dónde has estado en un momento concreto, utilizando el algoritmo que tres científicos de IBM Research han desarrollado.
68 % de precisión
Según el trabajo publicado en la web arXiv.org, el algoritmo tiene un 68 % de precisión a la hora de predecir la ciudad dónde se encuentra el usuario de la red de microblogging. Según los investigadores, han desarrollado el algoritmo para analizar la distribución geográfica de los tweets publicados desde varios puntos de vista, tales como ciudad, estado o zona horaria. Además de esto, su intención es mejorar el algoritmo para poder predecir la localización a nivel de barrio.
Más de 1,5 millones de mensajes analizados
Para desarrollar el algoritmo, los investigadores han recopilado, desde julio de 2011 hasta agosto de 2011, tweets de las 100 ciudades más grandes, en cuanto a población se refiere, de los Estados Unidos. Para realizar el algoritmo, se quedaron con los 200 tweets más recientes de cada usuario, con lo que tuvieron que analizar más de 1,5 millones de mensajes generados por casi 10.000 personas.
El 6,6 % de los mensajes eran de Foursquare y contenían datos que permitían conocer la localización exacta. El 19 % contenía referencias directas a ciudades o estados dónde se encontraba el usuario. Para el resto de mensajes, analizaron las palabras, los hashtags y los nombres de los sitios, usando palabras clave.
En último lugar, crearon un conjunto de todos los datos recopilados para poder clasificarlos correctamente y poder mejorar la precisión entre la localización predicha y la localización real. Para ello, utilizaron también la hora a la que se escribieron los mensajes y la zona horaria de cada ciudad.