Informar en una nueva era de contenidos comerciales digitales con apariencia de espontaneidad

Otra elección, otra ronda de informes de bots de medios sociales que promovieron artificialmente a un candidato, y otro caso de estudio que destaca las dificultades de informar en una nueva era de contenidos comerciales digitales que aparentan ser espontáneos, lo que se conoce como astroturfing.

Para las elecciones generales británicas, un intento notable fue el artículo de The Telegraph sobre una serie de bots que inundaron Twitter con mensajes a favor de Jeremy Corbyn y contra Theresa May. Los hechos básicos de la historia fueron imprecisamente correctos: hubo un considerable número de tuiteros frecuentes que impulsaron los mensajes a favor de Corbyn en las semanas finales previas al día de las elecciones. Pero al artículo no logró dar pruebas fehacientes de alcance o intención.

Vale la pena informar sobre la posibilidad de tener robots que exageren el tamaño del aparente apoyo a un candidato — por no mencionar, que difundan información errónea. Pero los análisis adecuados de estas redes exigen conocimientos y opiniones que son totalmente nuevos para los científicos sociales, más aun para los periodistas.

¿Cómo podemos siquiera empezar a pensar en verificar cosas como campañas de bots? ¿Qué preguntas debemos hacer si buscamos bots a favor de Corbyn? Acá algunas ideas:

¿Cómo definimos ‘bots’?

La mayor parte del trabajo que se ha hecho en detección de bots se ha enfocado en reunir números a partir de una serie de características, como seguidores, amigos y años de las cuentas. Aunque funciones como estas pueden ser reveladoras, el enfoque de índices puede ser demasiado rígido al asumir que todos los bots parecen iguales. Mi trabajo, por contraste, ha demostrado que cada grupo de bots es particular, con diferentes características que los clasifican como falsos.

Pero tampoco es el caso que toda la actividad automatizada venga de cuentas que no son humanas. Además de cuentas operadas exclusivamente por software, hay casos reportados de cuentas ‘cíborg’ operadas conjuntamente por personas, y cuentas legitimas para ser usadas en campañas automatizadas. Estas cuentas parecen ser normales en parte, y solamente muestran escaso o esporádico comportamiento no natural.

Bot o no, una propiedad de las cuentas automatizadas que intervienen en campañas es más inalterable, porque está vinculada directamente a su valor y es costoso evitarla: publican mucho. Crear un gran volumen de charla que promueve tu agenda es el objetivo de una campaña automatizada en medios sociales. Pero las dos únicas maneras de hacer eso son (1) tener pocas cuentas que publiquen mucho o (2) tener muchas cuentas que publiquen poco. Esto último es más costoso. Así, las publicaciones frecuentes son generalmente un buen punto de inicio en la búsqueda de cuentas sospechosas.

Sobre esta idea, el Instituto de Internet de Oxford ha propuesto una definición para quien publica muchos tuits: cuenta que tuitea más de 50 veces al día en promedio. Pero ni este parámetro es perfecto, pues a veces pone una marca a los más prolíficos tuiteros entre los periodistas, por ejemplo. Otros investigadores prefieren límites más estrictos. Pero la definición de Oxford es mayormente correcta, factible y creíble.

¿Cuántos tuiteros frecuentes interactuaron con las cuentas de Corbyn y May?

Al buscar redes de cuentas automatizadas, se necesita información sobre actividad, usuarios, seguidores y amigos. En el caso de Twitter, esto significa hacer varias llamadas al API de Twitter, la interfaz de programación de aplicaciones (es decir, sistemas para hacer solicitudes de datos a webs programadas).

Hay dos API desde donde se pueden recuperar los tuits sobre un tema: API de búsqueda y API de transmisión. Ambas toman un término de búsqueda como entrada y presentan tuits que tienen ese término en su texto. Por ejemplo, si buscamos en las cuentas de ‘@jeremycorbyn’ y ‘@theresa_may’, podemos recopilar una muestra de tuits que mencionaron esas cuentas, incluidos retuits.

Cada API tiene ventajas y desventajas. Por ejemplo, la API de búsqueda, presenta una muestra incompleta de tuits que pueden no representar totalmente cuentas que parecen ser spam. Sin embargo, es la única API que permite encontrar tuits ya publicados, y por eso la uso aquí.

Generé dos muestras al azar de 5,000 cuentas que mencionaron la cuenta de Twitter de Corbyn o de May entre el 25 de mayo y el 5 de junio.* Entonces, abrí la cronología de ambas cuentas con la API de cronología de Twitter y calculé su frecuencia diaria promedio de tuits. (En teoría, se puede calcular una frecuencia estimada si se divide el estado total de la cuenta entre el número de días desde su creación. Sin embargo, este método se arriesga a arrojar falsos negativos en casos donde las cuentas no estuvieron activas por mucho tiempo o si borraron sus tuits.)

Casi el 7 % de quienes mencionaron a Corbyn encajan en la definición de Oxford de tuitero que publica muchos tuits. Pero, debido a su productividad, estas cuentas publicaron más de 19 % de las menciones de la muestra de Corbyn. En otras palabras, un grupo proporcionalmente pequeño de tuiteros frecuentes publicó casi una de cada cinco de las menciones y retuits de muestra de Corbyn.

¿Qué hay de May? Quizá sorprendentemente, quienes mencionaron a la primera ministra tuvieron mucha mayor participación (más del 10 %) de cuentas que encajan en el parámetro de alta frecuencia de Oxford. Aun así, a pesar de ser quienes más la mencionaron, los tuiteros frecuentes publicaron solamente el 22 % de menciones y retuits de May —apenas más que lo que generaron las menciones automatizadas de Corbyn.

Estas cifras son particularmente notables dado el posible sesgo de la API de búsqueda contra cuentas spam y el hecho de que un estudio anterior de Oxford encontró menores de actividad de alta frecuencia con API de transmisión.

¿Qué tuiteaban las cuentas?

La actividad automatizada no es muy incriminatoria por cuenta propia. Un reciente estudio de USC y la Universidad de Indiana estimó que entre 9 y 15 % de cuentas activas de Twitter son automatizadas, y tuitean de todo desde noticias a poesía posmoderna. Con ese conocimiento, es necesario ver si nuestros tuits con posible ayuda de computadoras son relevantes para las elecciones y si promueven a un candidato antes que a otro.

Si se vuelve a ver la cronología de cada cuenta, un promedio de 79 y 76 % de tuits de quienes mencionaron a Corbyn y May de manera automatizada, respectivamente, eran retuits más que contenido original. El resto de los tuits de quienes los mencionaron de manera automatizada estaban conformados de respuestas de apariencia normal.

Los principales 25 retuits de quienes mencionaron a Corbyn de manera automatizada en la búsqueda de datos fueron todos amables con el líder laborista, y 18 eran retuits del propio Corbyn. Sin embargo, los principales retuits de quienes mencionaron a May fueron todos de crítica a la primera ministra y también incluyeron varios retuits de Corbyn, que tomó la costumbre de incluir el nombre de May en Twitter en sus tuits. Pero aun después de descontar todos los retuits de Corbyn, solamente uno de los principales tuits era de apoyo a May.

El principal retuit de los tuiteros frecuentes de Corbyn:

So some Conservative came to visit my mum while I was FaceTiming her. You’re gonna wanna watch this. @jeremycorbyn pic.twitter.com/5IMB9BRqQJ
— tom (@tomosgjames) June 2, 2017

Algunos conservadores fueron a visitar a mi mamá cuando hablaba por FaceTime con/ ella. Van a ver esto. @jeremycorbyn

El principal retuit de los tuiteros frecuentes de May:

.@theresa_may Why are you missing from this statement? You can’t stand up for Britain because you won’t stand up to Trump. Weak leadership. https://t.co/e26AjMugMY
— Ed Miliband (@Ed_Miliband) June 1, 2017

.@theresa_may ¿Por qué no estás en esta declaración? No puedes defender a Gran Bretaña porque no vas a enfrentar a Trump. Liderazgo débil.

Este patrón a favor de Corbyn se reflejó en las principales etiquetas que usaron ambos grupos de tuiteros frecuentes. Entre los que mencionaron a Corbyn, cada una de las 25 principales etiquetas eran a favor de los laboristas, neutrales o no se relacionaban con las elecciones. Por contraste, las etiquetas preferidas de quienes mencionaron a May incluían #VoteLabour [vota por los laboristas], #ForTheMany [por los muchos] y #ToriesOut [fuera los conservadores].

Nada de esto es para decir que no hubo bots trabajando a favor de May. Por ejemplo, los más locuaces que respondían a Corbyn eran defensores de May. Pero era evidente un sesgo izquierdista entre los tuiteros frecuentes.

¿Hay evidencias de una red?

Como muchas de las cuentas automatizadas parecen tener la misma visión política, vale la pena preguntar si ambas muestras se superponen.

Ciertamente, la mitad de quienes mencionaron a Corbyn de manera automatizada también mencionaron a May al menos una vez, y cerca del 62 % de mencionaron a May de manera automatizada también mencionaron a Corbyn. Esto no es necesariamente sorprendente, debido a la frecuencia con que Corbyn mencionó a May. Sin embargo, hay otros factores que sugieren que las cuentas pueden estar conectadas. Otro grupo de llamadas a API —la API de amigos— producen listas de identificaciones de cuentas que representan a los amigos de cada cuenta. Armados con estas identificaciones, se puede crear tablas que describen las relaciones de las cuentas.

Más del 55 % de quienes mencionaron de manera automatizada eran seguidos por otros que mencionaron de manera automatizada, y casi el 24 % de los amigos de quienes mencionaron de manera automatizada (por ejemplo, las cuentas que siguen) fueron compartidos por al menos dos de quienes mencionaron. (Nota: probablemente estos números aumentarían si se aumentara el tamaño de la muestra.)

No está claro si la red que encontré es la misma sobre la que informó The Telegraph. Solamente 2 % de los tuiteros frecuentes tenían nombres que encajaban en el patrón descrito en el artículo de The Telegraph, un nombre seguido de ocho dígitos. Sin embargo, la escasez de esas cuentas puede deberse en parte al sesgo de la API de Búsqueda contra algunas cuentas.

Conclusión

A un punto preocupante, las cuentas de Twitter automatizadas impulsaron mensajes a favor de Corbyn y contra May en la última parte de las elecciones. Además, parece que al menos algunas de estas cuentas podrían pertenecer a la misma red.

Sin embargo, no hay nada en los hallazgos que ofrezco aquí que vincule la cuentas a la campaña laborista o cualquier otro grupo. Hasta es debatible que estas cuentas fueran movilizadas explícitamente para promover a Corbyn: se sabe que los bots interactúan arbitrariamente con el contenido en un intento de parecer más naturales. Gran parte de Twitter es política, así que se esperaría que las cuentas automatizadas interactuaran con la política en algún punto. Pero, de cualquier manera, la influencia de estas cuentas en la conversación electoral es la misma.
Informar sobre contenidos comerciales digitales que aparentan ser espontáneos es un trabajo importante. Los bots no pueden votar, pero el apoyo que se percibe a favor de un candidato es una influencia crítica para quienes sí votamos. Los periodistas siguen tomando ideas de medios sociales como Twitter, y, con la reducción de las salas de redacción y con el valor cada vez mayor del tiempo de los reporteros, no parece que eso vaya a cambiar.

Hemos empezado a pensar en cómo buscar la automatización en medios sociales, pero ¿cómo podemos preparar a periodistas para que hagan este trabajo? Tal vez los medios de comunicación deban asociarse con universidades para enviar a estudiantes graduados en ciencias de la computación a unirse a salas de redacción durante las elecciones. Pero, por supuesto, la automatización también ocurre fuera de las elecciones. La mejor respuesta puede ser establecer asociaciones entre investigadores, programadores y periodistas de datos para elaborar herramientas fáciles de usar y organizar actividades de capacitación.
Cualquiera sea la solución, debemos encontrarla. No podemos darnos el lujo de ser superados por bots.

* Este análisis se basa en casi 460,000 tuits recuperados de llamadas twarc a la API de Búsqueda de Twitter. Todas las menciones a Corbyn se hicieron entre el 25 de mayo y el 4 de junio, y todas las menciones a May se hicieron entre el 31 de mayo y el 5 de junio. Se necesitaron muestras aleatorias de cuentas más pequeñas, porque se basaron en llamadas adicionales a la API de cronología de Twitter para determinar cantidad de tuits de las cuentas.

Via