Artículos

¿Cuántos bots hay en Twitter? La pregunta es difícil de responder y pierde el punto

Por Kai-Cheng Yang y Filippo Menczer

Twitter informa que menos del 5% de las cuentas son falsas o remitentes de spam , comúnmente conocidos como “bots”. Desde que se aceptó su oferta para comprar Twitter, Elon Musk ha cuestionado repetidamente estas estimaciones, incluso desestimando la respuesta pública del director ejecutivo Parag Agrawal.

Más tarde, Musk suspendió el trato y exigió más pruebas.

Entonces, ¿por qué la gente discute sobre el porcentaje de cuentas bot en Twitter?

Como creadores de Botometer, una herramienta de detección de bots ampliamente utilizada, nuestro grupo del Observatorio de Redes Sociales de la Universidad de Indiana ha estado estudiando las cuentas no auténticas y la manipulación en las redes sociales durante más de una década. Trajimos el concepto de “bot social” al primer plano y estimamos por primera vez su prevalencia en Twitter en 2017.

Con base en nuestro conocimiento y experiencia, creemos que estimar el porcentaje de bots en Twitter se ha convertido en una tarea muy difícil, y debatir la precisión de la estimación podría ser un error. Aquí está el por qué.

¿Qué es exactamente un bot?

Para medir la prevalencia de cuentas problemáticas en Twitter, es necesaria una definición clara de los objetivos. Los términos comunes como “cuentas falsas”, “cuentas de spam” y “bots” se usan indistintamente, pero tienen significados diferentes. Las cuentas fakes o falsas son aquellas que se hacen pasar por personas. Las cuentas que producen en masa contenido promocional no solicitado se definen como spammers. Los bots, por otro lado, son cuentas controladas en parte por software; pueden publicar contenido o realizar interacciones simples, como retuitear, automáticamente.

Estos tipos de cuentas a menudo se superponen. Por ejemplo, puede crear un bot que se haga pasar por un ser humano para publicar spam automáticamente. Tal cuenta es simultáneamente un bot, un spammer y un fake. Pero no todas las cuentas falsas son bots o spammers, y viceversa. Proponer una estimación sin una definición clara solo produce resultados engañosos.

Definir y distinguir los tipos de cuentas también puede informar las intervenciones adecuadas. Las cuentas falsas y de spam degradan el entorno en línea y violan la política de la plataforma. Los bots maliciosos se utilizan para difundir información errónea, inflar la popularidad, exacerbar los conflictos a través de contenido negativo e incendiario , manipular opiniones , influir en las elecciones , realizar fraudes financieros e interrumpir la comunicación. Sin embargo, algunos bots pueden ser inofensivos o incluso útiles, por ejemplo, al ayudar a difundir noticias, enviar alertas de desastres y realizar investigaciones.

Simplemente prohibir todos los bots no es lo mejor para los usuarios de las redes sociales.

Para simplificar, los investigadores usan el término “cuentas no auténticas” para referirse a la colección de cuentas falsas, spammers y bots maliciosos. Esta es también la definición que Twitter parece estar usando. Sin embargo, no está claro qué tiene Musk en mente.

Difícil de contar

Incluso cuando se llega a un consenso sobre una definición, aún existen desafíos técnicos para estimar la prevalencia.

un gráfico de red que muestra un círculo compuesto por grupos de puntos de colores con líneas que conectan algunos de los puntos
Redes de cuentas coordinadas que difunden información sobre el COVID-19 de fuentes de baja credibilidad en Twitter en 2020. Pik-Mai Hui

Los investigadores externos no tienen acceso a los mismos datos que Twitter, como direcciones IP y números de teléfono. Esto dificulta la capacidad del público para identificar cuentas no auténticas. Pero incluso Twitter reconoce que la cantidad real de cuentas no auténticas podría ser más alta de lo estimado , porque la detección es un desafío.

Las cuentas no auténticas evolucionan y desarrollan nuevas tácticas para evadir la detección. Por ejemplo, algunas cuentas falsas usan caras generadas por IA como sus perfiles. Estos rostros pueden ser indistinguibles de los reales, incluso para los humanos. Identificar tales cuentas es difícil y requiere nuevas tecnologías.

Otra dificultad la plantean las cuentas coordinadas que parecen ser normales individualmente pero que actúan de manera tan similar entre sí que es casi seguro que estén controladas por una sola entidad. Sin embargo, son como agujas en el pajar de cientos de millones de tweets diarios.

Finalmente, las cuentas no auténticas pueden evadir la detección mediante técnicas como el intercambio de identificadores o la publicación y eliminación automática de grandes volúmenes de contenido.

La distinción entre cuentas no auténticas y genuinas se vuelve cada vez más borrosa. Las cuentas se pueden piratear, comprar o alquilar, y algunos usuarios “donan” sus credenciales a organizaciones que publican en su nombre. Como resultado, las llamadas cuentas “cyborg” están controladas tanto por algoritmos como por humanos. Del mismo modo, los spammers a veces publican contenido legítimo para ocultar su actividad.

Hemos observado un amplio espectro de comportamientos que mezclan las características de los bots y las personas. Estimar la prevalencia de cuentas no auténticas requiere aplicar una clasificación binaria simplista: cuenta auténtica o no auténtica. No importa dónde se dibuje la línea, los errores son inevitables.

Falta el panorama general

El enfoque del debate reciente sobre la estimación de la cantidad de bots de Twitter simplifica demasiado el problema y pierde el sentido de cuantificar el daño del abuso y la manipulación en línea por parte de cuentas no auténticas.

captura de pantalla de un formulario web
Captura de pantalla de la aplicación BotAmp que compara la actividad probable del bot en torno a dos temas en Twitter. Kaicheng yang

A través de BotAmp, una nueva herramienta de la familia Botometer que cualquier persona con una cuenta de Twitter puede usar, hemos descubierto que la presencia de actividad automatizada no se distribuye uniformemente. Por ejemplo, la discusión sobre las criptomonedas tiende a mostrar más actividad de bots que la discusión sobre los gatos. Por lo tanto, que la prevalencia general sea del 5 % o del 20 % hace poca diferencia para los usuarios individuales; sus experiencias con estas cuentas dependen de a quién sigan y de los temas que les interesen.

La evidencia reciente sugiere que las cuentas no auténticas podrían no ser los únicos culpables de la difusión de información errónea, discurso de odio, polarización y radicalización. Estos problemas suelen involucrar a muchos usuarios humanos. Por ejemplo, nuestro análisis muestra que la información errónea sobre el COVID-19 se difundió abiertamente tanto en Twitter como en Facebook a través de cuentas verificadas de alto perfil.

Incluso si fuera posible estimar con precisión la prevalencia de cuentas no auténticas, esto haría poco para resolver estos problemas. Un primer paso significativo sería reconocer la naturaleza compleja de estos temas. Esto ayudará a las plataformas de redes sociales y a los formuladores de políticas a desarrollar respuestas significativas.

Via