El movimiento #Cuéntalo vió la luz una mañana a fines de Abril de 2018, invitando a las mujeres a compartir en Twitter las experiencias sufridas por la violencia machista. En pocos días el movimiento generó más de dos millones y medio de tuits y retuits de historias contadas por sus protagonistas.
Los archiveros Vicenç Ruiz y Aniol María recogieron los tuits en tiempo real, y junto con la periodista Karma Peiró vinieron a BSC a hablar de cómo podíamos estudiar y visualizar este dataset.
Los tuits van desde lo incómodo hasta lo desgarrador, un relato en primera persona detrás del otro, ocasionalmente sacudidos por alguna mujer que lo cuenta por otra que no tiene ordenador, que no lo quiere contar, o que no puede porque fue asesinada.
Los tuits son muchos, y cada uno de ellos es importante. Nuestra meta era estudiarlos estadísticamente y visualizarlos para transmitir la impactante magnitud del fenómeno, intentando respetar a la vez la identidad única de cada relato. Cristina Fallarás, la periodista que comenzó e impulsó el movimiento viral y con la que empezamos a colaborar luego en el proyecto, nos agregó una meta más: Así como #Cuéntalo, ella esperaba que la visualización golpeara e impresionara, pero que siguiera siendo un espacio seguro. Un lugar sin miedos ni vergüenzas donde las víctimas puedan contar en primera persona testimonios brutalmente honestos de los horrores vividos, muchas de ellas contándolo por primera vez en su vida. Un lugar donde se pueda decir lo que se oculta, porque aunque pase a diario lo que no se nombra no existe.
A través de una serie de próximos artículos, trataremos de explicar cómo tuvo lugar el proceso de análisis y diseño de la visualización: Desde la recolección limpieza y tratamiento de los datos, hasta la conceptualización de la visualización final. En este primer artículo hablaremos de la visualización de datos.
Los datos
El archivo original que recibimos contenía 2,1 millones de tuits en formato JSON, escritos entre el 27 de Abril y el 12 de Mayo de 2018. A este archivo le faltaban dos días que luego pudimos recuperar parcialmente, hasta llegar a los 2,75 millones de tuits. Cada tuit tiene una gran cantidad de propiedades que hemos analizado en un estudio estadístico que contaremos en el próximo artículo del blog; aquí sólo nos focalizaremos en lo que utilizamos para la visualización. Una distinción importante es que hubo 160 mil tuits con contenido escrito por usuarias, mientras que el resto de participaciones son retuits y likes. Aunque los retuits son cruciales para dar amplificación al movimiento (y que asumimos como un apoyo implícito), el contenido que queremos visualizar es el de los tuits que llamamos originales.
Estos 160 mil tuits,mayoritariamente anónimos, se pueden descomponer en aquellos que dan testimonio de sus propias vivencias, las que lo cuentan en nombre de alguien que no se atreve o no puede hacerlo (por ejemplo, porque no tienen internet, o porque fueron asesinadas), y aquellas que expresan palabras de asombro o apoyo al movimiento. Y además de los tuits inclasificables (publicidad, imágenes), un pequeño grupo de trolls o gente haciendo bromas.
Por el otro lado, está el contenido escrito. ¿Que tipo de testimonios se contaron? Por el volúmen de los datos, etiquetar esto era una tarea muy compleja de realizar, pero sería muy valioso. Al fin y al cabo, entre el 70 ó 80 % de los casos de violación en España no se denuncian. Y este es el punto más importante del movimiento #Cuéntalo: sacar a la luz aquellas cosas que pasan a diario y no están computadas en ningún registro, ya sea por miedo, o peor aún, porque la sociedad no lo cree.
Para poder categorizar los 160 mil tuits originales, 16 personas de nuestro equipo clasificamos manualmente el contenido de 10600 de ellos escogidos aleatoriamente. Como el objetivo era preparar un programa de ordenador que los clasifique automáticamente, utilizamos la mayor cantidad posible de categorías que se pudieran procesar correctamente.
Lo primero que categorizamos fue quién cuenta el tuit: Un testimonio en primera o en segunda persona, una expresión de apoyo o solidaridad, los opositores, y algunos tuits aleatorios (por ejemplo otros idiomas, o gente que hizo publicidad de algunas cosas aprovechando que el hashtag estaba trending). Estas categorías son autoexcluyentes. Desgraciadamente hubo mucha gente que contó su historia con imágenes o capturas de pantalla, pero como no podemos leerlas quedaron en la categoría “otros”.
Después, categorizamos el contenido de los tuits. Encontramos relatos que van desde la sensación de miedo e inseguridad de las mujeres en el día a día, hasta los asesinatos con tortura puntual o reincidente, pasando por todo tipo de agresiones (físicas, verbales, virtuales), incluyendo maltrato y violaciones. Para facilitar el proceso de entrenamiento (más detalles en el próximo artículo) optamos por una categorización lo más simple posible, lamentablemente a costa de la precisión en el lenguaje que nos gustaría tener (o que tendríamos si pudiéramos leer todos los tuits). Aspectos como la frecuencia, duración en el tiempo o grado de crueldad impartido a las víctimas no han sido tenidos en cuenta, no porque descartemos la trascendencia de estos factores, sino por motivos técnicos.
Otros factores que dejamos para profundizar en un próximo estudio son la edad de las víctimas, edad de los agresores, tipo de agresor (desconocido, amigo, familiar…), y muchas cosas más. Nuestra categorización es por ahora imperfecta y mejorable desde varios puntos de vista como el legal o el social, en el que se puede argumentar que ciertos tipos de agresión sexual son violaciones. Discutimos ampliamente y por mucho tiempo en esta etapa, sobre todo preocupados por no minimizar o simplificar la gravedad de los hechos.
Inicialmente, las categorías que utilizamos fueron: Asesinato, violación, agresión sexual, maltrato, acoso, miedo (mención explícita), y emociones de asco, tristeza, rabia, o indignación. Como ya hemos dicho, esta categorización es imperfecta por simple y aún así resultó demasiado difícil para nuestro algoritmo, así que para la visualización utilizamos una agregación aún mayor con solo tres categorías: agresiones físicas (asesinato, violación, agresión sexual, y maltrato), agresiones no físicas (acoso, miedo), y reacción emocional (asco, rabia, etc.). Sin embargo, el trabajo de categorización manual no fue en vano, ya que por la metodología que utilizamos pudimos estimar los porcentajes de tuits similares que se encuentran en el dataset completo. De los 10632 tuits etiquetados manualmente, 31,03% son en primera persona, 8,91% en segunda persona, 40,18% son tuits de apoyo, 3,12% son tuits en contra del movimiento, y 16,69% son otros. Si extrapolamos estos porcentajes al total de los tuits, tendríamos un error que va desde el 1,5% para los que están en contra, 3% para los testimonios, y casi 6% para los tuits de apoyo.
Dentro de los tuits que son testimonios en primera o en segunda persona (casi el 40%), 3,92% hablan de un asesinato, 5,59% de violación, 11,18% de agresión sexual, 6,27% de maltrato, 14,19% de acoso, 11,78% de miedo, y 19,23% de asco/rabia/tristeza (los porcentajes no suman 100 porque en el mismo tuit se puede hablar de varias cosas). De nuevo, nuestra metodología nos permite extrapolar estos porcentajes al global con unos márgenes de error del 1% en el caso de asesinatos y violaciones, 3% para agresiones, maltratos y acoso, y 6% para las categorías de miedo e indignación.
Está muy estudiado que los seres humanos entienden mejor las frecuencias que los porcentajes, así que escribimos los mismos número de arriba de la siguiente manera:
Concluimos esta sección comentando que nuestro algoritmo fue capaz de etiquetar los tuits de la base de datos con una precisión del 80% para las categorías de quién escribe (primera o segunda persona, etc.), y con una precisión de alrededor del 70% para la temática de los tuits (las tres categorías simplificadas). En general, bastante bien para el reducido tamaño de los datos de entrada (algoritmos más exactos trabajan con cientos de millones de frases), pero con un error lo suficientemente grande como para esperar que hubiera varios tuits muy mal clasificados. Es decir, en este punto esta predicción es más una buena sugerencia que una conclusión final, e indica que no deberíamos basar la visualización demasiado precisamente en este aspecto.
La visualización
Comenzamos discutiendo imágenes y temas que nos sirvieron de inspiración (recopiladas a lo largo de todo el proceso), a lo que se sumaron bocetos de las ideas que iban surgiendo.
Referencias que combinaban algunas ideas de empatía. Desde la visión de rostros que expresaban tristeza o rebeldía, hasta los representados a base de palabras. En último lugar el abismo entre la zona segura, y la zona de inseguridad, provocando a la vez sentimientos de empatía y magnitud.
Visualizaciones de datos de temas relacionados.
Inicialmente teníamos el preconcepto de que habría muchos hilos de conversación y que podríamos representarlos en un árbol como este:
Gráfica de un árbol, pero los datos no tenían esta estructura.
Sin embargo, había mucho más volúmen que conexiones, y no se llegaba a algo visualmente atractivo.
Pensamos entonces que una narrativa lineal en el tiempo mostraría el fenómeno viral y su magnitud. Estos son la cantidad de tuits por minuto (la parte más alta son unos mil) desde el 27 de abril al 13 de mayo:
Jugamos un tiempo con la idea de que parecía la mitad de una onda sonora, el movimiento como un grito que se escuchó en todo el mundo:
Metáfora de onda de sonido: Tu voz se escucha. A la izquierda, una forma de onda real como mock up. A la derecha, los datos reales de #Cuéntalo con esta estética Pero la metáfora del grito no terminó de convencernos, y la línea temporal nos limitaba la posibilidad de en el futuro permitir que la gente agregue tuits. Era de alguna manera congelar el evento en el tiempo, no permitir que crezca. Esta visualización si que nos permitía incluir la información de la ubicación de los tuits (por país al menos)
Cantidad de tuits por minuto (eje vertical) como función del tiempo, coloreados por país. Notar como el movimiento comienza en España (color rojo) los primeros dos días, y luego salta a latinoamérica, sobre todo en Argentina (verde)
Sin embargo, estas visualizaciones lineales agrupadas perdían la individualidad de cada tuit, algo que era importante conservar.
Para poder acomodar nuevos tuits, comenzamos a explorar representaciones circulares que permitieran periodicidad.
Inspiración inicial para la representación circular. Las referencias externas seleccionadas, contemplan desde una categorización compleja, hasta la representación anidada (a modo de los anillos del tronco de un árbol) para representar los diferentes días el fenómeno. En el tercer ejemplo se combina con una representación espacial (de referencia a los países implicados en el movimiento)
En nuestras primeras pruebas comenzamos poniendo las horas del día alrededor del círculo, y acomodando los tuits desde adentro hacia afuera en orden de llegada. Los resultados con nuestros datos evocan la figura del eclipse o del iris de un ojo humano:
Bocetos intermedios que jugaban con el diámetro (orden de llegada) y el número de tweets (de manera apilada). En algunos de estos ejemplos se puede ver el coloreado por días o por países Esta representación es muy versátil y permite incorporar otras dimensiones como el país (color) o cantidad de retuits de cada relato, además de permitir explorar los tuits uno por uno.
Representación radial tipo mancha con más espacio en el centro. El color representa los países de origen, y el tamaño la cantidad de retuits de cada tuit.
Para salir de la forma de mancha y aprovechar mejor la ubicación radial de cada punto, probamos dar un poco de estructura ordenando los tuits desde dentro hacia fuera en anillos para cada día, con el tamaño de los anillos fijo o proporcional a la cantidad de tuits de ese dia:
Los resultados son interesantes pero tenían también el problema de que pasaría con tuits nuevos que agregara la gente en el futuro– ¿donde les tocaría estar?
En este punto, tuvimos una reunión con Cristina Fallarás que nos devolvió a los orígenes de hacia donde teníamos que orientar el mensaje: #Cuéntalo, además de un evento de impacto social, es un espacio seguro donde las mujeres podían contar su historia. Decidimos entonces usar la coordenada radial para representar de alguna manera esta unión, las mujeres que cuentan en el centro de un corro, con las que las apoyan por alrededor, y el resto del mundo (los contrarios y los aleatorios) por fuera.
Con estos cambios, creamos los primeros bocetos de la solución final:
Bocetos finales en los que se empieza a trabajar con el tiempo en sentido horario y la ubicación de los tweets en las coronas interior y exterior siguiendo la clasificación automática en categorías de “testimonio” (aro central), “apoyo” (segundo aro), y “otros” por fuera.
Nuestro algoritmo de clasificación de quién escribe el tuit nos permitió también una última mejora: Eliminamos de la representación aquellos tuits que estamos al menos 90% seguros de que son aleatorios (como dijimos, tuits que sólo contienen imágenes, tuits con bromas, y hasta gente que aprovechaba la viralidad del hashtag para hacer publicidad). En nuestra visualización, al aplicar este filtro solo nos deja con 100 mil tuits.
Antes de llegar a la representación final, recordemos los diferentes aspectos que queríamos poner de manifiesto a la hora de visualizar los datos:
– La magnitud: Estas cosas ocurren, y más de lo que piensas. Son cifras que deberían alarmarnos, sobre todo porque detrás de los tuits hay todavía muchas historias anónimas de mujeres que aún no se atreven a contarlo.
– La empatía: Esto es algo que probablemente también te ocurrió a ti, o podría ocurrirle en cualquier momento a alguien de tu entorno. Es la empatía lo que nos ayuda a entender el sufrimiento de los otros, su miedo, como un miedo cercano y nos empuja a intervenir y a dejar de callar.
– La diversidad y atrocidad de los crímenes. Asesinatos, violaciones y tortura, delitos contra menores y delitos que vienen de la mano de familiares, amigos, o desconocidos.
– Esperanza de que las víctimas encuentren un entorno seguro donde no son juzgadas o cuestionadas, y que esto impulsará a que muchas más lo cuenten. Este entorno seguro se ve reforzado por los mensajes de aquellos que sin haber sido víctimas, denuncian la situación y se enfrentan a los que intentan minimizar la gravedad del asunto o de atenuar el impacto culpando a las propias víctimas de los actos de otros. Solo legitimando el sufrimiento de muchas se podrá reformar la justicia para que refleje lo que ocurre, y así cambiar la sociedad.
Visualización final de #cuéntalo
La visualización final (que se puede ver aquí ), después del largo proceso de diseño, se inclinó finalmente por la representación circular para evocar el círculo de seguridad o protección. Nuestra estimación de quién cuenta un tuit nos sirve para representar a los testimonios en el centro o arco interior, de alguna manera “protegidos” por el resto de tweets de apoyo a la causa. Los otros, más ajenos, se acomodan lejos del centro. Cada uno de los tuits (testimoniales o de apoyo) se representan con un punto en el espacio, formando una nube que abruma por su magnitud, dándonos idea de la amplitud y repercusión del fenómeno. La individualidad de cada tweet se conserva gracias a la exploración, que permite ver el contenido de cada relato al pasar el mouse por encima. La representación horaria en el círculo nos recuerda que esto es algo que pasa a todas horas del día, y en todo el mundo. Los colores brillantes, sobre fondo oscuro, representan que hay una luz en la oscuridad. La paleta de color escogida (de blanco a rojo) habla de la violencia del tema, y muestra un hallazgo analítico muy interesante: cada tuit está coloreado de manera independiente de su posición, con los puntos más rojos donde más estimamos que se habla de alguna agresión física y los más blancos de agresiones no físicas u otros. El hallazgo es que la mayor parte de tuits que hablan de agresiones físicas coinciden con los tuits ubicados en el centro por ser testimonios. El círculo central, donde las mujeres cuentan su historia, se tiñe de rojo porque es donde están los relatos más desgarradores.
La leyenda de la visualización intenta ayudar a la audiencia a interpretarla:
Equipo
Desde el BSC trabajaron en este proyecto (en orden alfabético) Sol Bucalo, Luz Calvo, Carlos Carrasco, Fernando Cucchietti, Artur García Saez, Carlos García Calatrava, David García Povedano, Juan Felipe Gómez, Camilo Arcadio González, Guillermo Marín, Irene Meta, Patricio Reyes, Feliu Serra y Diana Fernanda Vélez. Además, para la clasificación colaboraron María Coto y Laura Gutierrez.
Epílogo: Otras opciones no exploradas
En el proceso de selección de temas que podíamos visualizar quedaron en el tintero opciones muy importantes, como por ejemplo hablar de la edad de las víctimas: más de tres mil tuits reportan víctimas con una edad inferior a los 18, muchas de ellas hoy son adultas y lo cuentan por primera vez.
O focalizar en aquellos tuits en segunda persona que hablan de una mujer asesinada (10% de los testimonios), y que empiezan o terminan con una frase “Lo cuento yo porque … no puede”. Esta es un ejemplo de posible visualización con todos los nombres que aparecen en esa frase: mujeres asesinadas de las que solo tenemos hoy un relato.
O, con estos nombres, hacer una nube de palabras con el tamaño proporcional a la cantidad de veces que aparecen: