Tay, muestras no-aleatorias y racismo
24 March 2016

La historia de las 17 horas de vida de TayTweets refleja, según uno lo mire, lo mejor o lo peor de Twitter. Microsoft desplegó ayer un chatbot dirigido a interactuar con adolescentes que, como se decía en el anuncio, iría aprendiendo a medida que los usuarios interactuasen con él. El desenlace parece inevitable: en unas horas, el chatbot empezó a generar contenidos racistas que reflejaban las conversaciones que los usuarios tenían con ella.

Lo ocurrido con Tay nos recuerda que una de las mayores dificultades en el estudio de las redes sociales tiene que ver con que las muestras que obtenemos de nuestra observación de Twitter, Facebook, Snapchat, … provienen de comportamientos estratégicos. Los tweets de los que Tay ha aprendido son una muestra no-aleatoria de las conversaciones del grupo de interés al que Microsoft se intentaba dirigir. Si el modelo de inteligencia artificial fuese capaz de reconocer ya no el contenido de los tweets (recordemos lo difícil que es asociar significado a normas sociales) sino, por ejemplo, la locación ideológica de las preferencias de los usuarios que alimentaban mensajes racistas, tal vez podría haber aprendido que eran datos a los que debía asignarle baja prevalencia. Sin embargo, eso requeriría conocer con más exactitud el proceso generador de interacciones con el bot, algo que seguramente esté más allá de las habilidades de Tay. En todo caso, es otro recordatorio más de que un modelo es solo tan bueno como los datos que recibe.