Hay una idea tranquilizadora que muchos hemos dado por buena, casi por inercia: si un modelo se entrena con cantidades descomunales de datos, unas pocas gotas de «veneno» deberían «diluirse» hasta volverse irrelevantes. El problema es que esa intuición tan humana y tan de sentido común parece ser sencillamente falsa.
Y no lo dice un tweet alarmista ni una demo oportunista: lo demuestra un trabajo conjunto de Anthropic, el UK AI Security Institute y el Alan Turing Institute que, por su diseño y su escala, merece cierta atención. La tesis, muy incómoda y profundamente desestabilizadora, es que una cantidad pequeña y fija de muestras maliciosas puede implantar una puerta trasera en modelos de lenguaje, independientemente de su tamaño.
El ...