Predecir ataques: Aplicando la ciencia de datos en la seguridad de sistemas distribuidos

Iñaki Ladrero

hace 9 años

Cuando hablamos de seguridad en sistemas de tecnología informática deberíamos pensar como con nuestra salud, más vale prevenir que curar. Está muy bien tener defensas preparadas, sistemas de respaldo y contramedidas, pero lo mejor para tener una seguridad lo más robusta posible sería detectar los intentos maliciosos antes de que ocurran.

Gracias a la ciencia de datos, el machine learning y plataformas de big data como Spark y Kafka ahora es posible detectar usuarios y comportamientos fraudulentos mediante aprendizaje no supervisado.

desarrollando algoritmos no supervisados a gran escala nos permiten predecir vectores de ataques antes de que ocurran entre billones de usuarios y trillones de eventos. Fang Yu, CTO de Datavisor

Soluciones de seguridad preventiva

Vamos antes de ver cómo funciona a dar un paso atrás para intentar explicar cómo las soluciones tradicionales identificaban los malos comportamientos. Tradicionalmente la solución habitual estaba basada en reglas predefinidas. Por ejemplo, no se permitía que un usuario recién registrado comenzara a mandar inmediatamente un montón de emails o que empezara a transferir dinero. Como el comportamiento no era normal se escribía manualmente una regla que impidiera ese comportamiento entre los usuarios. El problema es que esta solución es reactiva. Se necesita observar qué hacen los atacantes y entonces actuar basándose en reglas. Los sistemas basados en reglas son además difíciles de mantener y por definición llegan más tarde de lo deseado ya que tiene que ser una persona quien esté observando los comportamientos y comenzar a escribir las reglas. Hoy en día, los sistemas basados en reglas siguen utilizándose pero cada vez más servicios online están migrando a una solución basada en aprendizaje de máquinas. Este sistema funciona etiquetando comportamientos no deseados y luego entrenando al modelo. La solución óptima no necesita ser supervisada, ni siquiera necesita el etiquetar los datos ni observar el comportamiento de cada usuario por separado. El funcionamiento pasa por tener a todos los datos de usuarios juntos y estudiar las correlaciones entre los usuarios. Por ejemplo, cómo estos están conectados entre sí, cómo de similares son sus acciones, qué patrones han seguido otros atacantes similares, etc.

Desgraciadamente los atacantes también han evolucionado, y han agudizado el ingenio para sortear las barreras y parches que se van solucionando. Hoy día, un atacante no opera desde una cuenta maliciosa, normalmente controlan decenas, sino miles y hasta millones de cuentas. Pueden utilizar unas cuentas para enviar spam, otras para hacer «me gusta» y otras para transacciones. Estas cuentas normalmente tienen correlaciones elevadas entre ellas ya que están controladas por robots o por individuos entrenados. Se trata de buscar correlaciones usuario a usuario. Muchos de los ataques actuales se realizan siguiendo un plan orquestado con meses de antelación y en el que participan muchos individuos con conocimientos muy avanzados, cada uno realizando una tarea super-especializada y coordinada.

¿En qué sectores se utilizan la seguridad no supervisada?

Los sectores donde se están ya aplicando este tipo de soluciones de seguridad preventiva automatizada pasan por redes sociales, juegos online, y servicios financieros. El ecosistema underground que suele dar soporte a ataques masivos suele tener a los mismos tipos de responsables. Se encuentran ya que operan desde los mismos data centers que usan, las VPN, …. Algunos individuos se especializan en registrar cuentas para usar en los ataques, otros en robos de tarjetas de crédito, otros en escribir los mensajes y preparar plantillas, … Hay muchos rasgos comunes a lo largo de los diferentes sectores de actividad de negocios.

American Express tiene un sistema de protección de fraude que gestiona las transacciones de la multinacional en todo el mundo, 1 trillón de dólares. Las decisiones tienen que estar tomadas en menos de 2 mili-segundos.

Tenemos clientes que nos mandan billones de eventos cada día

Entre esa cantidad inmensa de datos encontrar a los usuarios fraudulentos sin ningún tipo de etiquetas o marcas es un reto complicado, es como buscar una aguja en un pajar.

seguridad

También están asociados con seguridad los elementos de las redes sociales. Algunos atacantes buscan activamente ampliar su red de contactos ya que cuanto mayor sea su red más potencial tienen de spamear o cometer actos delictivos. Explorar en los datos es tarea imposible si no contamos con ayudas de análisis predictivo de patrones y herramientas gráficas que permitan de un vistazo comprender millones de registros y sus relaciones.

En esta presentación de Raffael Marty podemos saber más sobre búsqueda, exploración y visualización de datos en seguridad, y cómo hasta ahora la seguridad ha estado basada en datos pasados.