volvervolver
Inteligencia artificial en Ciberseguridad

Por: Federico Pacheco
(I+D+I Manager)

COMPARTIR

Referencias

[1] Denning D. E., “Framework and principles
for active cyber defense”.
computers & Security. 2014; 40:108-13.

[2] Li J., Kendall G., John R.,
“Computing nash equilibria and evolutionarily
table states of evolutionary games,”
IEEE Transactions on Evolutionary Computation,
vol. 20, no. 3, pp. 460–469, 2015.

[3] Xu S., Lu W., Li H.,
“A stochastic model of active cyber defense dynamics”.
Internet Mathematics, 11(1):23–61, 2015.

[4] Zheng R., Lu W., Xu S.,
“Active cyber defense dynamics exhibiting
rich phenomena”, Proceedings of the
2015 Symposium and Bootcamp
on the Science of Security, Abril 21, 2015
(pp. 1-12).

[5] Schneider-Mizell C., Sander L.,
“A generalized voter model on complex networks”,
Journal of Statistical Physics, 136(1):11, 2008.

[6] Liu X., Zhang H., Zhang Y., Shao L., Han J.,
"Active Defense Strategy Selection Method
Based on Two-Way Signaling Game",
Security and Communication Networks,
vol. 2019, Article ID 1362964, 14 pages, 2019.

[7] Hu H., Liu Y., Chen C., Zhang H., Liu Y.,
“Optimal decision-making approach for
cyber security defense using evolutionary game,”
IEEE Transactions on Network and
Service Management,
vol. 17, no. 3, pp. 1683–1700, 2020.

[8] Liu Y., Chen H., Zhang H., Liu X.,
"Defense Strategy Selection Model Based
on Multistage Evolutionary Game Theory",
Security and Communication Networks”,
Article ID 4773894, 2021.

Ciberdefensa Activa: Aproximaciones teóricas

Enfoques de ciberdefensa activa

De la misma manera que ocurre con ámbitos de estudio, existen aproximaciones puramente teóricas y otras puramente prácticas que, en muchos casos, presentan divergencias importantes, especialmente cuando su grado de madurez no es lo suficientemente alto. El caso de la ciberdefensa activa, por encontrarse entre las áreas de conocimiento más modernas de la ciberseguridad, no cuenta con referencias de facto ni fuentes autoritativas, más allá de sus analogías con el ámbito militar. A continuación veremos los encuadres teóricos más actuales.

Aproximaciones teóricas

Desde el punto de vista defensivo, un sistema que se asume seguro, lo es mientras el modelo de adversario y las hipótesis de confianza se cumplan en la práctica. Si el defensor puede seleccionar adaptativamente una estrategia específica intentando predecir las acciones del atacante e interrumpir o bloquear el proceso, maximizando al mismo tiempo sus propios beneficios, entonces se entra en el terreno de la defensa activa. Asimismo, puede decirse que la ciberdefensa activa (CDA) queda caracterizada por cuatro rasgos: el alcance de los efectos (internos/externos), el grado de cooperación (conocimiento y consentimiento), el tipo de efecto (compartir, recolectar, bloquear, prevenir) y el grado de automatización (automática o manual)[1].

En la contienda entre el ataque y la defensa, la eficacia de ésta última no sólo depende de su propia acción, sino que también está influenciada y limitada por la acción de la contraparte. La principal dificultad es seleccionar la estrategia de defensa óptima en un entorno de confrontación con información limitada. Las características de los objetivos contrapuestos, la dependencia estratégica y las relaciones no cooperativas en el ataque y la defensa, están en consonancia con la teoría de juegos, es decir, con la búsqueda de la decisión óptima en un entorno de conflicto.

Los enfoques desde la teoría de juegos se han utilizado en los últimos años para capturar las interacciones entre adversarios y defensores, con el fin de modelizar la toma de decisiones estratégicas para maximizar beneficios teniendo en cuenta los espacios de movimiento de la contraparte. Esto llevó a la propuesta de modelos teóricos de juegos no cooperativos, que reconocen la posibilidad de influir en el comportamiento del otro. Los sistemas de múltiples participantes optimizadores convergen, en el mejor caso, al estado de equilibrio de Nash, que denota las mejores estrategias para ambos. Las decisiones a las que se llega con este mecanismo ayudan al defensor a asignar recursos, equilibrar los riesgos percibidos y tener en cuenta los métodos de incentivo subyacentes[2].

No obstante, desde el punto de vista puramente teórico la defensa activa no es para todos los casos una mejor aproximación que la defensa pasiva, ya que eso solo se puede dar ante la situación de conocimiento perfecto del adversario, y la situación se complejiza aún más si se introducen elementos de engaño, como es el caso de la CDA. Si bien no se pretende profundizar en la efectividad de los distintos modelos existentes, se detallarán a continuación las características y aplicaciones principales para obtener una comprensión del estado de conocimiento en la materia.



Modelos basados en Teoría de Juegos

El primer modelo matemático estocástico para estudiar la eficacia de la CDA fue propuesto en 2015[3] y fue ampliado el mismo año mediante la idea de que la dinámica puede exhibir fenómenos de caos y bifurcación. El caos se refiere a la imposibilidad de predecir el estado global de una situación, dada la alta sensibilidad a la precisión de la estimación del estado inicial. La bifurcación se refiere al punto crítico donde cambia la estabilidad de un sistema y surge una solución periódica, que en este caso se presenta como fenómeno cuando el poder de ataque o defensa varía en determinados regímenes. Tanto el caos como las bifurcaciones implican la inviabilidad de medir y predecir con precisión ciertas circunstancias, y sugieren que el defensor debe manipular la dinámica para evitar dichas condiciones inmanejables en las operaciones reales[4].

De existir un determinado punto de equilibrio bajo cierta defensa, se puede cuantificar su eficacia mediante el concepto de efectividad porque la dinámica converge a dicho punto. Además, la estabilidad de un equilibrio refleja el efecto de las perturbaciones que pueden ser causadas por manipulaciones al estado global inicial. Así, un pequeño cambio en el estado inicial en los parámetros del modelo o en la estructura, puede conducir a un cambio sustancial en la dinámica. Desde una perspectiva más amplia, la dinámica de la CDA puede verse como la generalización no lineal del llamado modelo del votante[5] para redes complejas, que considera la dinámica caótica en redes discretas (modelo de contagio por imitación limitado en el tiempo en redes aleatorias). En este sentido, la problemática se dificulta al tener que resolver la caracterización de equilibrios no homogéneos, y encontrar un marco para modelar y cuantificar la CDA desde una perspectiva integral, en lugar de modificar y analizar la seguridad de los componentes o bloques constitutivos.

Vale destacar que los modelos teóricos toman como estructura las interacciones a través de redes, o bien dentro de un sistema (interacción entre el malware y el resto del software). Los inconvenientes fundamentales encontrados en general en la teoría de juegos aplicada a la CDA es que su funcionamiento es adecuado para un determinado número de variables, pero a medida que aumenta su orden de magnitud, los modelos dejan de ser lo suficientemente precisos.

Los modelos más modernos desarrollados a partir de 2019, proponen juegos de señalización bidireccional en los que, a partir de la solución de un equilibrio bayesiano perfecto (extensión del equilibrio de Nash para juegos con información incompleta), se presenta un algoritmo de selección de estrategias de defensa. Estos son juegos finitos formados por varios juegos de señalización básicos, donde atacante y defensor actúan alternativamente como emisores y receptores de señales y la solución de equilibrio de un solo rol ya no es aplicable. Siendo la solución de equilibrio bayesiano perfecto la estrategia óptima para el jugador, el defensor debe determinar su estrategia de CDA basándose en su rol y en el equilibrio del juego. En el proceso de confrontación continua de varias etapas, la parte defensora puede modificar gradualmente la motivación y la preferencia de comportamiento del atacante utilizando el mecanismo de aprendizaje de estímulo-respuesta, reducir el impacto de la señal de engaño del atacante y aplicar una estrategia específica para maximizar el rendimiento esperado. De esto se deduce que las señales de engaño pueden mejorar el rendimiento tanto del ataque como de la defensa, por lo que la selección de la estrategia es la clave de la eficacia de la defensa. En condiciones de enfrentamiento con información limitada, la estrategia óptima del defensor es difícil de determinar; sin embargo, un modelo de juego de señales permite resolver este problema[6].



La teoría de juegos tradicional asume que ambas partes están en situación de información completa (los jugadores conocen la información de todo el entorno) y racionalidad completa (los jugadores pueden elegir su mejor estrategia después de obtener la estrategia del otro y sus resultados. La teoría de los juegos evolutivos parte de la condición de información opaca, toma el mecanismo de aprendizaje como núcleo, e influye en el comportamiento de selección a través de diversos factores (experiencia previa, aprendizaje, e imitación del comportamiento), lo que expresa mejor el proceso. Sin embargo, su aplicación sigue presentando desafíos, como la necesidad del cálculo manual de los parámetros introducidos y su cuantificación por parte de expertos (no existen métodos de cálculo automático). Este modelo no puede retroalimentar eficazmente la información de los fallos a la siguiente etapa del juego, lo que conduce a las deficiencias del algoritmo de selección de la mejor estrategia de defensa en términos de tiempos, precisión y eficiencia.

A fin de ampliar dicho horizonte, desde 2020 se propusieron varios modelos evolutivos dinámicos bayesianos multietapa para abordar la dificultad de seleccionar la estrategia de defensa óptima. Luego se introdujo un factor de intensidad de selección para mejorar la ecuación dinámica de replicación de cada etapa, y aumentar la aleatoriedad del proceso de evolución. Más recientemente, para mejorar la previsibilidad del juego de ataque y defensa, se propuso un modelo basado en la llamada dinámica de respuesta cuantal (QRD) que introdujo parámetros en el juego evolutivo para describir la racionalidad de los lados de ataque y defensa. La ecuación dinámica de replicación es una ecuación diferencial que describe la probabilidad de que se utilice una determinada estrategia en un grupo de personas y el grado de probabilidad de que el cuerpo principal del juego elija una estrategia durante la partida. Su principio básico es que los jugadores adoptan gradualmente más estrategias con un resultado mejor que el promedio, y además puede garantizar que la estrategia estable evolutiva sea el equilibrio de Nash, obteniendo así la estrategia más beneficiosa[7].

Cuando se da una situación de fracaso de la estrategia de defensa, se reduce la precisión de muchos métodos. Para resolverlo, se ha propuesto un mecanismo de aprendizaje del valor de la recompensa, que actualiza (incentiva o castiga) automáticamente los valores de recompensa de ataque y defensa para la siguiente etapa en función de la etapa anterior, lo que reduce la probabilidad de fracaso de la estrategia de defensa. Este elemento se introdujo bajo información incompleta, y se construyó un modelo de juego evolutivo de varias etapas con un mecanismo de aprendizaje. En base a esto, se propuso un algoritmo de selección de estrategia de defensa óptima, que mejora la precisión respecto a los modelos anteriores, permitiendo superar el problema de cuantificar los incentivos y los castigos ante la racionalidad limitada de atacantes y defensores, lo que a la vez reduce la participación manual. Esto derivó en un modelo evolutivo con mecanismo de aprendizaje multietapa combinando el mecanismo de aprendizaje con un modelo de juego multietapa, y se diseñó el algoritmo de selección de estrategia óptima del modelo de juego[8].



Conclusiones

Si bien la teoría de juegos tradicionalmente permitió modelar relaciones de ataque y defensa, la característica adaptativa y la posibilidad de engaño al adversario propuesto por la ciberdefensa activa, requirieron el diseño de modelos matemáticos más complejos, que sólo en los últimos tres años lograron un sentido realista respecto a la práctica moderna de la misma.

La investigación futura en este campo se orienta a cómo añadir dinámicamente nuevas estrategias de defensa factibles y ampliar razonablemente el modelo cuando falle alguna. Además, se está trabajando en la aplicación de métodos como el aprendizaje profundo (deep learning) y el aprendizaje automático, al cálculo automático del factor incorporado. Con estos avances, es posible que contemos cada vez con mejores y más completos modelos para poder llevar a la práctica.