Noticias
OpenAI: extender el modelo ‘tiempo de pensamiento’ ayuda a combatir las vulnerabilidades cibernéticas emergentes
En un estudio reciente, los investigadores de Operai han descubierto que aumentar el tiempo de inferencia en los modelos de inteligencia artificial puede ayudar a fortalecer sus defensas contra ataques adversos. A través de pruebas con sus propios modelos O1 previa y O1-Mini, la compañía demostró que un mayor tiempo de cálculo durante la inferencia puede disminuir la probabilidad de éxito de los ataques adversos, lo que resulta en una mayor robustez.
Modelos de lenguaje grandes y la necesidad de robustez adversa
Los modelos de lenguaje grandes (LLM) están cada vez más presentes en nuestras vidas, realizando tareas autónomas y complejas. Sin embargo, la robustez adversa sigue siendo un desafío importante, especialmente a medida que estos modelos adquieren más funciones y responsabilidades. Los investigadores de OpenAI señalan que garantizar la fiabilidad de estos modelos es crucial para evitar consecuencias negativas en el mundo real.
En un nuevo trabajo de investigación, los investigadores de OpenAI probaron la robustez de sus modelos O1-Mini y O1 previa mediante una variedad de estrategias. Desde resolver problemas matemáticos simples hasta enfrentar desafíos ambiguos, los modelos demostraron una mayor resistencia ante ataques adversos cuando se les permitió más tiempo de cálculo durante la inferencia.
Matices ambiguos y defensa contra ataques
En casos de tareas ambiguas, como la detección de indicaciones de uso indebido, los modelos de IA pueden enfrentar dificultades para discernir entre información dañina y benigna. Sin embargo, los investigadores encontraron que incrementar el tiempo de inferencia ayudó a mejorar la precisión de los modelos en la detección de inconsistencias y en la defensa contra ataques.
Además, al enfrentar métodos de ataque como el jailbreaking y el red teaming, los modelos con tiempos de cómputo más altos lograron detectar y mitigar con mayor eficacia los intentos de explotación.
En resumen, este estudio destaca la importancia de considerar el tiempo de inferencia como un factor clave en la robustez de los modelos de inteligencia artificial frente a ataques adversos. La capacidad de pensar y procesar información durante un período más prolongado puede ser fundamental para fortalecer las defensas de los modelos y proteger su integridad ante posibles amenazas. Ataques sofisticados basados en vectores: Un desafío para la IA
Investigadores de OpenAi han descubierto que, a pesar de la mejora en el tiempo de inferencia, aún existen desafíos para defenderse de ataques sofisticados basados en vectores. Durante sus investigaciones, llevaron a cabo ataques de equipo rojo humano, con 40 evaluadores expertos que buscaron violaciones de políticas en diferentes niveles de tiempo de inferencia.
Evaluación de ataques de equipo rojo humano
Los equipos rojos realizaron ataques dirigidos al contenido erótico y extremista, comportamiento ilícito y autolesiones. Para garantizar imparcialidad en los resultados, se realizaron pruebas ciegas y aleatorias, con entrenadores rotados para cada ataque.
Ataque adaptativo del Programa de Modelo del Lenguaje (LMP)
En un enfoque novedoso, los investigadores llevaron a cabo un ataque adaptativo del Programa de Modelo del Lenguaje, emulando el comportamiento de los equipos rojos humanos. Este proceso iterativo permitió a los atacantes recibir retroalimentación sobre fallas anteriores y ajustar su estrategia en cada intento.
Explotando el tiempo de inferencia
Durante la investigación, OpenAi descubrió que los atacantes también están explotando activamente el tiempo de inferencia. Identificaron métodos como "piensan menos" y "nerd Sniping", que aumentan la susceptibilidad al error de los modelos de IA.
En resumen, la investigación de OpenAi destaca la importancia de desarrollar mejores mecanismos de defensa contra ataques sofisticados basados en vectores. El estudio revela la necesidad de estar alerta ante nuevas estrategias de ataque y la importancia de adaptarse constantemente para proteger los sistemas de IA.
