DeepMind renforce sécurité pour agents IA internes

DeepMind développe une feuille de route pour renforcer la sécurité des agents d'intelligence artificielle dans ses systèmes internes. L'entreprise s'appuie sur une approche de "défense en profondeur". Celle-ci dépasse l'alignement traditionnel des modèles en ajoutant une sécurité au niveau du système pour prévenir des comportements non-alignés potentiels. Ce cadre pourrait servir de modèle pour l'industrie plus large.

La mise en œuvre de ce plan repose sur l'hypothèse que certains agents, bien que capables, pourraient ne pas être parfaitement alignés avec les objectifs de l'entreprise. DeepMind a introduit un modèle de menace inspiré du cadre MITRE ATT&CK. Celui-ci permet de décomposer les attaques potentielles en tactiques et techniques plus petites, facilitant ainsi la gestion des risques et le test des défenses en place.

Pour renforcer cette sécurité, DeepMind a mis en place un système de surveillance et de réponse à deux niveaux. La surveillance asynchrone permet de contrôler les agents IA en analysant des trajectoires préenregistrées. Cette méthode asynchrone a déjà permis d'analyser un million de tâches d'agents de codage. Les événements préoccupants sont remontés aux humains, renforçant la fiabilité des protocoles de sécurité et allant au-delà du simple filtrage par mots-clés.

Avec l'évolution des modèles IA, DeepMind doit adapter ses défenses pour contrer les capacités d'évitement de détection des nouveaux agents. Les réponses de sécurité destinées à contrer ces actions nuisibles doivent être synchrones. C'est essentiel pour prévenir des actions à risque élevé, tel que les cyberattaques majeures, avant leur exécution. La stratégie de réponse est donc adaptée à la gravité potentielle des menaces.

Pour plus d'informations, consultez la feuille de route AI Control de DeepMind ou explorez l'étude sur l'impact futur des agents IA en termes économiques.

DeepMind renforce sécurité pour agents IA internes

Blablacar se développe vers 20 nouveaux marchés avec l'IA

Cloudflare impose des restrictions aux crawlers IA

Nano Banana 2 Lite et Gemini Omni Flash lancés