Método de inyección de instrucciones en los modelos LLM de Apple

Des chercheurs trouvent un moyen de pirater les modèles Apple Intelligence LLM pour faire ce qu'ils veulent

Les chercheurs en sécurité ont trouvé une méthode pour pirater les modèles LLM utilisés par Apple Intelligence sur un iPhone. Apple Intelligence utilise des modèles LLM pour résumer les e-mails ou autres textes sous forme de notifications. Bien sûr, il comporte des limites fixées par Apple pour empêcher des choses telles que les insultes, les réponses inappropriées, le contenu réservé aux adultes, etc.

iOS utilise en fait deux modèles LLM ; Un qui fonctionne localement, sur l'iPhone, et un autre qui fonctionne sur les serveurs d'Apple, que l'entreprise appelle Private Cloud Compute. C’est justement celui qui fonctionne en local, avec accès aux différentes sources de données iPhone, qui a été piraté.

Ces chercheurs ont utilisé des méthodes pour injecter des instructions dans les invites, c'est-à-dire les textes envoyés au système, de sorte que ces modèles LLM finissent par faire des choses qui sont expressément interdites parce qu'ils deviennent tout simplement fous avec ces instructions. Ces méthodes d'injection incluent des éléments tels que des commandes axées sur les codes de codage Unicode qui semblent dénués de sens pour une personne, mais pour un modèle LLM, une fois décodées, cela devient une commande qui l'oblige à faire des choses qu'il a expressément configurées comme interdites.

Méthode d'injection d'instructions dans les modèles Apple LLM

Les chercheurs qui ont découvert ces vulnérabilités expliquent comment elles fonctionnent lors de cette conférence. Il est curieux de voir que désormais les bugs ne sont pas exactement des problèmes de programmation imprudente mais d'authentiques manipulations de réseaux neuronaux qui finissent par exécuter des instructions inappropriées. Il faut tenir compte du fait qu'avec ces méthodes, les réponses d'Apple Intelligence pourraient contenir des insultes, et qu'elle a également accès à plusieurs API du système, donc en théorie quelque chose comme celles-ci pourrait devenir une arme pour manipuler les applications et obtenir d'autres informations que l'utilisateur a sur son iPhone.

Tout cela a été signalé à Apple, qui a modifié le comportement de ses modèles LLM pour empêcher l'utilisation de ces injections d'instructions permettant à un attaquant de contourner les limitations imposées par l'entreprise. Cela ne veut pas dire qu’il n’existe pas d’autres méthodes, mais au moins celles qu’ils ont trouvées ont déjà été résolues.

A lire également