Des chercheurs d'Apple publient des données pour entraîner des modèles d'édition d'images qui améliorent les résultats de Nano Banana
Une équipe composée de plusieurs personnes chez Apple, dont une seule ne semble pas être d'origine chinoise, a publié un article dans lequel elle décrit un nouvel ensemble de données utilisé pour faire fonctionner un modèle d'édition d'images guidé par texte. Si le jargon de l’intelligence artificielle semble difficile à comprendre, il s’agit essentiellement d’une méthode améliorée permettant d’éditer une image en lui demandant des choses par le biais d’un texte écrit, comme peuvent désormais le faire de nombreux modèles comme Gemini. Il s'appelle Pico-Banana-400K.
Les données qui améliorent la formation de modèles génératifs comme celui-ci pourraient être utiles dans les futures versions de services comme Genmoji et autres, ou Magic Wand, pour demander à Apple Intelligence de supprimer quelque chose ou quelqu'un qui nous dérange d'une image en générant également ce qui est censé se trouver derrière cet objet ou cette personne. L'étude fait suite aux dernières avancées de GPT-4o d'OpenAI et Nano-Banana de Google lors de l'édition d'images à partir de chatbots tels que ChatGPT ou Gemini, respectivement.
Pour l'instant, Apple n'a indiqué à aucun moment que quelque chose comme ça serait utilisé dans l'un des modèles Apple Intelligence, mais le fait qu'une équipe de développeurs d'IA chez Apple publie l'étude indique qu'ils font leurs recherches et leurs tests, donc, bien sûr, que cela pourrait finir par fonctionner dans un produit Apple ne serait pas une surprise.

Apple indique que les modèles concurrents ne sont pas entraînés correctement par l'ensemble de données qu'ils ont utilisé, et que ce nouveau package de données qu'ils proposent améliore les résultats, avec des groupes d'images préparés pour 35 types de modifications différentes dans huit catégories, couvrant tout, des changements de couleur à la suppression d'objets ou à la génération de paysages, entre autres. Ils utilisent ensuite Gemini 2.5 Pro (Nano-Banana) pour tester les améliorations. d'où le nom Pico-Banana-400K.
Ce serait bien d'arrêter de regarder les journaux et de voir tout cela fonctionner sur un iPhone sans avoir à attendre trop longtemps.
