Rien n’arrête le progrès ! Les avancées récentes des technologies de recherche d’images par l’image ont rencontré celles de la reconnaissance faciale pour donner le jour à des champs d’application nouveaux qui, en plus d’afficher des résultats, opèrent des modifications de fichiers automatisées. Les moteurs de recherche d’images par l’image ont déjà été évoqués ici avec TinEye, mais d’autres sociétés travaillent sur le sujet. La reconnaissance faciale est utilisée depuis quelques années sur des caméras numériques et les mêmes technologies sont appliquées aujourd’hui sur des services en ligne. Une des sociétés actives dans ce domaine est sur le point de lancer un procédé remarquable de floutage facial : AnonymYou. De plus en plus de personnes sont soucieuses de leur anonymat ou de la maitrise de leur image. AnonymYou leur propose de rendre méconnaissables toutes les occurrences de portraits demandées. Le service, qui est actuellement en phase de test, en version beta privée, vise à devenir le 1er système d’anonymisation en ligne.
Toute personne, célèbre ou anonyme, a un droit absolu à disposer de son image. Le droit à l’image est de plus en plus pris au sérieux par les tribunaux dans le monde et les infractions peuvent coûter cher. Comme tout téléspectateur peut le vérifier chaque soir, le floutage de sujets sensibles est devenu une opération des plus banales. Elle n’a cependant rien d’automatique, car elle est toujours le résultat d’une décision prise dans les rédactions après une prudente pesée d’intérêts où les commerciaux le disputent aux légistes. Une partie de ces floutages sera bientôt prise en charge par des logiciels. Dans un premier temps, ce sont les portraits accessibles sur le web qui seront floutés. Chacun pourra faire partie d’une sorte de liste rouge pour accéder à un floutage automatique de ses apparitions sur internet.
Le service en ligne sera gratuit pour tout internaute individuel, après inscription et soumission d’un minimum de 5 portraits différents de soi. Les auteurs du logiciel tablent, pour l’instant, sur une efficacité de 85%, avec 10% de faux positifs (ce qui peut poser quelques problèmes !). AnonymYou sera également disponible sous forme de plug-in pour Firefox. Pour les pipole, une recherche bimodale (texte + image) sera mise en oeuvre. Considérant que les célébrités disposent déjà sur la toile d’une importante base d’images taguées à leur nom, AnonymYou intégrera ces données dans un nouvel algorithme atteignant une efficacité approchant les 98% et 1% de faux positifs. Ce service-là sera payant (on ne nous dit pas s’il sera calculé au prorata des portraits floutés ou selon d’autres conventions !).
Le principe de fonctionnement d’AnonymYou est simple : après leur soumission, les portraits sont analysés et convertis en une empreinte digitale composite qui est comparée aux index des principaux moteurs de recherche. Les images trouvées sont ensuite floutées à la volée sur de puissants serveurs (dont l’emplacement est tenu secret), puis elles sont réinjectées dans les bases de données d’où elles proviennent. Cette procédure à un grand avantage : il n’est pas nécessaire que ses promoteurs se constituent leur propre index avant de pouvoir prétendre à un minimum d’efficacité. Par contre, il faut obtenir la « collaboration » des moteurs de recherche visés. Google ayant déjà donné son accord - moyennant une exploitation des résultats dont le principe n’a pas été divulgué - les autres moteurs de recherche ne devraient pas refuser longtemps d’intégrer ce service. FaceBook, qui comme Google dispose déjà de son propre système de reconnaissance faciale, hésite encore à se rallier. Pourtant, en proposant ce service alternatif, ils pourraient faire face à de nombreuses critiques concernant des problèmes de protection de la sphère privée...
J’ai été invité à tester l’efficacité du système durant une semaine. Elle est assez redoutable pour les pipole et cela peut se comprendre vu la relative facilité de leur identification. Les stars de cinéma, de la TV et du showbiz en général obtiennent des résultats proches de 100%. Reste à savoir si elles tiennent vraiment à voir leur image disparaitre... (Quand on voit les dédommagements coquets obtenus par certain-e-s pour des photos publiées sans autorisation, on peut les comprendre ;-) Il n’en va pas de même pour les politiques, qui à part quelques notables, toujours bronzés et soucieux de leur image, obtiennent des résultats bien en dessous (env 70%) de celles des vraies stars, celles qui font rêver les foules. En ce qui me concerne, moi heureux anonyme, les résultats ont été encore bien moins performants. Mais je ne suis pas un bon exemple, je suis peu visible et ne suis même pas sur Facebook !
Dans une prochaine étape, en cours d’évaluation, un module AnonymYou2 sera intégré à une puce équipant les caméras d’une chaîne de télévision publique au Canada. Les informations sur la puce seront mises à jour en continu, afin que rien de ce qui est interdit ne puisse échapper au filtre. Cela introduira certes une distorsion de la concurrence avec les chaines commerciales, mais gageons que le législateur veillera à corriger ces effets, en attendant que toutes les chaines soient équipées. L’ultime étape à venir sera l’intégration de cette puce dans les appareils de prises de vues numériques. Elle sera mise à jour à chaque fois que la carte mémoire sera connectée à un ordinateur. Mais là il faudra patienter un peu, car les pourparlers avec les principaux fabricants d’APN et de portables viennent à peine de commencer. Ils achoppent pour l’instant sur la définition de standards acceptables, qualité indispensable à l’efficacité du système. (D’après certaines sources, il semblerait que les ingénieurs de Redmond se soient déjà inspirés des spécifications d’AnonymYou pour créer leurs propres « standards » !)
On peut bien sûr se demander si ce service est approprié et s’il n’engendrera pas de dérives malveillantes. Mais le droit à l’image étant ce qu’il est, il sera de plus en plus difficile d’échapper à une course technologique qui - une fois n’est pas coutume - va dans le sens du droit. On peut néanmoins pressentir que la pilule sera difficile à faire passer chez les photographes. Qui voudra encore d’appareils photo munis d’une « liste rouge » embarquée ? Les amateurs courront le risque de voir se flouter les portraits d’amis soucieux de la protection de leur sphère privée. Les professionnels - qui n’en demandaient pas tant - verront s’envoler une partie de leurs revenus par la grâce de quelques pipole sur « liste rouge », réservant quelques fois leur image à une élite de photographes dociles et triés sur le volet. On verra aussi qui est véritablement prêt à disparaitre des écrans... gageons qu’il y aura bien des hésitations !
Je tiens à rassurer les inquiets, les incrédules, les méfiants et autres dubitatifs, si ce billet a un petit goût de poisson... c’est qu’il a été rédigé un premier avril ;-)
Rubrique: Les nouvelles images
TinEye est le premier moteur de recherche qui utilise des technologies d’identification d’images pour rechercher des images sur le net. Cela signifie que les critères de recherche ne sont pas textuels (mots clés), mais constitués d’images (des ensembles de pixels). Concrètement, si vous lui soumettez une image, le logiciel vous ramènera toutes les occurrences de cette image qu’il connait, même si elles ont été modifiées ou recadrées. Il utilise pour cela un algorithme produisant une empreinte digitale de l’image recherchée qui est ensuite comparée à l’index. Lancé en mai 2008 par la société canadienne Idée Inc, ce service est passé maintenant en version beta publique. Depuis son lancement, il a continué à indexer le web pour agrandir sa base de données, seul moyen de gagner de l’efficacité. Le système est utilisable gratuitement par tout internaute, il suffit de s’inscrire ici. TinEye propose aussi l’installation d’un plug-in et/ou d’un bookmarklet, qui permet de procéder à une recherche d’image en un seul clic à partir de votre browser.
Mais quelle est donc l’utilité de ce service ?
La première est sans conteste la possibilité pour les auteurs (les photographes, graphistes, etc) ou les détenteurs de droits (banques d’images, archives, etc), de traquer les vols d’images sur internet. Plus subtilement, cela peut aussi aider à trouver les sources, l’origine d’une image, son histoire et sa manière d’être présente sur internet (mais l’internet, ce n’est qu’une partie du monde ;-) Pour le reste, faisons confiance au « génie humain » pour découvrir de nombreuses autres applications que celles prévues par le logiciel...
Quelle en est l’efficacité ?
Globalement - sur des images connues ! - l’effet est assez bluffant. L’efficacité des algorithmes utilisés et la vitesse de traitement sont surprenantes. TinEye est capable de retrouver des images même recadrées, redimensionnées, recolorées, retouchées, voire « photomontées ». Il est capable aussi - son algorithme semble très performant pour cela - de rechercher des graphismes bien définis, comme des logos commerciaux. Les pages Cool Searches et Widgets, d’où je tire l’exemple ci-dessus, présentent des exemples de recherche très éloquents... mais n’oubliez pas que ce sont des pages à caractère publicitaire pour lesquelles on a sélectionné les exemples « qui vont bien » !
Quelles en sont les limites ?
On entrevoit rapidement que l’efficacité du système est en relation directe avec l’étendue de sa base de données. TinEye annonce avoir engrangé plus d’un milliard de photos dans son index. C’est sûrement bien moins que Google. [1] Mais leurs robots continuent de parcourir le net pour indexer des images. Vous pouvez d’ailleurs leur demander d’aller visiter un site (le vôtre, par exemple). Je l’ai fait il y a 3 jours et depuis j’attends toujours le passage du robot ;-) Il est fort probable que les petits sites ou les sites à faible trafic ne soient pas visités en priorité...
En admettant qu’ils réussissent à construire un index suffisamment étendu pour être plus que représentatif il restera toujours des zones non explorées qui constituent autant de doutes pour l’auteur d’une recherche : les images en Flash ne sont pas prises en compte tout comme celles figurant sur des pages que les robots [2] ne sont pas autorisés à visiter. Les pirates ont donc toujours une longueur d’avance sur les gendarmes ;-)
Combien ça coûte ?
Le logiciel se présente actuellement en version beta publique pour laquelle on doit s’inscrire. Nous ne pouvons donc pas savoir si le service va devenir payant, car TinEye est peu disert sur la question. Seul un usage commercial à venir est évoqué. Il consistera en un service de veille sur un ensemble d’images avec envoi de notification au demandeur en cas de succès. Cette fonction devrait intéresser les petites et moyennes entreprises. (De grands comptes comme l’AFP ou Associated Press bénéficient déjà de solutions spécifiques fournies par d’autres logiciels de la même firme.) On peut espérer que cela permettra de laisser le libre accès aux petits usagers occasionnels.
TinEyes montre une nouvelle direction pour les moteurs de recherche d’images en élargissant le champ des possibles. Il peut sembler bizarre que Google ne soit pas sur ce coup là. Mais il est peut-être déjà sur le coup suivant... TinEyes est, somme toute, dans un créneau bien spécifique, car il n’identifie pas les objets, mais « seulement » les formes essentielles d’une image. C’est ce qui le rend très performant pour découvrir les multiples variantes d’une même image. Les grandes étapes à venir pour la recherche d’images seront probablement l’identification d’images d’objets, puis de personnes, le tout éventuellement en combinaison avec du texte... mais ce n’est pas pour tout de suite.
Notes:
[1] Il est très difficile de savoir combien d’images contient l’index de Google, la société ayant décidé en 2005 de ne plus communiquer sur la taille de sa base de données. En 2005, elle s’élevait à 2,187 milliards d’images. On peut postuler que ce chiffre à bien pû doubler depuis... Une recherche d’images avec juste « jpg » comme terme de recherche affiche aujourd’hui 1,44 milliard d’occurrences... (test sans valeur réelle, c’est juste pour voir). Pour comparaison, Flickr contient aujourd’hui 3 milliards d’images, mais le champion est Facebook avec 10 milliards.
[2] Si vous avez accès au code source de votre site, vous pouvez y placer des metatags spécifiques ou un lien vers un fichier robots.txt pour donner des instructions aux robots (crawlers) qui visitent votre site régulièrement et quelques fois à l’insu de votre plein gré. Vous pourrez y spécifier vos autorisations. Si vous n’avez pas la conscience tranquille, vous pourrez même autoriser tous les robots à visiter votre page, sauf celui de TinEye ! Il y a des robots malveillants qui ne tiennent aucun compte de ces instructions, mais TinEye déclare respecter ces instructions.
Je « remonte » un lien proposé par Patrick Pecatte en commentaires. Il renvoie à une excellente synthèse sur la recherche d’images par l’image qui m’avait échappé (et dont le titre est quasi identique au mien ;-)
Merci.