Des universitaires de Stanford développent l’IA Street View-to-location

  • Français


  • Un trio d’informaticiens de Stanford a développé un modèle d’apprentissage en profondeur pour géolocaliser les images de Google Street View, ce qui signifie qu’il peut généralement déterminer où une photo a été prise simplement en la regardant.

    On dit que le logiciel fonctionne assez bien pour battre les meilleurs joueurs de GeoGuessr, un jeu de devinettes en ligne populaire.

    Cela ne veut pas dire que le modèle des universitaires peut indiquer exactement où une photo au niveau de la rue a été prise ; il peut à la place déterminer de manière fiable le pays et faire une bonne estimation, à moins de 15 miles de l’emplacement correct, la plupart du temps – bien que le plus souvent, il soit plus éloigné que cette distance.

    Dans un article de prépublication intitulé “PIGEON : Prédire la géolocalisation des images”, Lukas Haas, Michal Skreta et Silas Alberti décrivent comment ils ont développé PIGEON.

    Il s’agit d’un modèle de géolocalisation d’images dérivé de leur propre modèle CLIP pré-formé appelé StreetCLIP. Techniquement parlant, le modèle est complété par un ensemble de géocellules sémantiques – des zones de terrain délimitées, similaires aux comtés ou aux provinces, qui prennent en compte des détails spécifiques à la région tels que les marquages ​​​​routiers, la qualité des infrastructures et les panneaux de signalisation – et ProtoNets – une technique de classification utilisant seulement quelques exemples.

    PIGEON a récemment affronté Trevor Rainbolt, l’un des meilleurs joueurs de GeoGuessr connu simplement sous le nom de Rainbolt sur YouTube, et a gagné.

    Les boffins de leur article affirment que PIGEON est le “premier modèle d’IA qui bat constamment les joueurs humains dans GeoGuessr, se classant dans le top 0,01 % des joueurs”. Quelque 50 millions de personnes ou plus ont joué à GeoGuessr, nous dit-on.

    Alberti, doctorant à Stanford, a déclaré Le registre“C’était un peu comme notre petit concours Deep Mind”, une référence à l’affirmation de Google selon laquelle son système DeepMind AlphaCode peut écrire du code comparable aux programmeurs humains.

    ​​Je pense que c’était la première fois que l’IA battait le meilleur humain du monde à GeoGuessr

    “Je pense que c’était la première fois que l’IA battait le meilleur humain du monde à GeoGuessr”, a-t-il déclaré, notant que Rainbolt avait prévalu lors de deux matchs précédents avec des systèmes d’IA.

    La géolocalisation des images est devenue une sorte d’art parmi les enquêteurs open source, grâce au travail d’organismes de recherche journalistique comme Bellingcat. Le succès de PIGEON montre qu’il s’agit également d’une science, qui a des implications importantes sur la vie privée.

    Alors que PIGEON a été formé pour géolocaliser les images Street View, Alberti pense que cette technique peut faciliter la géolocalisation de presque toutes les images, du moins à l’extérieur. Il a déclaré que lui et ses collègues avaient essayé le système avec des ensembles de données d’images qui n’incluaient pas d’images Street View et que cela fonctionnait très bien.

    L’autre type d’intelligence

    Alberti a raconté une discussion avec un représentant d’une plateforme de renseignement open source qui a exprimé son intérêt pour leur technologie de géolocalisation. “Nous pensons qu’il est probable que notre méthode puisse également être appliquée à ces scénarios”, a-t-il déclaré.

    Lorsqu’on lui a demandé si cette technologie rendrait encore plus difficile la dissimulation de l’endroit où les images ont été capturées, Alberti a déclaré que si vous êtes dans n’importe quelle rue, la géolocalisation deviendra très probable car il y a tellement de signes révélateurs de l’endroit où vous vous trouvez.

    “On m’a demandé l’autre jour ‘et si vous étiez dans la rue, quelque part en pleine nature?'”, a-t-il déclaré. “Même là, vous avez beaucoup de signes d’où vous pourriez être, comme la façon dont les feuilles sont, le ciel, la couleur du sol. Ceux-ci peuvent certainement vous dire dans quel pays ou dans quelle région d’un pays vous vous trouvez, mais vous ne pouvez probablement pas localiser la ville en question. Je pense que les photos d’intérieur resteront probablement très difficiles à localiser.

    Je pense que les photos d’intérieur resteront probablement très difficiles à localiser

    Alberti a déclaré que l’une des principales raisons pour lesquelles PIGEON fonctionne bien est qu’il s’appuie sur le CLIP d’OpenAI comme modèle de base.

    “De nombreux autres modèles de géolocalisation auparavant, ils forment simplement le modèle à partir de zéro ou utilisent un modèle basé sur ImageNet. Mais nous avons remarqué qu’en utilisant CLIP comme modèle de base, il vient de voir beaucoup plus d’images, a vu beaucoup plus de petits détails, et est donc bien mieux adapté à la tâche.”

    Alberti a déclaré que l’utilisation de géocellules sémantiques s’est avérée très importante car si vous ne faites que prédire les coordonnées, vous avez tendance à obtenir de mauvais résultats. “Même avec CLIP comme modèle de base, vous atterrirez la plupart du temps dans l’océan”, a-t-il déclaré.

    “Nous avons passé beaucoup de temps à optimiser ces géocellules, par exemple, à les rendre proportionnelles à la densité de population dans certaines régions, et à les faire respecter différentes limites administratives à plusieurs niveaux.”

    Haas, Skreta et Alberti ont également conçu une fonction de perte – qui calcule la distance entre la sortie de l’algorithme et la sortie attendue – qui minimise la pénalité de prédiction si la géocellule prédite est proche de la géocellule réelle. Et ils appliquent un algorithme de méta-apprentissage qui affine les prédictions de localisation dans une géocellule donnée pour améliorer la précision.

    “De cette façon, nous pouvons parfois faire correspondre des images jusqu’à environ un kilomètre”, a déclaré Alberti.

    Comme Skreta l’a noté dans la vidéo Rainbolt, PIGEON devine actuellement correctement 92% des pays et a une erreur kilométrique médiane de 44 km, ce qui se traduit par un score GeoGuessr de 4 525. Selon le document de recherche, le modèle sur le thème des oiseaux place environ 40% des suppositions à moins de 25 km de la cible.

    Jeu sur. ®

    L'équipe de Comparaland

    L'équipe rédactionnnelle du site

    Pour contacter personnellement le taulier :

    Laisser un commentaire

    Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *