PyPI dit au revoir à autant de données d’adresse IP que possible

  • Français


  • PyPI, le Python Package Index, a commencé à évaluer les moyens de réduire la quantité d’informations d’identification qu’il stocke avant même que le ministère américain de la Justice ne demande des données sur les utilisateurs suspects.

    Mais maintenant que le référentiel de code a révélé avoir reçu trois assignations à comparaître pour des données sur cinq utilisateurs plus tôt cette année, le registre de packages de la communauté Python souhaite que les développeurs comprennent qu’il s’efforce de minimiser les données utilisateur qu’il stocke.

    L’objectif n’est pas de ne pas être dans l’incapacité de répondre aux demandes d’informations légitimes ; il s’agit plutôt de ne stocker que le minimum de données nécessaires afin de ne pas exposer les utilisateurs à une intrusion inutile dans la vie privée.

    Pour autant que nous le sachions, RubyGems n’a reçu aucune citation à comparaître pour les données utilisateur

    Par coïncidence, la minimisation des données peut empêcher les organisations de devenir une source privilégiée de surveillance à la demande : avoir des quantités excessives d’informations sur les utilisateurs invite les demandes légales, que le personnel doit ensuite gérer.

    Bien que les demandes de données des autorités soient monnaie courante parmi les grands services Internet commerciaux, comme GitHub, nous n’avons pas connaissance de rapports publics antérieurs sur des assignations à comparaître adressées aux registres de progiciels open source.

    Samuel Giddins, qui aide à maintenir RubyGems, a déclaré Le registre“Pour autant que nous le sachions, RubyGems n’a reçu aucune citation à comparaître pour les données utilisateur.”

    Mike Fiedler, membre de l’équipe d’administration de PyPI, a déclaré vendredi dans un communiqué que les efforts de l’organisation pour améliorer la confidentialité et la sécurité des utilisateurs remontent à 2020.

    Depuis la réception des assignations en mars et avril, cet effort a été revigoré.

    Une grande partie de la préoccupation se concentre sur les données d’adresse IP, qui sont stockées en conjonction avec l’accès au journal Web; les événements utilisateur tels que les connexions ; les événements du projet, y compris les téléchargements ; événements associés à des organisations récemment créées ; et les entrées de journal administratif PyPI.

    Selon Fiedler, PyPI a pu arrêter de stocker les données IP pour les entrées de journal – un journal des transactions en ajout uniquement – car celles-ci n’étaient exposées qu’aux administrateurs.

    “D’autres endroits où nous avons actuellement encore besoin de données IP incluent la limitation du débit et les solutions de secours jusqu’à ce que nous ayons rempli les données IP avec des hachages et des données géographiques”, a déclaré Fiedler. “Notre approche moderne a évolué de l’utilisation des données IP au moment de l’affichage pour trouver les données géographiques pertinentes, au stockage des données géographiques directement dans la base de données.”

    Pour masquer les adresses IP, PyPI les sale – en ajoutant une valeur arbitraire – puis les hache – en exécutant les données via une fonction de brouillage unidirectionnelle qui crée une valeur appelée hachage. Cela fournit un moyen de stocker une référence à des données d’identification potentielles sans réellement stocker de données brutes.

    Fiedler explique que même si le hachage est censé être irréversible, il est toujours possible d’annuler les hachages d’adresses IP par la force brute car l’espace d’adressage connu est si petit.

    “En appliquant un sel, nous exigeons que quelqu’un possède à la fois le sel et les adresses IP hachées pour forcer brutalement la valeur”, a-t-il déclaré. “Notre sel n’est pas stocké dans la base de données alors que les adresses IP hachées le sont, nous nous protégeons contre les fuites révélant ces informations.”

    PyPI a utilisé son fournisseur CDN Fastly pour transmettre un hachage salé de l’adresse IP pour les demandes via un en-tête personnalisé, ainsi que de larges données GeoIP (le pays et la ville où se trouve l’utilisateur), et l’utilise au lieu du brut Adresse IP.

    En avril, le registre a adopté des modifications de code pour le hachage et le salage des adresses IP pour les requêtes que PyPI gère directement dans Warehouse, l’application Web qui implémente l’index officiel des packages Python.

    Et au cours des derniers jours, il a remplacé les adresses IP dans l’interface utilisateur PyPI par des données de géolocalisation.

    PyPI s’appuie toujours sur les informations d’adresse IP pour identifier les abus – la création de packages malveillants, les harcèlements, etc. – mais Fiedler dit que même cela est à l’étude. “Nous réfléchissons à la manière de gérer cela sans stocker de données IP, mais nous n’en sommes pas encore là”, a-t-il déclaré.

    Fiedler dit que l’équipe PyPI évaluera si elle peut supprimer les données IP des enregistrements de l’historique des événements après un certain temps et si le service peut gérer toutes ses demandes via CDN.

    Cependant, cela peut simplement donner un coup de pied à la boîte de vers de la confidentialité en amont de Fastly. Le registre a demandé à Fastly s’il avait reçu des assignations à comparaître pour les données d’adresse IP PyPI. Nous n’avons pas eu de réponse. ®

    L'équipe de Comparaland

    L'équipe rédactionnnelle du site

    Pour contacter personnellement le taulier :

    Laisser un commentaire

    Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *