Anatomie d'une désintoxication au Web sous surveillance

La présentation

Vidéo

CC

Télécharger

PDF

Le sujet

La monétisation d'informations personnelles est aujourd'hui le modèle économique dominant sur le Web.

À mon grand dam, dans la mesure où je n'aime pas trop que des multinationales non-imposables viennent mettre leur gros nez numérique dans mes petites affaires.
Saviez-vous qu'on peut obtenir une bonne approximation de votre QI en analysant la liste de vos derniers « like » et prédir la durée de votre relation de couple à partir de la structure du graphe de vos amis sur Facebook ?

Google et ses amis disposent de plus d'informations sur vous que vous ne le croyez. Lesquelles, et comment sont elles utilisées ? Nous valorisons notre intimité.

Pourtant, en tant que professionnel·le·s du Web, nous nous rendons complices des GAFAs en leur communiquant -- par incompétence, paresse ou inconscience -- des masses de données sensibles sur « nos » internautes. Comment désintoxiquer nos pages Web des mouchards qui les infestent, et apporter à la vie privée de nos utilisateurs, l'attention qu'elle mérite ?

Présenté par Thibault Jouannic

Thibault Jouannic

A choisi de devenir développeur pour changer le monde sans quitter son fauteuil.

Transcription

Intro

XXX

L'âge de la donnée

La donnée, c'est le pétrole du Web. Et comme pour le pétrole, plus vous en avez, plus vous êtes riches et puissants.

Nous laissons quotidiennement des sommes de données personnelles colossales sur le Web. À vrai dire, dans la première version de cette conf, je faisais une liste de tous les types de données qu'on pouvait laisser traîner, et rien que cette énumération prenait 45', soit le temps de la conf. Je pense que vous êtes déjà sensibles à cette problématique : entre les données que nous laissons, les données qui sont collectées dans notre dos plus ou moins légalement, les données que d'autres publient à notre place et les données qu'on peut extrapoler à partir de toutes les autres, et bien, ceux qui ont accès à toutes ces données vous connaissent mieux que votre propre mère.

Qui exploite nos données ?

Concrètement, qui exploite nos données ? Pour faire simple, on va dire qu'il y a deux grandes catégories d'acteurs.

La première catégorie, que tout le monde connait, ce sont bien évidemment les Gafas : Google, Apple, Facebook, Amazon, Twitter, Microsoft, Yahoo, LinkedIn, Snapchat, etc. Ces entreprise ont les moyens de collecter elles-même de grosses quantités d'informations, et elles les exploitent pour leur propre compte.

La deuxième catégorie, qui est moins connue du grand public, c'est celle des data-brokers, ou courtiers en données. Un courtier en données, c'est une entreprise dont le métier est de collecter, qualifier, traiter et revendre des données. On en trouve des centaines, mais parmi les leaders, on va retrouver des noms comme Acxiom, Experian, CoreLogic, Datalogix, et, en France, Mediapost, une filiale du groupe La Poste.

Ces entreprises vont collecter des données en les aspirant sur le Web, mais elles vont aussi obtenir des fichiers par plein d'autres moyens : les s'échangeant des fichiers les uns les autres, en achetant les fichiers clients des grandes enseignes, en récupérant les données des administrations publiques, le tout évidemment sans votre consentement.

Une société comme Acxiom, c'est 1500 points de données par individu pour 500 millions de personnes dans le monde. Ce qui permet à ce genre de boites de vendre des fichiers extrêmement précis : vous voulez un fichier avec une liste de gens qui aiment les chiens ? Pas de problèmes ! Vous voulez cibler les amateurs de sports d'hiver ? Des retraités qui habitent à la campagne ? Des jeunes couples qui ont du mal à finir le mois ? Des trentenaires sans enfants ? Des amateurs de moto ? Des ingénieurs qui travaillent dans le numérique et qui pratiquent les arts martiaux ? Il n'y a qu'à demander !

Vous voulez entendre une blague ? Je sais que vous aimez les blagues. Regardez la première phrase de la page « déontologie » sur le site d'Acxiom France.

« Acxiom met la protection de vos données et la politique du respect de la vie privée au centre de toutes ses démarches de traitement des données. »

C'est un peu comme si Dassault prétendait mettre la protection des vies au centre de toutes ses démarches de vente d'armes. On atteint des summums dans l'hypocrisie et la langue de bois.

Comment sont exploitées nos données ?

Toutes ces données représentent une mine d'or, imaginez ce que vous pourriez faire si vous saviez absolument tout sur absolument tout le monde ? Personnellement, si je devais choisir un super-pouvoir, entre être invisible, voler ou voir à travers les murs out toujours savoir ou j'ai posé mes clés, je préférerais être omniscient.

Que peut-on faire avec une masse de données aussi considérable ? Et bien, tout un tas de trucs. Des trucs biens, et des trucs moins biens.

Par exemple, la première chose qu'on peut faire, avec ces données, c'est les explorer. Farfouiller et voir ce qu'on peut en sortir. Qu'est-ce que nos données révèlent sur nous ? Il y a un terrain formidable pour les sociologues du monde entier. Si le sujet je vous intéresse, je vous conseille le livre de Christian Rudder, Dataclysm, dans lequel vous pourrez apprendre comment XXX

Il y a énormément de domaines qui pourraient bénéficier d'un travail sur les données. L'urbanisme par exemple. Dans le cadre d'un projet de recherche conduit pour la ville d'Abidjan en Côte d'Ivoire, IBM a été capable de modéliser les déplacements globaux de la population en suivant les connexions des téléphones sur les antennes relais. Grâce à ces données, ils ont été capable de proposer des améliorations du réseau de transport pour désengorger la ville.

Le médical ! Le projet sur lequel je travaille actuellement est une application de suivi qui permet de prévenir les rechutes pour les patients en rémission du cancer du poumon. Une étude clinique a montré que, plutôt que de faire passer un scanner au patient tous les mois ou tous les deux mois, ce qui est très lourd, il était plus efficace de lui faire remplir un questionnaire hebdomadaire en ligne ou il pouvait lui même renseigner quelques symptômes. En traitant ces données, on est capable de détecter les risques de rechutes et de lever des alertes pour prévenir l'oncologue traitant. En faisant ça, on augmente l'espérance de vie du patient de plus de 20%.

Après, il y a aussi les trucs moins cool. L'exploitation sécuritaire, par exemple. Si je vous dis « dispositif d'analyse prédictive de la délinquance », normalement ça doit vous faire un peu tiquer. Alors il y a des trucs qui existent, je passe rapidement dessus parce que ça ne concerne pas directement le Web. Juste, pour que voyez à quel point je me suis sacrifié pour préparer cette conférence, je suis allé jusqu'à acheter le dernier numéro du point, parce qu'il y avait un dossier « ces algorithmes qui nous gouvernent ». Je vous confirme que c'est un torchon, donc ce n'est pas la peine de l'acheter. C'est rigolo, Le Point, la pub sur la première page est pour une Mercedes Benz, sur la dernière page c'est pour une porte blindée. Si j'avais voulu l'inventer je n'aurais pas osé.

Et puis il y a les trucs franchement glauques, par exemple l'exploitation politique. L'équipe de campagne de Sarkozy a pondu une application qui espionne les gens qui « pourraient avoir un intérêt pour Sarkozy » (e.g si vous retweetez un tweet ou likez un article sur Facebook). L'appli va aggréger sans votre consentement différentes données nominatives et vous géolocaliser sur une carte, pour permettre aux militants de venir faire du porte à porte chez vous. Notez que, avant que les journaux n'en parlent, la première version de l'appli, la carte était publique, vous pouviez donc voir tous les noms et adresses de vos voisins de droite, c'était cool. Tous les autres candidats, de droite ou de gauche, utilisent des applications similaires pour « mener des campagnes plus efficaces ».

Exploitation marketing

Mais sur le Web, nos données sont principalement exploitées dans un but marketing. Puisque la gratuité est un peu devenue la norme, on va se rémunérer en affichant des pubs.

La pub est un marché très concurrentiel et afficher une pub, ça coûte très cher. Pour que ce soit rentable, on va donc essayer de vous montrer les annonces les plus pertinentes possibles et pour faire ça, et bien les grandes régies du Web vont utiliser les techniques avec des noms compliqués : profilage et analyse comportementale. Les Gafas vont utiliser les masses de données à leur disposition pour dresser de vous le portrait le plus fidèle possible et obtenir une liste de vos centres d'intérêt.

Alors, cette exploitation a quelques effets pervers. Le premier effet, c'est que les Gafas vont personnaliser leurs services à outrance. On sait que votre flux Facebook, par exemple, va être filtré grâce à un algorithme opaque dont le but est de vous montrer les contenus sur lesquels vous êtes les plus susceptibles de cliquer. Google, c'est pareil, ils vont adapter leurs résultats en fonction du profil qu'ils ont de vous. Le problème, c'est que plus ça va, et moins vous serez amené à être mis en contact avec des points de vues contraires aux vôtres, et moins vous serez mis en contact avec des articles « sérieux mais un peu rébarbatif » puisque les gens préfèrent cliquer sur les junk news. C'est ce qu'Eli Pariser appelle la Filter Bubble, je vous conseille son livre.

XXX Facebook premier moyen de consommer des news.

Le deuxième effet pervers, c'est que les Gafas vont rentrer dans une course à la donnée. Plus on en a, mieux c'est. Et l'une des données les plus importantes, les plus déterminantes, c'est la liste des pages que vous visitez. Ce qui nous amène au sujet suivant : le problème du tracking.

Le tracking

XXX démo

Données sensibles

En tant que professionnel·le·s du Web, nous avons une énorme responsabilité dans la protection de la vie privée de nos utilisateurs. Avant d'aborder les mesures techniques à prendre, j'aimerais qu'on se mette d'accord sur un grand principe global : une donnée privée doit toujours être considérée comme sensible.

Pourquoi ? Je vais vous donner un exemple personnel.

Ma femme travaille en prison, elle passe la journée en entretiens avec des délinquants ou des criminels. Quand vous travaillez avec ce genre de public, vous n'avez pas envie de laisser traîner vos coordonnées en libre service. Quand elle a pris ce job, elle a nettoyé tout ce qui trainait sur le Web.

Moi, indépendant, je suis développeur freelance. J'ai besoin que mes clients potentiels me trouvent le plus facilement possible. Mon adresse est très facile à trouver.

De cette situation, on peut tirer plusieurs leçons. D'abord, une information anodine pour quelqu'un peut être sensible pour quelqu'un d'autre. Et ça dépend du contexte.

Ensuite, une information qui n'est pas sensible peut le devenir si le contexte évolue. Ce contexte peut être personnel, peut-être que les photos de moi bourré publiées sur Facebook pour faire rire mes amis, aujourd'hui je les trouve embarrassantes parce que je dois passer des entretiens d'embauche. Mais ça peut être un contexte social, économique, politique. On peut imaginer que si le FN gagne les prochaines élections, ça va représenter un gros changement de contexte pour tout le monde.

Et le dernier truc, c'est qu'une information peut être indirectement sensible. Par exemple, le fait que ma femme et moi habitions ensemble, ce n'est pas en soi une information sensible, mais ça permet de déterminer son adresse facilement.

Par conséquent, puisque vous ne connaissez pas le contexte de vos utilisateurs, vous devez par défaut considérer toutes leurs données comme sensibles. Et parce que le contexte peut évoluer, vous devez leur offrir un droit à l'oubli, le droit de supprimer d'anciennes données. De toutes façons, c'est une obligation légale.

Supprimer les trackers

Empêcher l'espionnage, et protéger nous mêmes XXX

Pour empêcher les Gafas de tracker les internautes chez nous, il faut supprimer tous les trackers de nos sites. Si vous en laissez un seul, ça ne sert à rien. Je vous propose de les passer en revue.

D'abord, tous les scripts de mesure d'audience. En plus, comme c'est du javascript, vous allez envoyer encore plus d'informations. La question à se poser c'est : « est-ce que j'en ai vraiment besoin ? ». Si vous avez un blog, ou un site perso, très honnêtement, on en a rien à battre du nombre de visiteurs par mois. Si vous avez des besoins concret de mesure d'audience, il y a des solutions alternatives. Si vous avez simplement besoin de mesures basiques, il est peut-être possible d'analyser les logs du serveur avec des solutions type Logstash + Kibana. Vous pouvez aussi utiliser une solution open-source auto-hébergée type Piwik.

Ensuite on va avoir les boutons de partage. La plupart du temps ça ne sert à rien. Vous pouvez mettre un bouton « partager sur Facebook », mais vous n'avez pas besoin pour ça d'inclure script de 50ko hébergé sur le serveur de Facebook.

Ensuite on va trouver les fonts. Google fonts, par exemple, rend très difficile le téléchargement des typos proposées. C'est très certainement fait exprès. Je vous encourage à faire quelques recherches et à récupérer les fonts pour les auto-héberger.

Les maps. Aujourd'hui, c'est très facile d'utiliser Google maps. Si vous avez vraiment besoin d'une carte, vous pouvez faire une capture et l'auto-héberger. Vous pouvez aussi utiliser des services libres comme OpenStreetMap, il y a des services qui vous permettent d'auto-héberger vos cartes. Et dans le pire des cas, peut-être que vous n'avez pas besoin d'inclure directement la carte sur votre site, peut-être qu'un simple lien vers Google Maps suffit.

Les CDNs, Content Delivery Network, qui vous permettent entre autre de servir vos ressources statiques efficacement en fonction de l'emplacement de vos utilisateurs, au prix d'une nouvelle brèche dans leur vie privée. Si vous avez un très gros site avec une audience internationale et de très fortes charges, ça peut se justifier. Mais la plupart du temps, c'est par pure paresse qu'on laisse traîner les lignes comme celles-ci (je le sais, je l'ai fait). Aujourd'hui, c'est quand même très facile de configurer un serveur pour servir efficacement des fichiers css ou js.

Les autres mesures à prendre

Une fois qu'on a dératisés nos sites, c'est déjà un gros progrès, mais ça ne suffit pas. Il y a d'autres mesures qui sont importantes à mettre en œuvre.

La première mesure, qui est évidente en 2016, c'est de mettre en place https. Https est nécessaire pour plusieurs raisons, mais ce qui nous intéresse ici, c'est que la connection est chiffrée et donc il est plus difficile pour un tiers d'intercepter la communication entre vous et vos utilisateurs. De toutes façons, en 2016, ce n'est pas concevable d'avoir un site qui n'est pas accessible en https. D'ailleurs, non seulement on va activer https, mais on va forcer https. Même si votre site est un bête site statique, ou un journal en ligne, vous devez mettre en place une connexion chiffrée. XXX objets connectés

La mesure suivante, ça va être la désexternalisation de fonctionnalités. Typiquement, les commentaires. Aujourd'hui, quand on n'a pas envie de s'embêter à coder soi-même les commentaires, on utilise un truc comme Disqus. Si vous ne connaissez pas Disqus, en gros c'est juste un script que vous insérer dans votre page Web et bam, vous avez automatiquement une section de commentaires qui apparait. Ça c'est une vraie saloperie parce que d'abord c'est un tracker, en plus les commentaires de vos utilisateurs partent directement sur les serveurs d'une entreprise tierce. Sachant que le businesse model de Disqus, c'est la pub et la revente de données. Donc la question qu'il faut se poser, c'est « est-ce que cette fonctionnalité est importante pour mes utilisateurs ». Si non, peut-être qu'on peut simplement la supprimer. Si oui, peut-être que ce n'est pas une stratégie très pertinente de la confier à un tiers ? Je vous laisse juger. Un autre exemple de fonctionnalité déportée, c'est le login.

Autre mesure importante : n'empêchez pas les internautes d'utiliser des solutions de protection de l'anonymat. Par exemple, aujourd'hui, quand vous utilisez Tor pour vous connecter sur Instagram, ou XXX, vous voyez ça. Et pour accéder au site, dans le meilleur des cas, il faut remplir des captchas immondes, du genre, parmi ces 9 minuscules tas de pixels, trouvez les photos représentant des engins de chantiers ou des devantures de restaurant. Dans le pire des cas, l'accès est carrément bloqué. Il y a des gens qui ont légitimement besoin d'utiliser Tor, et c'est une marque de respect de les laisser le faire. XXX délit d'information.

Ensuite, on va trouver les bonnes pratiques de conception de systèmes d'informations. Par exemple, si vous gérez un site de rencontre, ne stockez pas les données civiles au même endroit que les préférences sexuelles des gens. XXX carte homosexualité

Ne recueillez pas plus d'information que ce qui est nécessaire. Et recueillez les données le plus tard possible.

Stockez correctement les mots de passe de vos utilisateurs.

Ne récupérez pas de données sans le consentement de vos utilisateurs. Ne volez pas de données. Et quand je parle de consentement, ça ne veut pas dire une petite phrase cachée dans les conditions d'utilisation. D'ailleurs, en règle générale, ne faites rien sans le consentement de l'utilisateur.

Et puis il y a des mesures tellement évidentes que je ne comprends même pas pourquoi je suis obligé de le dire. Si vous voulez protéger la vie privée de vos clients… ne revendez pas leurs données ! Hein la Poste !?

La pub

XXX

Conclusion

Alors voilà, aujourd'hui on est est là… Qu'est-ce qu'on fait ?

Les sociétés comme Acxiom, qui violent notre vie privée en volant nos données, et qui se font de la thune sur notre dos en les revendant à d'autres sociétés qui vont se faire encore plus de thune en nous empoisonnant la vie, ces sociétés sont des parasites et l'humanité se porterait bien mieux si elles disparaissaient.

XXX se substituer au Web

Pour des boites comme Google ou Facebook, le problème est plus compliqué. Si nous étions dans un film, on aurait un méchant avec un super costume qui aurait construit un empire numérique diabolique et qui serait capable d'influencer les votes et les opinions de la population mondiale en quelques clics. Mais nous ne sommes pas dans un film. Au lieu de ça, on a simplement quelques personnes un peu plus intelligentes que la moyenne avec des tee-shirts pourris et des idées dangereuses. Et une fois qu'ils ont accidentellement construit un empire du mal capable d'influencer les votes et les opininions de la population mondiale en quelques clics, ils se disent « bon, ben maintenant qu'il est là, autant faire un peu de thune avec ».

C'est un casse-tête, parce que je ne pense pas qu'il faille empêcher Google ou Facebook de faire de la thune. Mais d'un autre côté, le fait qu'il existe des entités avec un pouvoir aussi total sans aucun contrôle démocratique, je trouve ça très risqué pour nos démocraties.

Je ne pense pas que les ingénieurs de chez Google se réunissent secrètement dans des caves pour pousser des rires hystériques avec la tête en arrière… Bon, peut-être qu'il y en a qui le font, statistiquement…

Si vous êtes travaillez chez Facebook ou Google, vous avez une énorme responsabilité. Si vous mettez en place une personnalisation à outrance des services qui sont devenus des portes d'entrées sur le Web, éthiquement, vous devez en informer clairement les utilisateurs, et vous devez laisser la possibilité de la désactiver facilement.

Quand à nous, péquenauds du Web, nous avons aussi notre responsabilité, qui n'est pas négligeable. Dans cette salle, nous sommes tous des amoureux du Web. L'amour du Web, ça passe par le respect de ses utilisateurs. C'est à chacun de nous de prendre les mesures qui s'imposent pour respecter la vie privée de nos internautes.

Merci de votre attention.