Série LinkedIn sur la sécurité : qu’est-ce que le<br>scraping ?

Pour offrir la meilleure expérience possible à nos membres, nous tenons à assurer leur sécurité. Nous mettons tout en œuvre afin de protéger en tout temps les données de nos membres et leur capacité à contrôler les informations qu’ils publient sur LinkedIn. Nos équipes Global Trust créent, déploient et mettent à jour des modèles qui détectent et préviennent les abus, bloquent les attaques, déjouent les fraudes et, d’une manière générale, empêchent les éléments négatifs présents sur Internet d’atteindre nos membres. Dans ce domaine, les entreprises agissent bien souvent dans l’ombre ; mais nous souhaitons lever le voile dans ce premier article sur une série de sujets concernant la sécurité.

Entrons dans le vif du sujet, en commençant par l’un des domaines les plus difficiles qui soient : le scraping.

Quelles sont les pratiques qui sont considérées comme du scraping ?

Le scraping existe depuis le début de l’internet, mais il s’est considérablement développé en termes d’échelle et de complexité. Aujourd’hui, le scraping dont on entend le plus parler est le scraping non autorisé, qui a recours à du code et des méthodes de collecte automatisées pour effectuer (jusqu’à) des milliers de requêtes par seconde et contourner les blocages techniques afin de récupérer des données sans autorisation. Les données récupérées peuvent être collectées sur plusieurs sites, passées au peigne fin et vendues en masse, afin d’être utilisées pour des campagnes de phishing et d’autres campagnes conçues pour vous inciter à partager des informations privées.

Toutefois, le scraping n’est pas toujours une mauvaise pratique. Les moteurs de recherche sont autorisés à effectuer des recherches afin de collecter et d’indexer des informations sur l’ensemble de l’internet. Lorsque les internautes effectuent des recherches et trouvent des liens contenant des extraits d’informations, ce type de “scraping” profite au final à la fois aux sites web et aux utilisateurs des services de recherche. Ce qui est répréhensible, c’est quand cela est fait sans autorisation. Dans ce cas, vous n’avez pas la possibilité de savoir où sont passées vos données ni comment elles sont utilisées. Cela peut se produire sur de nombreux types de sites web publics, notamment les sites de commerce électronique, les sites d’informations et les réseaux sociaux. Lorsque vos données sont récupérées sans votre permission et utilisées d’une manière que vous n’avez pas acceptée, cette pratique est répréhensible. Sur LinkedIn, nos membres nous confient leurs informations. Nous interdisons donc le scraping non autorisé sur notre plateforme. 

Quelles sont les pratiques qui ne sont pas considérées comme du scraping ?

Le scraping non autorisé ne constitue pas en soi une violation ou un piratage. C’est ce que l’on pourrait croire de prime abord, car les hackers informatiques affirment souvent qu’ils récupèrent des données d’entreprises. Mais le scraping ne signifie pas qu’un hacker a réussi à pénétrer dans des systèmes sécurisés, à contourner des pare-feux ou à accéder à des informations protégées sur le réseau. Le scraping non autorisé peut permettre à des internautes malveillants de recueillir un grand nombre de données et de les utiliser d’une manière que vous n’aviez pas anticipé. Même sans s’introduire dans un réseau, le scraping non autorisé peut être très abusif. C’est la raison pour laquelle nous utilisons toute notre gamme d’outils, y compris l’IA et des outils juridiques, pour mettre fin à ce type de pratique et veiller à faire condamner les auteurs. En résumé, et il est important de le préciser, le hacking et la violation de données ne sont pas des synonymes de scraping. Nous aborderons ces sujets dans une autre publication de notre série sur la sécurité.

Que mettons-nous en place pour mettre fin au scraping ?

Chez LinkedIn, nos équipes créent, déploient et maintiennent à jour des modèles et des règles qui détectent et empêchent les abus, notamment en matière de prévention du scraping non autorisé. Définissons certains termes que nous utilisons afin que vous puissiez comprendre quelques-unes des méthodes que nous utilisons pour protéger vos données contre les différents types de scraping. Lorsque nous parlons de scraping de profils publics, il s’agit du scraping d’informations visibles sur LinkedIn sans connexion à un compte (le profil public d’un membre, par exemple). Et lorsque nous parlons de scraping connecté, il s’agit cette fois du scraping d’informations visibles lorsque l’on est connecté à un compte de membre. 

  • Pour détecter le scraping de profils publics, nos modèles recherchent des indices de consultation automatisée des profils. Compte tenu de la nature conflictuelle du scraping non autorisé, nos modèles sont réinitialisés et déployés automatiquement plusieurs fois par jour pour s’adapter rapidement aux nouveaux indices. Notre outil de détection des abus fonctionne à l’échelle de la totalité de la plateforme, et notre infrastructure est conçue pour aider à protéger nos membres et leurs données sans perturber leur expérience sur LinkedIn. Nous avons prévu d’intégrer des indices avancés dans nos modèles de machine learning, en les réinitialisant plus fréquemment pour les aider à s’adapter à l’évolution des différents types d’attaques. 

  • Nous disposons également de modèles de défense contre le scraping connecté. Dans ce cas de figure, nous recherchons des indices d’activité de type “bot”. Nous utilisons le deep learning pour classer les séquences de comportement des utilisateurs comme étant automatisées, et nous utilisons également la détection des valeurs aberrantes pour détecter les activités qui semblent ne pas être humaines. Nous avons mis à disposition en open source le code que nous utilisons pour la détection des valeurs aberrantes afin que d’autres entreprises puissent également l’utiliser pour détecter les abus.  Lorsque nous détectons qu’un membre fait du “scraping”, nous lui donnons des informations sur la manière dont il peut corriger ce comportement. 

  • Outre les limites de taux, nous utilisons également un entonnoir de défenses supplémentaires qui détectent et suppriment les faux comptes effectuant du scraping à plusieurs niveaux. Nous nous efforçons de détecter les faux comptes le plus rapidement possible afin d’éviter de porter un quelconque préjudice à nos membres.

Que peuvent faire les membres pour se protéger ?

Nous souhaitons que les membres aient une vision claire des informations qu’ils mettent à disposition sur LinkedIn. Chaque jour, nous veillons à vous protéger et à protéger les données présentes sur notre plateforme, grâce à un arsenal complet de techniques évolutives. Prenez le temps de vérifier les informations que vous avez ajoutées, des coordonnées aux expériences professionnelles, et familiarisez-vous avec vos préférences. Jetez également un coup d’œil à la page de votre profil public, afin de comprendre quels types d’informations peuvent être publiques et de vous assurer qu’elles correspondent exactement à ce que vous souhaitez rendre visible dans les moteurs de recherche et sur les autres réseaux en dehors de LinkedIn. Vous pouvez choisir de limiter ou d’ajuster les choix si vous le souhaitez. Une fois tous ces paramètres définis, nos équipes s’engagent à respecter vos choix afin d’assurer votre sécurité et celle de vos données.


Related articles