Serie de seguridad de LinkedIn: ¿qué es el scraping?

Paul Rockwell

Seasoned tech exec (Product, Operations, Safety, CX), board member, startup advisor

15 de julio de 2021

Para ofrecer la mejor experiencia posible a nuestros miembros, nos comprometemos a garantizar su seguridad. Hacemos todo lo que está en nuestras manos para proteger sus datos y su capacidad para controlar la información que publican en LinkedIn. Nuestros equipos de seguridad y privacidad crean, implantan y mantienen modelos que detectan y evitan abusos, bloquean ataques, frustran fraudes y, en general, impiden que lo negativo de internet afecte a nuestros miembros. Las empresas suelen actuar en la sombra, pero en este primer artículo queremos arrojar luz sobre una serie de cuestiones relacionadas con la seguridad.

Pongámonos manos a la obra, empezando por una de las áreas más difíciles: el scraping.

¿Qué es el scraping?

El scraping existe desde los primeros días de internet, pero se usa cada vez más y de forma más compleja. Hoy en día, el scraping del que más oímos hablar es el no autorizado, que usa código y métodos de recopilación automatizados para hacer miles de consultas por segundo y burlar controles técnicos con el fin de obtener datos sin consentimiento. Los datos recuperados pueden recopilarse de varios sitios, combinarse y venderse en grandes cantidades, para utilizarlos en campañas de phishing y de otro tipo diseñadas para que compartas información privada.

Es importante aclarar que el scraping no siempre es una práctica negativa. Los motores de búsqueda están autorizados a hacer scraping para recopilar e indexar información en internet. Cuando la gente busca y encuentra enlaces con fragmentos de información, ese tipo de scraping beneficia tanto a los sitios web como a los usuarios de los servicios de búsqueda. Lo censurable es cuando se hace sin permiso. Cuando esto ocurre, no tienes forma de saber dónde están tus datos y cómo se están utilizando. Esto puede ocurrir en muchos tipos de sitios web de cara al público, como el comercio electrónico, los sitios de noticias y las redes sociales. Es inaceptable que tus datos se tomen sin permiso y se usen de formas que no has consentido. En LinkedIn, nuestros miembros nos confían su información, por lo que prohibimos el scraping no autorizado en nuestra plataforma.

¿Qué prácticas no se consideran scraping?

El scraping no autorizado no es en sí un incumplimiento o piratería. Puede parecerlo, ya que los hackers suelen afirmar que han obtenido datos importantes de una empresa. Pero el scraping no significa que un atacante haya podido entrar en sistemas seguros, sortear cortafuegos o acceder a información protegida de la red. El scraping no autorizado permite a usuarios malintencionados recopilar una gran cantidad de datos y usarlos de formas insospechadas. Incluso sin acceder a una red, el scraping no autorizado puede ser muy perjudicial. Por tanto, utilizamos todas nuestras herramientas, incluida la IA y métodos legales, para poner fin a este tipo de prácticas y responsabilizar a los autores. En pocas palabras, y es importante aclararlo, piratería e incumplimiento no son sinónimos de scraping. Trataremos estos temas en otro artículo más adelante en nuestra serie.

¿Qué medidas tomamos para detener el scraping?

Nuestros equipos en LinkedIn crean, implantan y mantienen modelos y reglas que detectan y evitan conductas fraudulentas, sobre todo en cuanto a la prevención del scraping no autorizado. Vamos a definir algunos términos que utilizamos para entender mejor las medidas de protección que adoptamos contra los diferentes tipos de scraping. El scraping de perfiles públicos es cuando se extrae información visible en LinkedIn sin iniciar sesión en una cuenta, por ejemplo, el perfil público de un miembro. El scraping con inicio de sesión es cuando se extrae información visible al iniciar sesión en la cuenta de un miembro.

Para detectar el scraping de perfiles públicos, nuestros modelos buscan señales de visualización automatizada de perfiles. Dada la naturaleza polémica del scraping no autorizado, nuestros modelos se reentrenan e implantan de forma automática varias veces al día para identificar nuevas señales. Nuestra herramienta de detección de abusos funciona a gran escala, y nuestra infraestructura está diseñada para ayudar a proteger a nuestros miembros y sus datos sin afectar su experiencia en LinkedIn. Además, incorporaremos señales avanzadas a nuestros modelos de aprendizaje automático y los reentrenaremos más seguido para hacer frente a nuevos patrones de ataque.
También tenemos modelos para defendernos del scraping con inicio de sesión. En este caso, buscamos posibles actividades de bots. Usamos el deep learning para clasificar secuencias de comportamientos automatizados y también la detección de valores atípicos para identificar actividades que no parecen humanas. Ponemos a disposición de otras empresas el código abierto que utilizamos en la detección de valores atípicos para que también puedan aprovecharlo con estos fines. Cuando detectamos que un miembro está haciendo scraping, le facilitamos información sobre cómo corregir este comportamiento.
Además de limitar la frecuencia de ciertas actividades, también implantamos diferentes niveles de seguridad que detectan y eliminan cuentas falsas que hacen scraping en distintas fases. Nuestro objetivo es identificar cuentas falsas lo antes posible para garantizar la seguridad de nuestros miembros.

¿Qué pueden hacer los miembros para protegerse?

Queremos que los miembros tengan una idea clara de la información que comparten en LinkedIn. Todos los días, garantizamos su seguridad y la de sus datos con un arsenal completo de técnicas avanzadas. Dedica un momento a comprobar qué información has añadido, desde datos de contacto hasta tu experiencia laboral y familiarízate con tu configuración. Además, echa un vistazo a tu página de perfil público para saber qué información está disponible para el público general y asegurarte de qué es exactamente lo que quieres que sea visible para los motores de búsqueda y otros servicios fuera de LinkedIn. Si quieres, puedes limitar o cambiar las opciones. A partir de ahí, nos comprometemos a respetar tus preferencias para garantizar tu seguridad y la de tus datos.