Artículo de seguridad de LinkedIn: ¿Qué es el scraping?

Paul Rockwell

Seasoned tech exec (Product, Operations, Safety, CX), board member, startup advisor

11 de agosto de 2021

Para que nuestros miembros tengan la mejor experiencia posible, nuestro objetivo es mantenerlos seguros. Trabajamos cada día para proteger los datos de nuestros miembros y su capacidad para controlar la información que publican en LinkedIn. Nuestro equipo global crea, implementa y mantiene modelos que detectan y previenen el abuso, detienen los ataques y las estafas y, en general, limitan que los agentes maliciosos de Internet lleguen a nuestros miembros. Gran parte de los detalles sobre cómo las empresas hacen esto han permanecido entre bastidores, pero con este post queremos dar visibilidad a una serie de temas de seguridad.

Entremos de lleno en el tema, empezando por una de las áreas más difíciles: el scraping.

¿Qué es el scraping?

El scraping ha existido desde el inicio de Internet, pero ha aumentado de forma espectacular en escala y sofisticación. Hoy en día, el scraping del que más se habla es el no autorizado, que utiliza código y métodos de recopilación automatizados para hacer (hasta) miles de consultas por segundo y evadir los bloqueos técnicos para recoger datos sin permiso. Los datos pueden recogerse de varios sitios, filtrarlos y venderse en grandes lotes para ser utilizados en campañas de phishing y otras diseñadas para engañarte y hacerte compartir información privada.

Para ser claros, el scraping no siempre es malo. Los motores de búsqueda están expresamente autorizados a hacer scraping para recopilar e indexar información en todo Internet. Cuando la gente busca y encuentra enlaces con fragmentos de información, ese tipo de scraping beneficia en última instancia tanto a los sitios web como a los usuarios de los servicios de búsqueda. Lo que lo hace negativo es cuando se hace sin permiso. Cuando esto sucede, no tienes la capacidad de rastrear a dónde han ido tus datos y cómo se están utilizando. Esto puede ocurrir en muchos tipos de sitios web de cara al público, incluyendo el comercio electrónico, los sitios de noticias y las redes sociales. No es correcto cuando tus datos se extraen sin permiso y se utilizan de forma no consentida. En LinkedIn, nuestros miembros nos confían su información, por lo que prohibimos el scraping no autorizado en nuestra plataforma.

¿Qué no es el scraping?

El scraping no autorizado no es en sí mismo una brecha o un hackeo. Puede parecerlo, ya que los piratas informáticos suelen pregonar que tienen datos importantes de una empresa. Pero el scraping no significa que un atacante haya sido capaz de entrar en sistemas seguros, traspasar cortafuegos o acceder a información de red protegida. El scraping no autorizado puede significar que los actores malintencionados pueden recopilar una gran cantidad de datos y utilizarlos de forma inesperada. Incluso sin entrar en una red, el scraping no autorizado puede ser muy abusivo, por lo que utilizamos todo nuestro conjunto de herramientas, incluyendo la IA y los métodos legales, para detener este comportamiento y responsabilizar a los autores. En pocas palabras, y es importante aclararlo, hackeo y violación no son sinónimos de scraping. Abordaremos estos temas en otro artículo más adelante.

¿Qué estamos haciendo para detener el scraping?

Nuestros equipos en LinkedIn crean, implementan y mantienen modelos y reglas que detectan y previenen el abuso, incluyendo la prevención del scraping no autorizado. Vamos a definir algunos términos que utilizamos para que puedas entender un par de formas de protección contra los diferentes tipos de scraping. Cuando decimos "scraping de perfiles públicos", nos referimos a la extracción de información que se puede ver en LinkedIn sin entrar en una cuenta, por ejemplo, el perfil público de un miembro. Y cuando decimos "recopilación de datos de inicio de sesión", nos referimos al scraping de información que se puede ver cuando se ha iniciado una sesión en una cuenta de miembro.

Para detectar el scraping de perfiles públicos, nuestros modelos buscan señales de visualización automática de perfiles. Debido a la naturaleza adversa del scraping no autorizado, nuestros modelos se actualizan y se despliegan automáticamente varias veces al día para adaptarse rápidamente a las nuevas señales. Nuestra detección de abusos funciona a escala, y nuestra infraestructura está diseñada para ayudar a proteger a nuestros miembros y sus datos sin afectar negativamente a la experiencia de los miembros en LinkedIn. Además, vamos a incorporar señales avanzadas a nuestros modelos de aprendizaje automático, actualizándolos con mayor frecuencia para ayudar a adaptarse a los patrones de ataque evolucionados.
También tenemos modelos para defendernos del scraping de los usuarios registrados. Para ello, buscamos señales de actividad tipo bot. Empleamos el aprendizaje profundo para clasificar como automatizadas las secuencias de comportamiento de los usuarios, y también utilizamos la detección de valores atípicos para detectar la actividad que parece no ser humana. Hemos abierto el código que utilizamos para la detección de valores atípicos para que otras empresas puedan utilizarlo también para detectar abusos. Cuando detectamos que un miembro está haciendo scraping, le damos información sobre cómo corregir este comportamiento.

Además de los límites en la tasa, también empleamos un embudo de defensas adicionales que detectan y eliminan las cuentas falsas dedicadas al scraping en múltiples etapas. Nuestro objetivo es atrapar las cuentas falsas lo antes posible para evitar que nuestros usuarios se vean perjudicados.

¿Qué pueden hacer los miembros para protegerse?

Queremos que los miembros tengan una idea clara de la información que ponen a disposición en LinkedIn. Te protegemos a ti y a los datos de nuestra plataforma cada día, con un completo arsenal de técnicas en evolución. Dedica algo de tiempo a ver qué información has añadido, desde los datos de contacto hasta el historial laboral, y familiarízate con tu configuración. Además, echa un vistazo a tu página de perfil público para entender qué información puede ser pública y asegurarte de que es exactamente lo que quieres que sea visible para los motores de búsqueda y otros servicios ajenos a LinkedIn. Puedes optar por limitar o ajustar las opciones si lo deseas. A partir de ahí, nuestro trabajo es hacer cumplir tus elecciones para ayudar a mantenerte a ti y a tus datos seguros.

Basado en el post escrito por Paul Rockwell el 15 de julio de 2021.