Série sobre segurança no LinkedIn: O que é Scraping (raspagem ou extração de informações)?

August 11, 2021

Para que os usuários tenham a melhor experiência possível na plataforma, queremos mantê-los seguros. Trabalhamos todos os dias para proteger os dados da nossa comunidade e a capacidade de cada um em controlar as informações que são publicadas no LinkedIn. Nossa equipe global cria, implanta e faz a manutenção de modelos que detectam e previnem abusos, interrompem ataques, impedem golpes e geralmente limitam que coisas ruins que existem na Internet cheguem aos nossos usuários. Muitos dos detalhes sobre como as empresas fazem isso ficam nos bastidores, mas queremos abrir as portas com este primeiro post de uma série de outros em que abordaremos tópicos de segurança.

O que é Scraping (extração de informações)?

Scraping, também conhecido como raspagem ou extração de informações, existe desde o início da Internet, mas cresceu dramaticamente em número e grau. Hoje, o scraping de que mais ouvimos falar é o “não autorizado”, que usa código e métodos de coleta automatizados para fazer até mesmo milhares de consultas por segundo e evitar bloqueios técnicos para obter dados sem a permissão dos usuários. Os dados extraídos podem ser coletados de vários sites, listados e vendidos em grandes lotes, para serem usados ​​para a prática de phishing e outras campanhas destinadas a induzir o usuário a compartilhar informações privadas.

A atividade de scraping nem sempre é ruim. Os mecanismos de busca estão expressamente autorizados a fazer “scraps” para coletar e indexar informações na Internet. Quando as pessoas pesquisam e encontram trechos com informações importantes para a busca, esse tipo de coleta acaba beneficiando tanto os sites quanto os usuários que utilizam estes serviços. O que o torna a prática negativa é quando esta atividade é feita sem permissão. Quando isso acontece, você não consegue rastrear para onde seus dados foram e como estão sendo usados. Isso pode acontecer em muitos tipos de sites voltados ao público, incluindo comércio eletrônico, sites de notícias e redes sociais. Quando seus dados são obtidos sem autorização e usados ​​de maneiras que você não concordou, algo já não está certo. No LinkedIn, nossos usuários nos confiam suas informações e é por isso que proibimos essa coleta não autorizada em nossa plataforma.

O que não é considerado “scraping”?

A raspagem não autorizada por si só não é considerada uma violação ou um hack. Pode parecer que sim, já que os hackers costumam proclamar que possuem dados importantes de uma empresa. Mas o scraping não significa que um invasor foi capaz de entrar em sistemas seguros, subverter firewalls ou acessar informações de redes protegidas. A extração não autorizada pode significar que agentes mal-intencionados podem coletar muitos dados e usá-los de maneiras inesperadas. Mesmo sem entrar em uma rede, o scraping não autorizado pode ser altamente abusivo, por isso, usamos tudo o que está ao nosso alcance ferramental, incluindo inteligência artificial e métodos legais disponíveis para impedir esse comportamento e responsabilizar os invasores. Simplificando, é importante ressaltar que o hack e violação não são sinônimos de scraping. Trataremos desses tópicos em uma postagem separada posteriormente em nossa série.

O que estamos fazendo para impedir a prática má-intencionada?

Nossas equipes no LinkedIn criam, implantam e fazem a manutenção de modelos e regras que detectam e previnem abusos, incluindo a prevenção de scraping não autorizado. Vamos definir alguns termos que usamos para que você possa entender algumas das maneiras como protegemos contra diferentes tipos de extração de dados. Quando dizemos coleta de perfil público, queremos dizer coleta de informações que podem ser visualizadas no LinkedIn sem fazer login em uma conta - por exemplo, a conta pública de um usuário. E quando dizemos coleta de login, queremos dizer coleta de informações que podem ser visualizadas quando você está conectado a um perfil do LinkedIn.

  • Para detectar scraping de perfis públicos, nossas ferramentas procuram por sinais de visualização automatizada de perfis. Devido à natureza adversária do scraping não autorizado, nossas ferramentas passam por uma nova atualização e são implantadas automaticamente várias vezes por dia para se adaptarem rapidamente a novos sinais. Nossa detecção de abuso é executada em grande escala e nossa infraestrutura foi projetada para ajudar a proteger nossos usuários e seus dados sem afetar adversamente a experiência de cada um no LinkedIn. Além disso, incorporamos sinais avançados em nossos modelos de aprendizado de máquina, treinando-os com mais frequência para ajudar na adaptação aos padrões de ataque em evolução.

  • Também temos modelos para nos defender contra a raspagem conectada. Para isso, procuramos por sinais de atividade semelhante a um bot. Empregamos o aprendizado profundo para classificar as sequências de comportamento do usuário como automatizadas e também usamos a detecção de valores discrepantes para identificar atividades que parecem não ser humanas. Abrimos o código que usamos para detecção de outliers para que outras empresas também possam usá-lo para detectar abusos. Quando confirmamos que um usuário está sendo associado à prática de scraping, fornecemos informações sobre como corrigir esse comportamento.

  • Além desses limites, também empregamos um funil de defesas adicionais que detectam e retiram contas falsas envolvidas na exploração em vários estágios. Nosso objetivo é capturar perfis que não são reais  o mais rápido possível para evitar danos aos nossos usuários.

O que os usuários podem fazer para se proteger?

Queremos que os usuários tenham uma visão melhor sobre as informações que estão  sendo disponibilizadas no LinkedIn. Protegemos você e os dados em nossa plataforma todos os dias, com um arsenal completo de técnicas que sempre estão em evolução. Passe algum tempo olhando as informações que você adicionou, desde detalhes de contato até histórico de trabalho, e familiarize-se com suas configurações. Além disso, dê uma olhada em sua página de perfil público para entender quais dados podem ser públicos e garantir que sejam exatamente o que você deseja que possa ser visualizado por mecanismos de pesquisa e outros serviços fora do LinkedIn. Você pode optar por limitar ou ajustar as escolhas, se desejar. A partir daí, é nosso trabalho e compromisso garantir suas escolhas para ajudar a manter você e seus dados seguros.

Baseado no post escrito por Paul Rockwell em 15 de julho de 2021.