Série sobre segurança no LinkedIn: o que é a raspagem de dados?

Paul Rockwell

Seasoned tech exec (Product, Operations, Safety, CX), board member, startup advisor

Queremos garantir que nossos usuários tenham a melhor experiência possível em um ambiente seguro. Nos esforçamos diariamente para proteger os dados de nossos usuários e garantir que eles tenham controle sobre as informações que publicam na plataforma. As Equipes de Confiança Global do LinkedIn criam, implementam e mantêm modelos que detectam e impedem comportamentos abusivos, ataques e fraudes, além de reduzir de modo geral o compartilhamento de conteúdos inapropriados na nossa plataforma. A maioria das empresas não revela as abordagens de segurança utilizadas. Esta é a primeira publicação de uma série de tópicos relacionados à segurança, que fornecerá informações mais transparentes sobre esse assunto.

Vamos ao que interessa, começando por um dos tópicos mais complexos: coleta de dados.

Verdades sobre a coleta de dados:

A coleta de dados existe desde os primórdios da Internet, mas essa técnica tem sido utilizada cada vez mais e de maneira mais complexa. Atualmente, a coleta de dados mais conhecida é a não autorizada, que utiliza códigos e métodos de coleta automatizados para realizar milhares de solicitações por segundo e burlar mecanismos de segurança a fim de extrair dados sem consentimento. Os dados podem ser coletados de vários sites, combinados e vendidos em grandes lotes para serem usados em phishing e campanhas fraudulentas criadas para induzir pessoas a compartilhar dados pessoais.

Mas é importante ressaltar que a coleta de dados nem sempre é utilizada para atividades maliciosas. Ferramentas de pesquisa podem fazer a coleta de dados para coletar e classificar informações da Internet. Quando as pessoas realizam pesquisas e encontram links com trechos de informações, esse tipo de raspagem acaba favorecendo tanto os sites quanto os usuários dessas ferramentas. Essa atividade é maliciosa apenas se for realizada sem consentimento; nesses casos, não é possível saber o destino dos dados nem como eles serão utilizados. Isso pode acontecer em muitos tipos de sites de acesso público, como comércio eletrônico, sites de notícias e redes sociais. É inaceitável que seus dados sejam coletados e utilizados sem a sua autorização. Os usuários compartilham dados pessoais no LinkedIn, e é por isso que a coleta de dados não autorizada é proibida na nossa plataforma.

Mitos sobre a coleta de dados:

A coleta de dados não autorizada não é considerada como violação de segurança nem ataque de hacking — embora pareça, já que os hackers costumam dizer que têm acesso a dados importantes das empresas. Ela também não implica a invasão de sistemas seguros, a destruição de firewalls nem o acesso a dados de rede protegidos, mas pode ser um meio utilizado por agentes maliciosos para coletar grandes quantidades de dados e utilizá-los de maneira irregular. Mesmo sem invadir uma rede, a coleta não autorizada pode trazer consequências extremamente prejudiciais. Portanto, usamos todo o nosso conjunto de ferramentas (incluindo IA e outros métodos legais) para evitar esse tipo de comportamento e responsabilizar os autores.

Resumindo, a coleta de dados não é sinônimo de violação de dados nem ataque de hacking. Abordaremos esses tópicos posteriormente em outras publicações desta série.

Medidas para o combate à coleta de dados:

As equipes do LinkedIn criam, implementam e mantêm modelos e regras que detectam e evitam comportamentos abusivos, incluindo a coleta de dados não autorizada. A definição de alguns termos utilizados nos ajuda a compreender as medidas de proteção contra diferentes tipos de coleta de dados. A coleta de dados de um perfil público é a coleta de informações que podem ser vistas no LinkedIn sem a necessidade de entrar em uma conta (por exemplo, dados de perfis públicos de usuários). A coleta após início de sessão é a coleta de informações que só podem ser vistas após o início da sessão em uma conta de usuário.

Os nossos modelos buscam sinais de visualização automatizada de perfis para identificar a coleta do perfil público. Devido à complexidade da coleta não autorizada, nossos modelos são continuamente atualizados e automaticamente implementados várias vezes por dia para que possam identificar novos sinais. A detecção de comportamentos abusivos é executada de maneira abrangente no LinkedIn. Nossa infraestrutura foi desenvolvida para ajudar a proteger nossos usuários e seus dados sem afetar a experiência deles na plataforma. Além disso, implementaremos sinais avançados em nossos modelos de machine learning e os atualizaremos constantemente para que possam identificar novos padrões de ataque.
Nossos modelos também protegem os usuários da coleta de dados após início de sessão ao buscar possíveis atividades de bots. Utilizamos o deep learning para classificar sequências de comportamentos automatizados e a detecção de anomalias para identificar atividades com aspecto automatizado. Disponibilizamos o código aberto que utilizamos para a detecção de anomalias, permitindo que outras empresas também o utilizem para o mesmo fim. Quando identificamos usuários que tiveram seus dados coletados, fornecemos a eles as informações necessárias sobre como corrigir esse comportamento.
Além dos limites na taxa de determinadas operações, o LinkedIn implementa camadas adicionais de segurança para identificar e derrubar contas falsas envolvidas em atividades de raspagem de dados. O objetivo é detectar contas falsas o mais rápido possível para garantir a segurança dos nossos usuários.

Ações que os usuários podem realizar para se protegerem:

Os usuários devem compreender claramente quais informações estão disponibilizando no LinkedIn. Utilizamos diversas técnicas avançadas para manter a nossa plataforma segura, mas é importante dedicar um tempo para analisar as informações compartilhadas no LinkedIn (desde os dados de contato até o histórico profissional), conferir as configurações da sua conta e verificar o seu perfil público para saber quais informações estão disponíveis ao público geral e fazer os devidos ajustes caso não queira que algumas delas sejam acessadas por ferramentas de pesquisa e outros serviços fora da plataforma do LinkedIn. As preferências da conta podem ser editadas, e a nossa responsabilidade é implementá-las para garantir a sua segurança e proteger seus dados.