PALESTRA DE CAIXA DE FERRAMENTAS OSINT
PALESTRA DE CAIXA DE FERRAMENTAS OSINT
RASPAGEM DE DADOS DE MÍDIA SOCIAL, ANÁLISE DE DESINFORMAÇÃO E RASPAGEM EM LOTE DO TELEGRAM
Mais uma vez, após um período muito movimentado para a equipe OS2INT, trazemos aos nossos leitores outro artigo do OSINT Toolbox Talk com foco em três das ferramentas OSINT mais eficazes experimentadas e testadas por nós nas últimas semanas. Começando com o Instant Data Scraper, mostramos aos nossos usuários como esta extensão simples e essencial do Google Chrome tem um impacto poderoso no que diz respeito à coleta de dados de sites de mídia social, como Facebook, Instagram e Twitter. Em seguida, focamos na extensão do Google Chrome WeVerify e InVid, que traz uma gama muito poderosa de recursos para analistas OSINT envolvidos na análise de desinformação de várias fontes - sem dúvida, esta é uma ferramenta essencial à luz da atual situação militar na Europa Oriental e o consequente aumento da desinformação russa nas mídias sociais. Finalmente, mostramos os recursos incríveis do TG-API, um utilitário Python eficaz que fornece aos usuários a capacidade de coleta em lote de vários canais e grupos do Telegram.
Fique ligado em nossas próximas análises de ferramentas OSINT, onde veremos ferramentas adicionais que podem ser usadas para investigar e analisar agentes de desinformação e coletar mídia de uma combinação de sites de mídia social!
INSTANT DATA SCRAPER: RASPE DADOS DE MÍDIA SOCIAL
Nesta última revisão da ferramenta OSINT, começaremos apontando que o Twitter implementou limites para a quantidade de dados que podem ser extraídos por meio do uso da API do Twitter. Consequentemente, esses limites apresentam problemas significativos para investigadores digitais e analistas de inteligência envolvidos na identificação e análise de suspeitos atores russos de desinformação. Este é especialmente o caso quando se considera a situação militar em andamento na Ucrânia e as tensões geopolíticas intensificadas. Mas, nós da OS2INT demonstraremos como superamos essas limitações usando o Instant Data Scraper para coletar dados de perfis do Twitter suspeitos de estarem envolvidos na disseminação de desinformação.
O que é o Instant Data Scraper?
Esta não é a primeira vez que apresentamos o Instant Data Scraper aos nossos leitores. Na verdade, demonstramos em um artigo anterior do OSINT Workflow como esta ferramenta pode ser usada para raspar listas de amigos do Facebook. Então, para familiarizar novamente nossos leitores com esta ferramenta, o Instant Data Scraper é uma extensão do Google Chrome desenvolvida pela Web Robots . A ferramenta é uma ferramenta de extração de dados automatizada para qualquer site. Ela usa IA para prever quais dados são mais relevantes em uma página HTML e permite salvá-los em arquivos Excel ou CSV (XLS, XLSX, CSV). Esta ferramenta não requer scripts específicos do site, em vez disso, ela usa IA para analisar a estrutura HTML dos sites para detectar dados para extração. Se a previsão não for satisfatória, o usuário pode personalizar as seleções para maior precisão. Além disso, a ferramenta vem pré-compilada com um recurso de 'rolagem infinita' que permite aos usuários adquirir dados HTML que são carregados automaticamente quando o usuário chega ao final da tela de uma página da web.
Instalação e implantação
Como o Instant Data Scraper é uma extensão do Google Chrome, ele só precisa ser baixado e instalado por meio da Google Chrome Web Store. No entanto, devemos enfatizar que a ferramenta é 100% gratuita para uso. A implantação da ferramenta é igualmente fácil – o usuário deve simplesmente navegar até a página da qual deseja fazer o scraping e iniciar a ferramenta pressionando o ícone do Instant Data Scraper na barra de ferramentas do navegador Chrome.
De quais plataformas de mídia social ele pode extrair dados?
A lista de sites e plataformas de mídia social com as quais o Instant Data Scraper é compatível é extremamente longa. No entanto, devemos dizer que passamos um tempo considerável usando a ferramenta para raspar de:
- Vkontakte
- Odnoklassiniki
- Telegram (Aplicativo Web)
No entanto, descobrimos que a ferramenta não é adequada para ser usada no LinkedIn, provavelmente devido à estrutura e marcação HTML da plataforma. No entanto, dado que a ferramenta foi desenvolvida para fornecer ao usuário o máximo de controle sobre o tipo de dados a serem raspados, é possível configurar a ferramenta para detectar elementos HTML específicos em qualquer página de destino.
Identificação de suspeitos de desinformação
Certamente, essa foi uma realização muito fácil quando se leva em conta a atual situação militar na Ucrânia. Além disso, o uso do Twitter por atores de desinformação pró-Rússia é muito bem estabelecido. Para identificar supostos atores de desinformação, entendemos que a notória letra 'Z' se tornou sinônimo de um sinal de apoio à invasão – esse caractere alfanumérico simbólico foi a base para nossa busca básica por atores de desinformação. Imediatamente, encontramos um número substancial de contas do Twitter pró-Rússia e pró-invasão. Em uma inspeção mais detalhada, a maioria dessas contas estava publicando e circulando desinformação.
Raspando listas de seguidores do Twitter
Como apontamos anteriormente, o Twitter implementou uma série de medidas para limitar a quantidade de dados que podem ser extraídos por meio de sua API. Esses limites afetam a quantidade de mídia, tweets e dados de seguidores que podem ser extraídos. No entanto, levando em consideração que o Instant Data Scraper não depende da API do Twitter para extrair dados, podemos usar essa ferramenta para extrair listas de seguidores dos perfis do Twitter associados a uma série de suspeitos de desinformação. Para fazer isso, simplesmente navegamos até a lista de seguidores de cada perfil de destino e iniciamos o scraper clicando no ícone do Instant Data Scraper localizado na barra de ferramentas de extensões do Chrome (canto superior direito).
Quando iniciada, a janela Instant Data Scraper será aberta. Nesta janela, agora precisamos selecionar a caixa de seleção 'Infinite Scroll'. Usamos o Infinite Scroll porque cada lista de seguidores no Twitter é construída com um recurso chamado 'lazy load', o que significa que o Twitter adiará a inicialização de um objeto (como seguidores) até o ponto em que for necessário. Com a caixa de seleção Infinite Scroll selecionada, agora podemos definir nossos valores de atraso mínimo e máximo - esses valores não apenas nos ajudarão a contornar mecanismos de limitação de taxa, mas também garantirão um rastreamento e raspagem mais precisos das listas de seguidores alvo. No nosso caso, definimos o valor mínimo de atraso como '3' e o valor máximo de atraso como '20'. Neste ponto, selecionamos a caixa azul rotulada 'Start Crawling'. Assim que o processo de rastreamento e raspagem foi concluído, optamos por baixar a lista de seguidores como um CSV. Em seguida, repetimos o mesmo processo em vários perfis adicionais do Twitter que suspeitamos estarem envolvidos na disseminação de desinformação.
Analisando os dados
Com nossas listas raspadas de perfis do Twitter suspeitos de estarem envolvidos na disseminação de desinformação pró-Rússia, escolhemos processar os mesmos dados em um gráfico de links. Isso nos permitiria visualizar como cada um dos perfis do Twitter está conectado e onde essas conexões se cruzam. Para conseguir isso, podemos combinar cada uma de nossas listas de seguidores raspadas em uma lista 'Node' e 'Edge' e, em seguida, visualizar os dados raspados usando Gephi . Instruções sobre como processar dados raspados e visualizá-los usando Gephi podem ser encontradas em nosso artigo anterior sobre fluxo de trabalho OSINT .
No entanto, no nosso caso, escolhemos carregar nossos dados no Paliscope YOSE simplesmente arrastando e soltando nossos arquivos CSV contendo os dados raspados no banco de dados YOSE. O resultado — como você pode ver na imagem acima — mostra que produzimos um extenso gráfico de links mostrando como cada um dos supostos atores de desinformação estava conectado e onde essas conexões se cruzam. A inteligência visual produzida pelo YOSE agora nos permite identificar atores de desinformação adicionais que podem ser de interesse de inteligência.
Resumindo
Para concluir este artigo, concluiremos dizendo que o Instant Data Scraper é uma ferramenta altamente eficaz que oferece resultados excelentes. Embora não tenha os recursos de automação normalmente encontrados em scripts baseados em Python, ele tem a capacidade de fornecer a qualquer usuário uma maneira simples e eficaz de extrair dados de uma variedade de páginas da web e plataformas de mídia social. No nosso caso, usamos o Instant Data Scraper para contornar as limitações associadas à API do Twitter para extrair dados de supostos atores de desinformação pró-Rússia e pró-invasão. A partir deste artigo, também encontramos a base para produzir um fluxo de trabalho mais amplo focado em atores de desinformação que operam no Twitter...fique de olho!
CAIXA DE FERRAMENTAS INVID E WEVERIFY: IDENTIFICAÇÃO E ANÁLISE DE DESINFORMAÇÃO
Link para a ferramenta: https://chrome.google.com/webstore/detail/fake-news-debunker-by-inv/mhccpoafgdgbhnjfhkcmgknndkeenfhe
A GUERRA DE INFORMAÇÃO EM CURSO
A eclosão da guerra na Ucrânia após a invasão russa resultou, sem dúvida, em um aumento no nível de desinformação — sendo disseminada principalmente por atores pró-invasão e pró-Rússia online. O que isso significa é que a narrativa da guerra na Ucrânia está se tornando muito distorcida pela crescente campanha de desinformação que foi implantada por atores pró-invasão e pró-Rússia. O perigo real a esse respeito decorre de campanhas de desinformação que mascaram as realidades de atrocidades reais e crimes de guerra que estão ocorrendo atualmente na Ucrânia — isso apresenta um cenário em que a desinformação pode afetar a situação no local. Somando-se a esse problema, há uma exigência clara para que analistas de inteligência de todas as fontes e jornalistas apliquem maior escrutínio a reportagens da mídia de fontes não confiáveis e não corroboradas. Neste ponto, apresentaremos agora a caixa de ferramentas altamente eficaz InVID e WeVerify que pode permitir que investigadores digitais, analistas de inteligência de todas as fontes e jornalistas identifiquem e analisem a desinformação.
O QUE É A CAIXA DE FERRAMENTAS INVID E WEVERIFY?
Para resumir bem claramente, a caixa de ferramentas InVID e WeVerify é, sem dúvida, o "canivete suíço" das ferramentas projetadas para detectar e analisar desinformação. A caixa de ferramentas tem como objetivo ajudar jornalistas, verificadores de fatos e defensores dos direitos humanos a economizar tempo e ser mais eficientes em suas tarefas de verificação de fatos e desmascaramento em redes sociais, especialmente ao verificar vídeos e imagens. É uma extensão baseada no Google Chrome que foi lançada inicialmente em julho de 2017 durante o projeto europeu InVID, uma ação de inovação do Horizonte 2020 financiada pela União Europeia. A caixa de ferramentas é atualmente mantida pela AFP Medialab R&D e foi aprimorada pelo projeto WeVerify , também financiado pela União Europeia.
INSTALAÇÃO E IMPLANTAÇÃO
Sendo uma extensão do Google Chrome, a caixa de ferramentas InVID e WeVerify pode ser instalada no seu navegador Chrome diretamente da Chrome Web Store. Nenhuma configuração é necessária para executar a ferramenta, embora devamos corretamente salientar que os recursos avançados são compreensivelmente restritos a verificadores de fatos, jornalistas e pesquisadores devido ao poder de computação necessário para executar tais recursos e evitar o uso indevido. Em um ponto altamente importante de privacidade, a equipe que mantém a caixa de ferramentas afirma que nenhum dado pessoal está sendo registrado. No entanto, eles usam o Google Analytics para entender melhor o uso, embora os usuários possam optar por não participar disso desmarcando a caixa de seleção do Google Analytics localizada na página "Sobre".
ENTÃO O QUE ELE PODE FAZER?
Um aviso aos nossos leitores: esta será uma seção longa, mas estejam preparados para ficar muito satisfeitos!
A caixa de ferramentas consiste nos seguintes módulos principais, cada um com seu próprio conjunto exclusivo de recursos:
- Módulo de vídeo contendo as seguintes funções :
- Análise de vídeo : fornece informações contextuais sobre um vídeo do YouTube, Facebook ou Twitter
- Keyframes : Fragmenta um vídeo do YouTube, Facebook ou Twitter ou um arquivo MP4 em keyframes para pesquisa reversa de imagens nos mecanismos de busca Google, Yandex, Bing, Tineye, Baidu ou Karma Decay (para Reddit)
- Miniaturas : Extrai e executa uma pesquisa reversa de imagens das miniaturas de um vídeo do YouTube
- Direitos de vídeo : fornece informações sobre os direitos legais de um vídeo do YouTube ou Twitter
- Metadados : Extraia metadados de vídeos em formato MP4 ou M4V
- Módulo de imagem que possui as seguintes capacidades :
- Análise de imagem : fornece informações contextuais sobre uma imagem publicada no Facebook ou Twitter
- Lupa : fornece uma lente de aumento e um editor de fotos para ajudá-lo a examinar uma imagem cuidadosamente
- Metadados : Extrai metadados para imagens JPEG
- Forense : fornece um kit de ferramentas aprimorado para detectar falsificações e alterações de imagens em imagens manipuladas
- Reconhecimento óptico de caracteres : permite que você leia texto de imagens
- Verificar GIF : Um recurso avançado restrito a verificadores de fatos, jornalistas e pesquisadores registrados que permite criar um GIF entre uma imagem manipulada e uma original para revelar melhor a manipulação
- Módulo de pesquisa que permite aos usuários realizar o seguinte :
- Pesquisa no Twitter : permite que os usuários realizem consultas de pesquisa avançadas no Twitter
- Factchecks : Fornece uma busca personalizada de fact-checks. Infelizmente, esse recurso foi descontinuado desde a última atualização do Google, mas uma solução está sendo explorada no momento.
- XNetwork : Fornece uma pesquisa personalizada de consultas entre redes. Infelizmente, esse recurso foi descontinuado desde a última atualização do Google, mas uma solução está sendo explorada no momento.
- Módulo de análise de dados que oferece os seguintes recursos :
- Twitter SNA : Um recurso avançado restrito a verificadores de fatos, jornalistas e pesquisadores registrados que permite que você execute análises de redes sociais no Twitter
- Análise CSV : Pode executar análise de rede social a partir de uma exportação CSV do CrowdTangle. A extensão CrowdTangle Chrome pode ser instalada em: https://chrome.google.com/webstore/detail/crowdtangle-link-checker/klakndphagmmfkpelfkgjbkimjihpmkh/related?authuser=1
DETECTAR E ANALISAR DESINFORMAÇÃO
Pode-se concordar razoavelmente que o Twitter é responsável pela vasta quantidade de desinformação que está circulando nas principais plataformas de mídia social. Portanto, testamos a caixa de ferramentas InVID e WeVerify em vários atores de desinformação pró-invasão e pró-Rússia usando o Twitter para disseminar e circular notícias falsas. Usando os recursos de Análise de Imagem e Forense, conseguimos detectar fácil e rapidamente imagens modificadas sendo disseminadas por vários atores de desinformação.
Aplicamos o mesmo para vários vídeos sendo circulados pelos mesmos atores de desinformação usando o módulo Keyframes para dividir vídeos em quadros e conduzir pesquisas reversas de imagens. Por fim, usamos o recurso Twitter SNA para conduzir uma análise abrangente de desinformação no Twitter. Este módulo não apenas fornece uma gama de inteligência visual em relação a URLs, hashtags e URLs associados à desinformação, mas também permite que você revele usuários que compartilharam e/ou curtiram tweets contendo desinformação. Como um mimo final, as saídas deste módulo incluem a capacidade de produzir arquivos GEXF que podem ser abertos e visualizados no Gephi . O resultado é muito parecido com as saídas discutidas em nosso artigo anterior OS2INT Tool Review .
CONCLUINDO TUDO!
Tudo o que podemos dizer é que a caixa de ferramentas InVID e WeVerify é simplesmente excelente, tanto em termos da gama de ferramentas que fornece, quanto de sua eficácia geral. Esta caixa de ferramentas foi desenvolvida para um propósito muito importante; com 68 mil usuários ativos por semana de 223 países (e crescendo!!), esta caixa de ferramentas é claramente bem conhecida e confiável por jornalistas, verificadores de fatos e pesquisadores em todo o mundo. Então, para levar este artigo de revisão da ferramenta OSINT a uma conclusão natural e adequada, nós da OS2INT vemos uma necessidade muito real de que esta ferramenta seja usada para separar fatos de notícias falsas sobre a guerra em andamento na Ucrânia. Como tal, esta caixa de ferramentas vem com nossa mais alta recomendação!
TG-API: RASPAGEM EM LOTE DE CANAIS E GRUPOS DO TELEGRAM
Link para a ferramenta: https://github.com/estebanpdl/tg-api
O VALOR DO TELEGRAM PARA ANALISTAS OSINT
O Telegram é, sem dúvida, uma fonte vital de dados e informações sobre a guerra em andamento na Ucrânia. Por um lado, os canais e grupos do Telegram criados por civis locais estão sendo usados para relatar os movimentos das tropas russas; por outro lado, os atores de desinformação pró-Rússia e pró-invasão criaram um número significativo de canais para transmitir suas falsas narrativas. Embora o Telegram ofereça aos usuários a capacidade de exportar históricos de bate-papo por meio do recurso de exportação nativo que pode ser encontrado no aplicativo de desktop do Telegram, as ferramentas que podem extrair bate-papos em lote são consideravelmente poucas e distantes entre si. No entanto, uma dessas ferramentas que oferece aos analistas de OSINT a capacidade de extrair em lote de canais e grupos do Telegram é um utilitário baseado em Python chamado TG-API [Telegram API].
POR QUE VOCÊ PRECISARIA FAZER SCRAPING EM LOTE?
Usando a situação militar em andamento na Ucrânia como exemplo, há um risco real de 'sobrecarga de informações – ou dados'. Isso é causado pela enorme quantidade de canais e grupos do Telegram que existem dentro desse espaço e pela vasta quantidade de informações sendo postadas pelos usuários diariamente. Usar o recurso de chat de exportação nativo no aplicativo de desktop do Telegram simplesmente não é uma opção viável, pois levaria dias – ou talvez semanas – para arquivar cada grupo individualmente. A raspagem em lote permitiria, pelo menos, que analistas de OSINT raspassem continuamente de canais e grupos do Telegram e, em seguida, usassem os dados extraídos por meio de uma ferramenta de análise de terceiros eficaz.
O QUE O TG-API PODE FAZER?
O TG-API fornece várias funções muito úteis. Sua principal capacidade é que ele faz scraping individual ou em lote de canais e grupos do Telegram e, em seguida, gera arquivos JSON contendo os dados raspados. Esses dados incluem informações sobre o canal/grupo de destino, além de postagens de usuários raspadas. Além disso, o utilitário fornece aos usuários a capacidade de gerar um arquivo CSV com base nos arquivos JSON mencionados acima – o que é especialmente útil ao usar uma plataforma de terceiros para analisar os resultados.
INSTALAÇÃO E IMPLANTAÇÃO
Clonar a ferramenta do repositório Github é muito simples, e a instalação da ferramenta usando Python é feita invocando o comando padrão pip install -r requirements.txt
. No entanto, dependendo do sistema operacional de sua escolha, algumas das bibliotecas Python necessárias, como Louvain, Matplotlib e Pandas, precisarão ser instaladas manualmente invocando pip install [INSERT TARGET LIBRARY HERE]
. Depois que todas as bibliotecas Python necessárias forem instaladas, suas credenciais da API do Telegram precisam ser inseridas no config.ini
arquivo localizado na pasta raiz do utilitário.
Depois que todas as configurações estiverem concluídas, a ferramenta agora pode fazer scraping de seus canais/grupos de destino do Telegram invocando python main.py --telegram-channel [INSERT CHANNEL NAME]
. No entanto, se você precisar fazer scraping em lote de várias fontes, isso pode ser feito criando um arquivo .txt com uma lista de canais/grupos de destino do Telegram (um por linha) e salvando-o na pasta raiz do utilitário. Então, você pode executar a ferramenta para fazer scraping de várias fontes invocando o comando python main.py --batch-file [PATH TO TXT FILE]
.
O utilitário também oferece aos usuários a capacidade de extrair novas mensagens de canais/grupos de destino do Telegram invocando o comando python main.py --telegram-channel channelname --min-id [INSERT LAST ID NUMBER SCRAPED]
.
Como apontamos anteriormente, o TG-API funciona raspando dados de canais/grupos do Telegram, incluindo metadados e postagens, e salvando-os no formato JSON. Mas, se você precisar que os dados raspados estejam no formato CSV, isso pode ser facilmente alcançado invocando o comando python build-datasets.py
.
ANALISANDO A SAÍDA
O TG-API também tem como objetivo fornecer aos usuários a capacidade de produzir um arquivo Gephi com base em sua saída – permitindo, em última análise, que os usuários visualizem os dados coletados. Infelizmente, descobrimos que esse recurso tem um bug que o impede de funcionar (espero que o desenvolvedor do utilitário possa resolver esse problema). Dito isso, e voltando ao que indicamos anteriormente, coletar grandes quantidades de dados do Telegram pode ser uma tarefa inútil se você não tiver como analisá-los efetivamente.
Para analisar os dados coletados, recorremos ao YOSE da Paliscope – especificamente seu módulo Chat Analytics. No YOSE, estabelecemos uma lista abrangente de palavras-chave contendo uma gama completa de equipamentos militares russos para que possamos identificar e analisar interações onde houve correspondências de palavras-chave. Para processar nossos dados do Telegram no YOSE, simplesmente usamos seu recurso de arrastar e soltar e, em seguida, identificamos as colunas relevantes contendo os dados do chat do Telegram, os resultados (como mostrado abaixo) são muito bons!
Levando nossa análise ainda mais longe, usamos o YOSE para analisar o conjunto de dados e visualizar o fluxo de chats entre vários usuários e instâncias onde mensagens foram encaminhadas de um canal para outro. Como você pode ver na imagem abaixo, fomos capazes de criar uma imagem de inteligência eficaz sobre nossos chats raspados e visualizar como os chats e mensagens estão sendo compartilhados entre vários canais/grupos do Telegram.
NOSSAS CONSIDERAÇÕES FINAIS
TG-API é uma ferramenta muito boa para analistas de OSINT que precisam da capacidade de fazer scraping em lote de vários canais e grupos do Telegram. Embora o utilitário em si seja relativamente novo, alguns recursos contêm bugs ou avisos de descontinuação. Isso significa que, a menos que esses problemas sejam resolvidos em breve, a ferramenta pode não funcionar efetivamente no curto prazo. Problemas à parte, a ferramenta é muito capaz de extrair grandes quantidades de dados do Telegram de várias fontes e gerar conjuntos de dados que podem ser efetivamente analisados usando aplicativos de terceiros. Como já apontamos, há uma necessidade genuína de que os analistas de OSINT monitorando a situação na Ucrânia tenham a capacidade de fazer scraping em lote de vários canais/grupos do Telegram. Mas esses dados são inúteis a menos que você tenha a capacidade de processá-los e analisá-los efetivamente.
Comentários
Postar um comentário