DOE AGORA Qualquer valor

Inteligência de código aberto (OSINT) em esteróides

OSINT | IA GENERATIVA | SENSORIAMENTO REMOTO

Inteligência de código aberto (OSINT) em esteróides

Meirav Nevo

4 minutos de leitura

Imagem de satélite EROS C3 enriquecida com um exemplo de camada de dados OSINT

Motivação

A ISI desenvolveu uma ferramenta Open Source Intelligence (OSINT) que aproveita a IA generativa para realizar tarefas de pesquisa de inteligência geoespacial (GEOINT) e integrar os dados recebidos em um sistema de armazenamento dedicado. Esta ferramenta é crucial para agendar aquisições de imagens de satélite com base em dados do mundo real, garantindo que a informação seja oportuna e relevante. Ele identifica habilmente tendências, eventos e anomalias, permitindo que os pesquisadores de inteligência se concentrem em análises detalhadas, aproveitando sua extensa base de conhecimento. Além disso, a ferramenta é capaz de gerar metadados para imagens de satélite, enriquecendo-as com camadas adicionais de dados.

Os principais componentes desta ferramenta que auxiliam os pesquisadores a navegar de forma eficiente e eficaz no vasto volume de dados OSINT geoespaciais são um grande modelo de linguagem (LLM) combinado com uma estrutura de geração aumentada de recuperação (RAG), um modelo de incorporação e uma base de conhecimento vetorial. Ele aproveita a IA generativa para melhorar significativamente a capacidade dos pesquisadores de obter insights mais profundos de maneira intuitiva e rápida. Equipado com filtragem de metadados e empregando uma abordagem de pesquisa híbrida, aumenta a relevância dos resultados e acelera o processamento de consultas, melhorando assim as capacidades dos pesquisadores GEOINT.

Vamos entender os principais conceitos e terminologia.

Termos essenciais

Bases de conhecimento, geração aumentada de recuperação (RAG), incorporações, pesquisa híbrida e filtragem de metadados são tecnologias interconectadas que melhoram o desempenho de grandes modelos de linguagem (LLMs) no fornecimento de respostas precisas e contextualmente relevantes.

  1. Bases de Conhecimento: Permite a integração de modelos básicos (FMs/LLMs) com fontes de dados internas da empresa, permitindo que as organizações aproveitem seus dados existentes de forma mais eficaz. Ao conectar esses modelos avançados a informações proprietárias, as empresas podem fornecer respostas que não são apenas mais precisas, mas também adaptadas ao contexto e às necessidades específicas do negócio. Esta integração aumenta a relevância e especificidade da informação recuperada, tornando as interações mais significativas e eficientes.
  2. Embeddings: são representações vetoriais de alta dimensão de texto ou dados que capturam significado e relacionamentos semânticos. Eles transformam as entradas em formatos numéricos que podem ser processados ​​e comparados com eficiência. Nos sistemas RAG, os embeddings permitem a recuperação precisa de documentos relevantes, medindo a similaridade entre os vetores.
  3. Geração Aumentada de Recuperação (RAG) : Esta técnica aproveita uma base de conhecimento externa para aprimorar as respostas dos LLMs. Ao anexar o contexto recuperado desta base de conhecimento ao prompt inicial do usuário, o RAG fornece ao LLM informações adicionais e relevantes que não foram incluídas em seus dados de treinamento originais. Essa entrada enriquecida ajuda o LLM a gerar resultados mais precisos.
  4. Pesquisa Híbrida : Dentro da estrutura RAG, a pesquisa híbrida desempenha um papel crucial. Ele combina a precisão da pesquisa por palavra-chave com a profundidade da pesquisa semântica para lidar com as consultas dos usuários de maneira eficaz. Ao analisar a intenção e os termos-chave da consulta de um usuário, o sistema emprega vetores semânticos e técnicas tradicionais de pesquisa por palavras-chave para encontrar os documentos mais relevantes. Os resultados destes dois métodos de pesquisa são então integrados, priorizando documentos que atendam a ambos os critérios de pesquisa. Isto garante que as informações recuperadas sejam precisas e contextualmente relevantes, fornecendo uma base sólida para o LLM gerar a sua resposta.
  5. Filtragem de metadados : A filtragem de metadados refina ainda mais o processo de recuperação de documentos usado em sistemas RAG, permitindo pesquisas mais direcionadas. Ao aplicar filtros de metadados, os usuários podem especificar quais documentos recuperar, concentrando-se apenas naqueles que são mais relevantes para a consulta. Isto é conseguido usando arquivos de metadados personalizados, que o sistema usa para pré-filtrar o conjunto de documentos antes de realizar uma pesquisa semântica. Este método não só melhora a relevância dos resultados da pesquisa, mas também aumenta a eficiência, reduzindo a carga computacional e os custos associados.

Então, com esse entendimento, podemos agora nos aprofundar na arquitetura.

Trabalho de engenharia

Fluxo de trabalho RAG

Fluxo de consulta do usuário

  1. O processo começa com um pesquisador enviando uma consulta.
  2. A consulta é processada por um modelo de incorporação, que converte a entrada em uma representação vetorial de alta dimensão (incorporação).
  3. A incorporação gerada a partir da consulta do pesquisador é enviada para o banco de dados vetorial que serve como base de conhecimento. Este banco de dados armazena incorporações pré-computadas de documentos relevantes. A pesquisa híbrida e a filtragem de metadados são empregadas para encontrar com eficiência documentos relevantes que correspondam à incorporação de entrada.
  4. Os documentos recuperados são usados ​​para aumentar a consulta original, integrando contexto adicional dos documentos para criar um prompt enriquecido.
  5. O prompt enriquecido é inserido em um modelo generativo personalizado. Este modelo gera uma resposta precisa e contextualmente relevante com base no prompt enriquecido. A resposta gerada é fornecida ao pesquisador, completando o fluxo de trabalho primário.

Ingestão contínua de dados

  • Novos documentos OSINT e seus metadados associados são continuamente ingeridos no banco de dados vetorial. Esses documentos são processados ​​por um modelo de incorporação para gerar incorporações.
  • Os metadados associados a cada documento, como a fonte do documento, a data de publicação e outros atributos relevantes, também são armazenados separadamente. No entanto, esses metadados não passam pelo modelo de incorporação.
Desenho DALL·E de um pesquisador de inteligência participando de um bate-papo OSINT

Conclusão

Como sugere o título 'Inteligência de código aberto (OSINT) em esteróides' desta história, testemunhamos os poderosos recursos que IA generativa, bases de conhecimento, geração aumentada de recuperação (RAG), pesquisa híbrida e filtragem de metadados trazem para o campo de inteligência geoespacial.
Esta transformação garante que os investigadores de inteligência possam aceder rapidamente a dados altamente relevantes e contextualmente ricos, reduzindo drasticamente o tempo de obtenção de insights e melhorando os processos de tomada de decisão.

Comentários

Ebook

Postagens mais visitadas