DOE AGORA Qualquer valor

Twayback é uma junção do Twitter e da Wayback Machine . Digite o nome de usuário do Twitter desejado e deixe o Twayback fazer o resto!

Twayback: Download de Tweets excluídos do Wayback Machine, facilitado

Encontrar e baixar Tweets excluídos leva muito tempo. Felizmente, com esta ferramenta, torna-se um pedaço de bolo!🎂

Twayback é uma junção do Twitter e da Wayback Machine . Digite o nome de usuário do Twitter desejado e deixe o Twayback fazer o resto!

Recursos

  • Pode baixar alguns ou todos os Tweets excluídos arquivados de um usuário.
  • Permite extrair o texto dos Tweets para um arquivo de texto (sim, até retuítes de citações!)
  • Tem capacidade de captura de tela de Tweets excluídos.
  • Permite que o intervalo de tempo personalizado limite a pesquisa de Tweets excluídos arquivados entre duas datas.
  • Diferencia entre contas ativas, suspensas ou que não existem/não existem mais.
  • Informa se os Tweets arquivados de um identificador de destino foram excluídos do Wayback Machine.

Uso

twayback -u NOME DE USUÁRIO [OPÇÕES]

-u, --username                                        Specify target user's Twitter handle

-from, --fromdate                                     Narrow search for deleted Tweets *archived*
                                                      on and after this date
                                                      (can be combined with -to)
                                                      (format YYYY-MM-DD or YYYY/MM/DD
                                                      or YYYYMMDD, doesn't matter)
                                        
-to, --todate                                         Narrow search for deleted Tweets *archived*
                                                      on and before this date
                                                      (can be combined with -from)
                                                      (format YYYY-MM-DD or YYYY/MM/DD
                                                      or YYYYMMDD, doesn't matter)
Examples:
twayback -u taylorswift13                             Downloads all of @taylorswift13's
                                                      deleted Tweets

twayback -u jack -from 2022-01-05                     Downloads all of @jack's
                                                      deleted Tweets
                                                      *archived* since January 5,
                                                      2022 until now

twayback -u drake -to 2022/02/09                      Downloads all of @drake's
                                                      deleted Tweets *archived*
                                                      since the beginning until
                                                      February 9, 2022

twayback -u EA -from 2020-08-30 -to 2020-09-15        Downloads all of @EA's
                                                      deleted Tweets *archived*
                                                      between August 30, 2020 to
                                                      September 15, 2020

Instalação

Apenas para Windows

  1. Baixe o arquivo EXE mais recente.
  2. Inicie o prompt de comando no diretório do arquivo EXE.
  3. Execute o comando twayback -u USERNAME(Substitua USERNAMEpelo seu identificador de destino).

Para Windows, Linux e macOS

  1. Baixe o arquivo ZIP do script Python mais recente.
  2. Extraia o arquivo ZIP para um diretório de sua escolha.
  3. Abra o terminal nesse diretório.
  4. Execute o comando pip install -r requirements.txt.
  5. Execute o comando twayback.py -u USERNAME(Substitua USERNAMEpelo seu identificador de destino).

Para obter mais informações, confira a seção Uso acima.

Capturas de tela

As capturas de tela são feitas usando o Selenium. Para fazer capturas de tela com sucesso, siga estas etapas:

  1. Certifique-se de ter o Chrome instalado.
    • O Firefox funciona, mas você precisa editar o script para substituir o Chrome pelo Firefox. Além disso, o Firefox não é ótimo com capturas de tela.
  2. Anote sua versão do Chrome.
  3. Acesse esta página e baixe o driver do Chrome apropriado para sua versão do Chrome.
  4. Coloque o driver do Chrome no diretório de instalação do Python ou adicione-o ao PATH.

Coisas para manter em mente

  • A qualidade dos arquivos HTML depende de como o Wayback Machine os salvou. Alguns são melhores que outros.
  • Esta ferramenta é melhor para texto. Você pode ter alguma sorte com fotos. Você não pode baixar vídeos.
  • Por definição, se uma conta for suspensa ou não existir mais, todos os seus Tweets serão considerados excluídos.
  • O intervalo de datas personalizado não é sobre quando os Tweets foram feitos, mas sim sobre quando eles foram arquivados . Por exemplo, um Tweet de 2011 pode ter sido arquivado hoje.

Pedir ajuda🙏

Congratulo-me e encorajo contribuições! Eles fazem o meu dia. O que consigo pensar de cabeça:

  • Aumentar a velocidade de download: seria bom aumentar a velocidade com que os arquivos são baixados. requestsleva 5 segundos para baixar um arquivo em kilobytes. Existem alternativas mais rápidas para solicitações, como pycURLfaster_than_requestsurllib3Eu não consegui que eles funcionem com sucesso. Eu só quero usar a biblioteca mais rápida para baixar os arquivos HTML e analisar o texto, tudo bem se o resto for feito com requests.
  • Simplificação/melhoria de código : Se você é um profissional em Python e conhece melhores maneiras de fazer o que está no script, sinta-se à vontade para fazê-lo! Se funcionar bem, se não melhor, provavelmente farei merge😃
  • Mesclando Twayback A e B : Eu adoraria ajudar a combinar os dois scripts. É demorado editar e compilar dois scripts simultaneamente. Também pode ser confuso para os recém-chegados. Uma maneira que estou pensando é dar ao usuário uma opção desde o início para chamar o arquivo .py do Twayback A ou o arquivo .py do Twayback B. Por ter um main.py, posso compilar usando pyInstaller ambas as versões em um executável .(graças a @humandecoded por suas valiosas contribuições que tornaram isso possível!)
  • async/await : Este é muito necessário. Estou tentando criar outra versão do script que não verifica o código de status de cada URL arquivada. Em vez disso, ele obtém a lista de URLs arquivados do Wayback Machine, obtém a lista de URLs online do perfil do Twitter, subtrai ambos e divide os URLs do Twitter para que seus IDs sirvam como nomes de arquivos. Tudo isso pode ser bem lento sem async/await. Tentei implementá-lo, mas sou péssimo nisso e não sei onde colocar o quê. Multithreading e multiprocessamento também são bons. (graças a @humandecoded !)

Comentários

Ebook

Postagens mais visitadas