Twayback é uma junção do Twitter e da Wayback Machine . Digite o nome de usuário do Twitter desejado e deixe o Twayback fazer o resto!
Último commit
arquivos
Tipo
Nome
Última mensagem de confirmação
Tempo de compromisso
Twayback: Download de Tweets excluídos do Wayback Machine, facilitado
Encontrar e baixar Tweets excluídos leva muito tempo. Felizmente, com esta ferramenta, torna-se um pedaço de bolo!
Twayback é uma junção do Twitter e da Wayback Machine . Digite o nome de usuário do Twitter desejado e deixe o Twayback fazer o resto!
Recursos
- Pode baixar alguns ou todos os Tweets excluídos arquivados de um usuário.
- Permite extrair o texto dos Tweets para um arquivo de texto (sim, até retuítes de citações!)
- Tem capacidade de captura de tela de Tweets excluídos.
- Permite que o intervalo de tempo personalizado limite a pesquisa de Tweets excluídos arquivados entre duas datas.
- Diferencia entre contas ativas, suspensas ou que não existem/não existem mais.
- Informa se os Tweets arquivados de um identificador de destino foram excluídos do Wayback Machine.
Uso
twayback -u NOME DE USUÁRIO [OPÇÕES]
-u, --username Specify target user's Twitter handle
-from, --fromdate Narrow search for deleted Tweets *archived*
on and after this date
(can be combined with -to)
(format YYYY-MM-DD or YYYY/MM/DD
or YYYYMMDD, doesn't matter)
-to, --todate Narrow search for deleted Tweets *archived*
on and before this date
(can be combined with -from)
(format YYYY-MM-DD or YYYY/MM/DD
or YYYYMMDD, doesn't matter)
Examples:
twayback -u taylorswift13 Downloads all of @taylorswift13's
deleted Tweets
twayback -u jack -from 2022-01-05 Downloads all of @jack's
deleted Tweets
*archived* since January 5,
2022 until now
twayback -u drake -to 2022/02/09 Downloads all of @drake's
deleted Tweets *archived*
since the beginning until
February 9, 2022
twayback -u EA -from 2020-08-30 -to 2020-09-15 Downloads all of @EA's
deleted Tweets *archived*
between August 30, 2020 to
September 15, 2020
Instalação
Apenas para Windows
- Baixe o arquivo EXE mais recente.
- Inicie o prompt de comando no diretório do arquivo EXE.
- Execute o comando
twayback -u USERNAME
(SubstituaUSERNAME
pelo seu identificador de destino).
Para Windows, Linux e macOS
- Baixe o arquivo ZIP do script Python mais recente.
- Extraia o arquivo ZIP para um diretório de sua escolha.
- Abra o terminal nesse diretório.
- Execute o comando
pip install -r requirements.txt
. - Execute o comando
twayback.py -u USERNAME
(SubstituaUSERNAME
pelo seu identificador de destino).
Para obter mais informações, confira a seção Uso acima.
Capturas de tela
As capturas de tela são feitas usando o Selenium. Para fazer capturas de tela com sucesso, siga estas etapas:
- Certifique-se de ter o Chrome instalado.
- O Firefox funciona, mas você precisa editar o script para substituir o Chrome pelo Firefox. Além disso, o Firefox não é ótimo com capturas de tela.
- Anote sua versão do Chrome.
- Acesse esta página e baixe o driver do Chrome apropriado para sua versão do Chrome.
- Coloque o driver do Chrome no diretório de instalação do Python ou adicione-o ao PATH.
Coisas para manter em mente
- A qualidade dos arquivos HTML depende de como o Wayback Machine os salvou. Alguns são melhores que outros.
- Esta ferramenta é melhor para texto. Você pode ter alguma sorte com fotos. Você não pode baixar vídeos.
- Por definição, se uma conta for suspensa ou não existir mais, todos os seus Tweets serão considerados excluídos.
- O intervalo de datas personalizado não é sobre quando os Tweets foram feitos, mas sim sobre quando eles foram arquivados . Por exemplo, um Tweet de 2011 pode ter sido arquivado hoje.
Pedir ajuda🙏
Congratulo-me e encorajo contribuições! Eles fazem o meu dia. O que consigo pensar de cabeça:
- Aumentar a velocidade de download: seria bom aumentar a velocidade com que os arquivos são baixados.
requests
leva 5 segundos para baixar um arquivo em kilobytes. Existem alternativas mais rápidas para solicitações, comopycURL
,faster_than_requests
eurllib3
. Eu não consegui que eles funcionem com sucesso. Eu só quero usar a biblioteca mais rápida para baixar os arquivos HTML e analisar o texto, tudo bem se o resto for feito comrequests
. - Simplificação/melhoria de código : Se você é um profissional em Python e conhece melhores maneiras de fazer o que está no script, sinta-se à vontade para fazê-lo! Se funcionar bem, se não melhor, provavelmente farei merge
😃 Mesclando Twayback A e B : Eu adoraria ajudar a combinar os dois scripts. É demorado editar e compilar dois scripts simultaneamente. Também pode ser confuso para os recém-chegados. Uma maneira que estou pensando é dar ao usuário uma opção desde o início para chamar o arquivo .py do Twayback A ou o arquivo .py do Twayback B. Por ter um main.py, posso compilar usando pyInstaller ambas as versões em um executável .(graças a @humandecoded por suas valiosas contribuições que tornaram isso possível!)async/await : Este é muito necessário. Estou tentando criar outra versão do script que não verifica o código de status de cada URL arquivada. Em vez disso, ele obtém a lista de URLs arquivados do Wayback Machine, obtém a lista de URLs online do perfil do Twitter, subtrai ambos e divide os URLs do Twitter para que seus IDs sirvam como nomes de arquivos. Tudo isso pode ser bem lento sem async/await. Tentei implementá-lo, mas sou péssimo nisso e não sei onde colocar o quê. Multithreading e multiprocessamento também são bons.✅ (graças a @humandecoded !)
Comentários
Postar um comentário