O web crawler é um programa que atravessa automaticamente a web descarregando as páginas e seguindo os links de página para página. Um propósito geral do web crawler é descarregar qualquer página web que possa ser acedida através dos links. Este processo é chamado de rastreio de teia ou aranha. Muitos sites, em particular os motores de busca, usam a aranha como forma de fornecer dados atualizados. Os web crawlers são usados principalmente para criar uma cópia de todas as páginas visitadas para posterior processamento por um motor de pesquisa que irá indexar as páginas descarregadas para fornecer pesquisas rápidas. Os crawlers também podem ser usados para automatizar tarefas de manutenção em um site, como verificar links ou validar código HTML. Além disso, os crawlers podem ser usados para recolher tipos específicos de informação a partir de páginas Web, como a recolha de endereços de e-mail (geralmente para spam). Um web crawler é um tipo de bot, ou agente de software. Em geral, começa com uma lista de URLs para visitar, chamados as sementes. À medida que o crawler visita estes URLs, identifica todas as hiperligações da página e adiciona-as à lista de URLs a visitar, chamada a fronteira rastejante. Os URLs da fronteira são visitados de forma recursiva de acordo com um conjunto de políticas.
história da versão
- Versão 3.19 postado em 2012-01-15
primeira libertação pública
Detalhes do programa
- Categoria: Utilitários de Sistema > Ferramentas de Automação
- Editor: VietSpider
- Licença: Grátis
- Preço: N/A
- Versão: 3.19
- Plataforma: windows