Télécharger la liste

Description du projet

Heritrix is the Internet Archive's extensible, Web-scale,
archival-quality Web crawler.

Système requise

System requirement is not defined
Information regarding Project Releases and Project Resources. Note that the information here is a quote from Freecode.com page, and the downloads themselves may not be hosted on OSDN.

2009-09-20 07:05
1.14.3

Il s'agit d'une «libération de micro» avec des corrections de bugs et de petites améliorations demandées. La prochaine version majeure sera de 2,2 en 2009, ce qui est prévu d'inclure des mises à jour de la 2 Heritrix configuration du système et la fonctionnalité points de reprise, et des outils facilitant la transition de 1.14.x à Heritrix 2.2.
This is a 'micro' release with bugfixes and small requested improvements. The next major release will be 2.2 in 2009, which is planned to include updates to the Heritrix 2 configuration system and checkpointing functionality, and tools easing transition from 1.14.x to Heritrix 2.2.

2005-12-02 08:57
1.6.0

Cette version offre un meilleur contrôle et surveillance à distance via JMX, un crawl-installation points de reprise, un support expérimental pour filtrer la floraison déjà inclus des essais, le partitionnement d'une exploration à travers de multiples robots indépendants, et per-host/domain/queue-grouping quotas de collecte. Performance et la stabilité en grande rampe a été améliorée. 39 améliorations demandées ont été inclus et 96 bugs signalés ont été corrigés. Vous devrez ajuster votre commande anciens fichiers de nouveau pour les faire fonctionner avec la nouvelle version.
Tags: Major feature enhancements
This release offers improved remote control and
monitoring via JMX, a crawl-checkpointing
facility, experimental support for bloom filter
already-included testing, partitioning a crawl
across multiple independent crawlers, and
per-host/domain/queue-grouping collection quotas.
Performance and stability in large crawls was
improved. 39 requested enhancements were included
and 96 reported bugs were fixed. You will need to
tweak your old order files again to make them work
with the new release.

2005-04-29 08:37
1.4.0

Cette version comporte un usage beaucoup plus de mémoire améliorée, une étude de champ d'expérimentation de nouvelles / modèle de filtre, et une frontière revisitant nouvelles. Plus de 90 bogues ont été corrigés.
Tags: Major feature enhancements
This release features a much improved memory usage, a new experimental scoping/filter model, and a new revisiting frontier. Over 90 bugs were fixed.

2004-11-17 04:01
1.2.0

Cette version ajoute IP politesse, configurable URI-de canonisation, et la mi-fetch avorter. Il y avait aussi beaucoup de corrections de bugs.
Tags: Minor feature enhancements
This release adds IP-based politeness, configurable URI-
canonicalization, and mid-fetch abort. There were also lots of
bugfixes.

2004-09-23 20:53
1.0.4

Lignes Crawl.log et ARC métadonnées pouvaient auparavant espaces dans des URI et des champs MIME ETYPE.
Tags: Minor bugfixes
Crawl.log and ARC metadata lines could previously have whitespace in URIs and MIME etype fields.

Project Resources