Exemple de capture de site avec HTTrack

httrack

Testée avec la version WinHTTrack Website Copier 3.30-RC-5 (+swf)

Kakadu National Park juin 2003

nom du projet : Kakadu
adresses Web(URL) :
http://www.pbs.org/edens/kakadu/
http://members.ozemail.com.au/~eparker/kakadu/kakadu.html
http://www.atn.com.au/nt/north/kakadu.htm
http://www.ea.gov.au/parks/kakadu/
http://www.northernterritory.com/northernterritory/index.cfm?attributes.fuseaction=MainFrame&id=Kakadu
durée de la capture : 3 heures (modem 56k)
ajoutez dans règles de filtrage :
+*.png +*.gif +*.jpg +*.css +*.js
-*.hqx
-*.exe -*.zip -*.doc afin d'éviter de très gros fichiers Word
-*.pdf éventuellement, car ils sont nombreux
+*/kakadu.html pour capturer tous les liens externes relatif au parc (en particulier www.wcmc.org.uk\protected_areas\data\wh\kakadu.html)
dans l'onglet Limites limitez à 100000 ou 200000 la taille des autres fichiers.

problème :

taille du site

Autres exemples avec des difficultés similaires : Marian High | Areaparks

solution :

Les limites détaillées ci-dessus permettent d'effectuer la capture en plusieurs étapes.
On peut les modifier pour ajouter les gros fichiers à condition de fixer des limites pour le taux maximal et le nombre max de connexions par seconde pour ne pas bloquer les sites ou surcharger les serveurs.
On peut aussi, après recherche des liens intéressants, compléter les adresses Web ou les règles de capture en prenant garde à ne pas dépasser la taille d'un CD-ROM.
La capture est exploitable avec des élèves, WinHTTrack a créé un fichier d'index permettant d'accéder à tous les sites.
hautHaut de la page

Avec javascript

W3C XHTML 1.0
W3C CSS