Exemple de capture de site avec HTTrack
Gulliver's Theme Park Warrington juillet 2004
nom du projet : gulliversfunadresses Web(URL) :
www.gulliversfun.co.uk/warrington.htm
cocher : Essayer de détecter tous les liens
durée de la capture : 20 minutes (modem 56k)
ajoutez dans règles de filtrage :
+*.png +*.gif +*.jpg +*.css +*.js
-*.doc -*.pdf -*.zip
-*/miltonkeynes/*
-*/matlockbath/*
problèmes :
Fichiers non capturés, barre de navigation en FlashAutres exemples avec des difficultés similaires : Cedarpoint | The Engine Room | Discovery Cove | Ratanga | The Engine Room | Wild Waters Park | Rapids Water Park | Camelot Theme Park
solutions :
En fin de capture, plusieurs liens dans la barre de navigation en bas de page appellent des fichiers absents.
Dans le répertoire gulliversfun\www.gulliversfun.co.uk/anim on trouve le fichier Flash war_menu.swf à l'origine du problème.
L'utilitaire swf2html.exe téléchargeable sur le site de Macromedia va permettre de trouver les adresses et fichiers manquants (on peut aussi utiliser SWFRIP).
Copiez le fichier capturé (war_menu.swf) dans un répertoire de votre choix et effectuez l'opération suivante :
Puis ouvrez (éditez) le fichier html (war_menu.html) créé.
Ces liens n'ont pas été analysés.
Il devraient se trouver dans le répertoire www.gulliversfun.co.uk/warrington comme nous l'indique le message du navigateur quand on clique sur les liens rompus.
Il nous manque times.htm, groups.htm, events.htm, contact.htm et shopin.htm.
Nous allons donc ajouter dans les adresses Web(URL) à capturer :
http://www.gulliversfun.co.uk/warrington/times.htm http://www.gulliversfun.co.uk/warrington/groups.htm http://www.gulliversfun.co.uk/warrington/events.htm http://www.gulliversfun.co.uk/warrington/contact.htm http://www.gulliversfun.co.uk/warrington/shopin.htm
On relance la capture, et tous les liens sont maintenant opérationnels.
De nombreux fichiers pdf, zip et doc peuvent être capturés en modifiant les règles de capture.
Si vous souhaitez capturer les sites de Milton Keynes et Matlock Bath, il faut modifier les règles de capture (ôter -*/miltonkeynes/* -*/matlockbath/*) et ajouter
http://www.gulliversfun.co.uk/miltonkeynes.htm http://www.gulliversfun.co.uk/miltonkeynes/times.htm http://www.gulliversfun.co.uk/miltonkeynes/groups.htm http://www.gulliversfun.co.uk/miltonkeynes/events.htm http://www.gulliversfun.co.uk/miltonkeynes/contact.htm http://www.gulliversfun.co.uk/miltonkeynes/shopin.htm http://www.gulliversfun.co.uk/matlockbath.htm http://www.gulliversfun.co.uk/matlockbath/times.htm http://www.gulliversfun.co.uk/matlockbath/groups.htm http://www.gulliversfun.co.uk/matlockbath/events.htm http://www.gulliversfun.co.uk/matlockbath/contact.htm http://www.gulliversfun.co.uk/matlockbath/shopin.htm
dans les adresses Web(URL) à capturer.