Exemple de capture de site avec HTTrack

httrack

Testée avec la version WinHTTrack Website Copier 3.33-beta-2 (+swf)

Gulliver's Theme Park Warrington juillet 2004

nom du projet : gulliversfun
adresses Web(URL) :
www.gulliversfun.co.uk/warrington.htm
cocher : Essayer de détecter tous les liens
durée de la capture : 20 minutes (modem 56k)
ajoutez dans règles de filtrage :
+*.png +*.gif +*.jpg +*.css +*.js
-*.doc -*.pdf -*.zip
-*/miltonkeynes/*
-*/matlockbath/*

problèmes :

Fichiers non capturés, barre de navigation en Flash

Autres exemples avec des difficultés similaires : Cedarpoint | The Engine Room | Discovery Cove | Ratanga | The Engine Room | Wild Waters Park | Rapids Water Park | Camelot Theme Park

solutions :

En fin de capture, plusieurs liens dans la barre de navigation en bas de page appellent des fichiers absents.
Dans le répertoire gulliversfun\www.gulliversfun.co.uk/anim on trouve le fichier Flash war_menu.swf à l'origine du problème.
L'utilitaire swf2html.exe téléchargeable sur le site de Macromedia va permettre de trouver les adresses et fichiers manquants (on peut aussi utiliser SWFRIP).
Copiez le fichier capturé (war_menu.swf) dans un répertoire de votre choix et effectuez l'opération suivante :
gulliver

Puis ouvrez (éditez) le fichier html (war_menu.html) créé.

Ces liens n'ont pas été analysés.
Il devraient se trouver dans le répertoire www.gulliversfun.co.uk/warrington comme nous l'indique le message du navigateur quand on clique sur les liens rompus.
Il nous manque times.htm, groups.htm, events.htm, contact.htm et shopin.htm.
Nous allons donc ajouter dans les adresses Web(URL) à capturer :

http://www.gulliversfun.co.uk/warrington/times.htm
http://www.gulliversfun.co.uk/warrington/groups.htm
http://www.gulliversfun.co.uk/warrington/events.htm
http://www.gulliversfun.co.uk/warrington/contact.htm
http://www.gulliversfun.co.uk/warrington/shopin.htm

On relance la capture, et tous les liens sont maintenant opérationnels.
De nombreux fichiers pdf, zip et doc peuvent être capturés en modifiant les règles de capture.

Si vous souhaitez capturer les sites de Milton Keynes et Matlock Bath, il faut modifier les règles de capture (ôter -*/miltonkeynes/* -*/matlockbath/*) et ajouter

http://www.gulliversfun.co.uk/miltonkeynes.htm
http://www.gulliversfun.co.uk/miltonkeynes/times.htm
http://www.gulliversfun.co.uk/miltonkeynes/groups.htm
http://www.gulliversfun.co.uk/miltonkeynes/events.htm
http://www.gulliversfun.co.uk/miltonkeynes/contact.htm
http://www.gulliversfun.co.uk/miltonkeynes/shopin.htm
http://www.gulliversfun.co.uk/matlockbath.htm
http://www.gulliversfun.co.uk/matlockbath/times.htm
http://www.gulliversfun.co.uk/matlockbath/groups.htm
http://www.gulliversfun.co.uk/matlockbath/events.htm
http://www.gulliversfun.co.uk/matlockbath/contact.htm
http://www.gulliversfun.co.uk/matlockbath/shopin.htm

dans les adresses Web(URL) à capturer.

hautHaut de la page

Avec javascript

W3C XHTML 1.0
W3C CSS