Exemple de capture de site avec HTTrack

httrack

Testée avec la version WinHTTrack Website Copier 3.22 & 3.33-RC5 (+swf)

Ratanga novembre 2002 / janvier 2005

nom du projet : Ratanga
adresse Web(URL) : www.ratanga.co.za
durée de la capture : 10 minutes (modem 56k)
ajoutez dans règles de filtrage :
+www.ratanga.co.za/rates.php
+www.ratanga.co.za/ridesattractions.php
+www.ratanga.co.za/restaurantsretail.php
+www.ratanga.co.za/functionsevents.php
+www.ratanga.co.za/playground.php
+www.ratanga.co.za/contactus.php
+www.ratanga.co.za/ratangarangersclub.php
+www.ratanga.co.za/location.php
+www.ratanga.co.za/rigthtop2.htm

problèmes :

Javascript, Flash, PHP, site modifié chaque nouvelle saison et en profondeur...

Autres exemples avec des difficultés similaires : Discovery Cove | The Engine Room | Wild Waters Park | Rapids Water Park | Gulliver's Theme Park | Camelot Theme Park

solutions :

Ce site est entièrement refait tous les ans. Il a été en HTML pur, puis en partie réécrit en javascript, et cette année repris avec des contraintes affichées dans la page d'accueil : Flash installé et une version récente d'Internet Explorer.
Le menu est en Flash, il appelle des fichiers .php, les animations sont en Flash, les feuilles de style en CSS 2 et plusieurs routines en javascript gèrent les liens et l'ouverture de fenêtres.
Après capture, même en ajoutant les pages manquantes dans les règles de filtrage, l'utilisation hors connexion est difficilement utilisable.
Fin novembre, le site n'était pas encore terminé, mais les moyens de récupérer les fichiers disponibles sont décrits ci-dessous.

1. Comment trouver les liens à ajouter aux règles de filtrage ?

Lors d'une capture avec les options par défaut, WinHTTrack examine le menu et tente de trouver les fichiers appelés.
Ici, les noms de fichiers ne correspondent pas à ceux qui se trouvent dans le site : function&events.php au lieu de functionevents.php, etc.
Un moyen de trouver les noms de fichiers quand ils ne sont pas affichés dans la barre d'adresse ou de statut, c'est de visiter le site avec Internet Explorer, cliquer sur tous les liens et attendre à chaque fois que la page soit entièrement chargée.
Dans le cache (Temporary Internet Files) on trouve à peu près cela :
Temporary Internet Files
Un autre moyen, c'est d'utiliser SWFRIP. En effet, pour themenu.swf on trouve dans le fichier actions.txt :

getURL(ridesattraction.htm,ridesattraction.htm);
getURL(rates.htm,rates.htm);
getURL(functionevents.htm,functionevents.htm);
getURL(restretail.htm,restretail.htm);
getURL(location.htm,location.htm);
getURL(contacts.htm,contacts.htm);

Il faut alors ajouter les noms des fichiers manquants dans les règles de filtrage.
WinHTTrack charge alors les pages et leur affecte une extension html.
Comme le fichier swf ne peut pas être modifié, y compris à l'aide d'un éditeur hexadécimal, il faut copier ces fichiers et renommer la copie avec une extension php, si bien que, dans la capture, les fichiers sont en double : php et html. Parfois en triple à cause de fichiers téléchargés par erreur avec une extension htm.

2. Comment accéder aux fenêtres ouvertes par du javascript ?

Dans les fichiers téléchargés et renommés avec une extension php, les liens sur images ouvertes par window.open génèrent une erreur lorsqu'ils sont appelés par main.htm.
Le plus simple, c'est de transformer les fichiers php afin qu'ils redirigent vers la page HTML du même nom :

dans le fichier ridesattractions.php, on ajoute <meta http-equiv="refresh" content="0;URL=ridesattractions.html"> avant la balise </head>, on fait de même avec les autres fichiers php et la consultation hors-ligne est acceptable avec Internet Explorer.

Pour les autres navigateurs, on peut modifier toutes les apparitions de window.open :
dans location.htm, on remplace
<A href="#"><IMG onclick="window.open('map.htm','Map','status=yes,width=786,height=590')" height=110 src="images/map.gif" width=150 border=0>
par <a href="map.htm"><img src="images/map.gif">.
On fait de même dans tous les fichiers du site.

On peut aussi rediriger et modifier !

La capture est maintenant exploitable avec des élèves.
Attention, la fiche disponible sur le site est adaptée à la version 2000-2001 et ne peut donc que servir d'exemple.

hautHaut de la page

Avec javascript

W3C XHTML 1.0
W3C CSS