Exemple de capture de site avec HTTrack

httrack

Alton Towers octobre 2002

nom du projet : altontowers
adresse Web(URL) : www.altontowers.com
cocher : Essayer de détecter tous les liens
ne pas cocher les options : noms ISO9660
durée de la capture : 3 heures (modem 56k)
ajoutez dans règles de filtrage :
-*.exe -*.zip
+http://press.altontowers.com/
+http://www.peoplebank.com/pb3/corporate/Tussauds/Alton_Towers/alton_popup.htm?
+http://www.rialtoticketing.com/app/rialto/ControlServlet/home/initialise?sellingAgentId=1
+www.altontowers.com/air/main.htm
+http://alton-towers.custhelp.com/
+www.altontowers.com/terror/index.htm?
+www.altontowers.com/map_areas/index.htm?
+http://www.scan.com/VQMobile/

problèmes :

Javascript, Flash, miroirs, site modifié très souvent et en profondeur...

Autres exemples avec des difficultés similaires : Herberton | Extreme World | Martin Luther King 2004
Flash Discovery Cove | Ratanga | The Engine Room | Wild Waters Park | Rapids Water Park | Gulliver's Theme Park | Camelot Theme Park

solutions :

Aucune mise à jour de ce site n'est envisageable car d'une visite à l'autre, tout est modifié, applets java, Flash, Javascript, images, vidéos...
Le site a été, avec ou sans applet java, en html et javascript, html javascript et flash, html javascript ou flash, flash uniquement...
De plus, les liens peuvent renvoyer sur un site miroir comme www.alton-towers.co.uk.
Toutes les difficultés à terminer une capture sont rassemblées. En octobre 2002, c'est javascript qui pose le plus de problèmes.
En effet, tout est calculé.

Pour les images voici une des routines. Celle-ci calcule dans nav.htm les images destinées aux boutons.

Encore un exemple de routine qui calcule le nom de fichier à appeler pour des "pop-ups".

Aucun logiciel de capture n'est en mesure d'interpréter ces calculs.

En ce qui concerne le navigateur voici une routine qui rendra la capture inutilisable quand une nouvelle version d'Internet Explorer ou Netscape sortira :

var ie = (navigator.appName.indexOf('Microsoft')!=-1)?true:false;
var ns = (navigator.appName.indexOf('Netscape')!=-1)?true:false;
var ie4 = (document.all&&!document.getElementById)?true:false;
var ns4 = document.layers?true:false;
var ns6 = (this.ns&&(parseInt(navigator.appVersion)>4))?true:false;
var ie5 = (this.ie&&document.getElementById)?true:false;

Certaines des règles de filtrage permettent de capturer des fichiers, mais la présence de fichiers Flash et PHP rend la capture encore plus difficile.
L'option -*.exe et -*.zip évite la capture de fichiers lourds et sans grand intérêt. On peut aussi ajouter -*.mpg pour éviter les vidéos.
L'option +http://alton-towers.custhelp.com crée plus de 3000 fichiers.
L'option +www.alton-towers.co.uk simplifie la capture mais double le nombre des fichiers.

Pour arriver à un résultat acceptable, le plus simple c'est d'utiliser le cache d'Internet Explorer.

Il faut tout d'abord capturer le site et repérer les pages qui posent problème.

Une visite des pages et une exploration des liens est indispensable.
Toutes les pages doivent être complètement chargées.
Dans celles-ci, il faut passer le curseur de la souris sur toutes les images.

Dans la page de démarrage, il faut cliquer sur "AIR" ou sur l'image centrale. Une fenêtre s'ouvre avec des animations Flash.
Après l'animation une page html est chargée, cliquez alors sur tous les liens.

De retour sur la page d'accueil, cliquez sur "SEE THE PARK".
Les liens dans le menu "AREA INFO" n'ont pas été capturés. Cliquez sur un des liens.
Dans la fenêtre qui apparaît,
menu
cliquez sur tous les liens.
Attendez que chaque fenêtre soit chargée avant de passer à la suivante.

Maintenant la plupart des fichiers manquants sont dans le cache d'Internet Explorer : Temporary Internet Files.

Classez les fichiers par adresse pour les retrouver. Voici un petit extrait de la liste.

Temporary Internet Files

Copiez les fichiers répertoire par répertoire (en créant ceux qui manquent) dans la capture.
Ils sont copiés avec un chiffre entre crochets. Renommez les pour ceux qui étaient manquants et supprimez les autres.

Dans le répertoire map_areas (voir ci-dessus), supprimez les fichiers index[ ].html.

Modifiez les menus à droite et à gauche du plan dans le fichier maptest.htm :

Voici le menu à gauche

Les noms de fichiers attribués par WinHTTrack peuvent changer.
Ici, il faut remplacer indexf438.htm par thrillseekers.htm, indexdbcd.htm par familyfun.htm, index9353a.htm par youngchildren.htm

Voici le début du menu à droite

Ici, il faut remplacer index0797.htm par valley.htm, indexe1ed.htm par xsector.htm
(viennent ensuite ugland.htm, katanga.htm etc.) jusqu'à la fin du menu.

A ce stade, la capture est exploitable avec des élèves.

hautHaut de la page

Avec javascript

W3C XHTML 1.0
W3C CSS