Exemple de capture de site avec HTTrack
Herberton State School décembre 2002
nom du projet : herbertonadresse Web(URL) : www.herbertonss.qld.edu.au
cocher : Essayer de détecter tous les liens
ne pas cocher les options : noms ISO9660
durée de la capture : 1 heure (modem 56k)
ajoutez dans les adresses WEB
http://www.herbertonss.qld.edu.au/magazine/year10camp.htm
http://www.herbertonss.qld.edu.au/magazine/menu.htm
http://www.herbertonss.qld.edu.au/magazine/year5full.htm
http://www.herbertonss.qld.edu.au/magazine/successmaker.htm
http://www.herbertonss.qld.edu.au/magazine/germancamp.htm
et pour des centaines de contributions d'adolescents
http://www.schools.ash.org.au/herberton/bushscene
problèmes :
Applet Java, images et fichiers manquants, routine javascriptAutres exemples avec des difficultés similaires : Adventure City | Firstenergy | Alton Towers | Extreme World | Martin Luther King 2002 | Martin Luther King 2004 | Recycling | Herberton | Canobie
solutions :
En fin de capture, tout est à peu près complet, il y a quelques erreurs comme dans tous les sites d'écoles, quelques images manquent et le menu de la rubrique "School Mag 98" ne fonctionne pas.Pour le menu, c'est à cause d'une applet java.
Il est donc nécessaire de visiter la page (www.herbertonss.qld.edu.au/school/school.htm) et d'attendre qu'elle soit complètement chargée.
Dans le cache (Temporary Internet Files) on trouve à peu près cela :

Il faut copier le fichier fphoverx.class dans le répertoire de la capture, puis ôter [1] dans le nom de fichier.
Le code HTML du cadre www.herbertonss.qld.edu.au/magazine/index.html, fait apparaître les noms de fichiers appelés par le menu :
<applet width="120" height="24" codebase="_fpclass/" code="fphover.class"> <param name="text" value="Year 10 Camp"> <param name="color" value="#000080"> <param name="hovercolor" value="#0000FF"> <param name="textcolor" value="#FFFFFF"> <param name="effect" value="glow"> <param name="url" value="year10camp.htm" valuetype="ref"> </applet>Ici, c'est year10camp.htm. C'est la raison pour laquelle j'ai ajouté, après examen du fichier, les adresses à capturer dans les adresses WEB.
L'avantage de cette méthode sur la copie des fichiers manquants depuis le cache, c'est qu'elle permet une capture complète des liens.
En haut de la page d'accueil du site se trouve une barre de navigation (qui ne servira à rien) dont les images disparaissent quand le cache d'Internet Explorer est vidé.
C'est une routine javascript qui les affiche et elle les trouve dans le cache.
Si on désire maintenir l'affichage (et à titre d'exemple), il faut donc modifier l'adresse absolue de la routine dont on trouve l'emplacement ici (www.herbertonss.qld.edu.au/index.html) :
<script language="javascript" src="../sina.schools.net.au/sina3-internal-static/icons/navbar.js"> </script>On édite donc le fichier navbar.js et on remplace var imagedir="http://navbar.schools.net.au/sina3-internal-static/icons/"; par
var imagedir="../sina.schools.net.au/sina3-internal-static/icons/"; dans toutes les fonctions.
Les images chargées par WinHTTrack dans le répertoire sont inutilisables, il faut donc les rechercher dans le cache (Temporary Internet Files) où on trouve à peu près cela :

On copie alors les fichiers dans le répertoire de la capture, puis on ôte [1] dans les noms de fichiers.
On obtient :

et la barre de navigation (qui ne servira à rien) affiche les images.
La capture est maintenant exploitable avec des élèves.
Le site n'a pratiquement pas été modifié depuis 1999.
Attention, les fiches disponibles correspondent à la suite d'un travail sur la version 1999 du site.