Captures de sites

Si vous débutez, Framasoft propose plusieurs liens pour prendre WinHTTrack en main.

En général, les options par défaut de WinHTTrack et des autres aspirateurs permettent de réussir une capture, mais parfois le résultat n'est pas satisfaisant.
Si la difficulté que vous rencontrez n'est pas traitée ci-dessous, consultez la FAQ en anglais.

Cette page permet d'accéder à plusieurs exemples de captures avec des problèmes, plus ou moins faciles à régler, problèmes liés soit à une visite récente du site, soit aux limitations du logiciel employé ou encore à la conception des sites, les auteurs voulant protéger leur travail ou contrôler les captures.
L'indexation des pages par les moteurs de recherche étant effectué par des robots, ces problèmes finissent souvent par disparaître. Il suffit d'un peu de patience...

Quand la capture est possible, les solutions proposées ici s'appliquent à WinHTTrack (version 3.22 ou plus récente), mais elles sont facilement transposables pour une utilisation de Webzip, Memoweb, WebCopier...
L'utilisation de PHP (Personal Home Page ou Hypertext Preprocessor - .php), Perl (.pl), CGI (Common Gateway Interface - .cgi), ColdFusion (.cfm), Active Server Pages (.asp), java (.class), javascript (.js), CSS (.css ou .htc) et Flash (.swf et .dir) peuvent rendre impossible la capture de la totalité d'un site. Les exemples devraient vous permettre de le déterminer.

N'ayant pas trouvé le moyen d'utiliser le cache de Netscape, Konqueror ou Mozilla, c'est Internet Explorer que j'ai utilisé pour trouver le type MIME ou récupérer les fichiers absents, incomplets ou éliminés par les options de la capture car il enregistre par défaut tous les fichiers consultés dans Temporary Internet Files.
Depuis le 30/09/2007, l'utilitaire MozillaCacheView ou encore l'extension CacheViewer peuvent être utilisés car ils permettent de lire et d'extraire les fichiers du cache de Firefox ou Mozilla.

Avant de modifier une capture, effectuez une sauvegarde qui permettra un retour en arrière ou une mise à jour. Evitez toute modification du cache (dossier hts-cache pour WinHTTrack, fichier local.web pour Memoweb, etc.).

Applet java

Exemples : Adventure City | Herberton | Firstenergy

- Dans les options, il ne faut pas cocher noms ISO9660. En effet, le fichier .class sera sauvegardé avec une extension .clas et ne pourra donc pas être interprété. Il est possible avec un outil comme inforapid search and replace de rattraper l'erreur.
- Utilisez le cache d'Internet Explorer si vous avez un cadre gris.

Haut de la page

Menus

Exemples : Cedarpoint | The Engine Room | Gulliver's Theme Park

- Certains menus déroulants avec appels de fichiers type .php, .asp et .cfm se révèlent inutilisables bien que tous les fichiers soient présents sur le disque. Dans ce cas, une petite routine en javascript qui désactive les boutons "Soumettre" ou "Réinitialiser" permet de les utiliser après quelques modifications.
- Quand les noms de fichiers sont calculés, il faut trouver pour chaque "option value" le nom du fichier qui lui a été associé par WinHTTrack, remplacer la valeur d'origine par le nom de fichier et utiliser une des routines décrites ici sans oublier de nommer ou de renommer le formulaire. C'est parfois très difficile ou très long.
* Javascript, php, asp et cfm empêchent souvent une capture de la totalité d'un site.

Haut de la page

Liens absolus

Exemples : Adventure Planet | Martin Luther King 2004

- Les appels de fichiers type .php, .asp, .cfm laissent souvent des liens absolus bien que les fichiers html soient présents sur le disque. Tentez d'abord une mise à jour du site sans interruption. Si les liens n'ont pas été réécrits, n'importe quel utilitaire de recherche et remplacement permet les corrections. Cherchez tous les fichiers avec la chaîne .asp" (ou .php" ou .cfm") et si un fichier portant le même nom (nom.asp / .php / .cfm) mais avec une extension .html est présent sur le disque, remplacez dans tous les fichiers le lien absolu par un appel relatif.

Haut de la page

Javascript

Exemples : Alton Towers | Herberton | Extreme World | Martin Luther King 2004

- Pour les "pop-ups", le calcul des noms de fichiers, modifiez les routines ou utilisez le cache Temporary Internet Files.
- Quand une capture ne fonctionne plus si le site n'a pas été visité récemment sur le PC, utilisez le cache d'Internet Explorer.
- Pour les menus, ajoutez ou modifiez des routines.
- Pour les diaporamas, utilisez le cache Temporary Internet Files.
- Si les fichers externes js (ou css, htc) manquent, ajoutez le nom de ces fichiers dans les adresses Web à capturer. Transformez les liens absolus en liens relatifs (si la version d'Httrack que vous utilisez ne les a pas effectuées).
* Javascript empêche souvent une capture de la totalité d'un site.

Haut de la page

Flash

Depuis la version 3.21, WinHTTrack effectue une recherche dans les fichiers .swf. Téléchargez donc la dernière version.
Si le problème n'est pas réglé, voici plusieurs options :

1. Comme Internet Explorer enregistre par défaut tous les fichiers consultés dans Temporary Internet Files, visitez le site et chargez les pages manquantes, puis utilisez le cache pour trouver les fichiers absents, copiez les dans le site local et ôtez le chiffre avec les crochets ([1]) ajouté lors de la copie.

2. Après téléchargement d'un fichier .swf, il faut repérer dans la barre d'adresses du navigateur si les appels sont absolus.

S'ils le sont et si le fichier Flash est protégé ou compressé, la capture sera le plus souvent inutilisable à moins qu'une sauvegarde des fichiers décompressés avec SWFRIP ne permette les modifications.
Si les appels sont relatifs, il faut noter les noms des fichiers appelés et les ajouter dans les règles de capture (sans oublier le chemin complet).
Si l'animation appelle un fichier .asp, .php ou .cfm qui existe dans la copie avec une extension html,

- effectuez une copie de ce fichier et renommez la avec une extension asp, php ou cfm.
- ou créez un fichier en HTML avec avec une extension asp, php ou cfm qui redirige vers le fichier html de la copie.

3. Téléchargez l'utilitaire swf2html.exe sur le site de Macromedia.
Il extrait les liens html et certains liens php (utilisez l'option -s "txt|js|php|toute_extension" entre nomdufichierdesortie et nomdufichieràexplorer)- pour asp ou cfm utilisez la méthode 1 ou/et 4 si les liens n'ont pas été extraits.
Le fichier html obtenu liste les liens (ligne de commande : swf2html.exe -o nomdufichierdesortie.html nomdufichieràexplorer.swf).

S'ils sont relatifs, ajoutez les aux règles de capture (sans oublier le chemin complet) ou dans les adresses Web à capturer. Quand l'extension n'est pas html ou htm, il faut ensuite employer la méthode 4.
S'ils sont absolus, ajoutez les puis modifiez les liens avec la méthode 4.
Quand les liens sont erronés (exemple Ratanga), utilisez la méthode 1.

On peut aussi extraire les liens avec SWFRIP (fichier actions.txt).

4. Pour les risque-tout, il est possible d'utiliser un éditeur hexadécimal.

Quand les appels sont relatifs, ouvrez le fichier .swf, cherchez les fichiers .htm, .html, .asp, .php, .cfm et modifiez l'extension si le fichier sur disque dur existe, notez les noms pour les ajouter dans les règles de filtrage (sans oublier le chemin complet)...
Quand les appels sont absolus, il est possible de les transformer en appels relatifs. Si l'adresse ne comporte pas assez de caractères, redirigez vers un fichier .html qui redirigera ensuite sur le lien, sinon remplacez les caractères en trop par des espaces.

- Depuis peu, des fichiers .swf compressés ne font pas apparaître les liens. Si une sauvegarde des fichiers décompressés avec SWFRIP ne permet pas les modifications, il faut alors copier les fichiers .htm de la capture et les renommer avec l'extension indiquée dans le cache d'Internet Explorer. Un peu de chance, et...

Haut de la page

Fichiers incomplets

Exemple : Discovery Cove

- Téléchargement à l'aide de dlexpert, par exemple, puis copie dans le bon répertoire.

Haut de la page

Fichiers absents

- Téléchargement à l'aide de dlexpert, par exemple, puis copie dans le bon répertoire.
- Utilisez le cache d'Internet Explorer.
- Sélectionnez "pas de règles robots.txt".

Haut de la page

Extension

Exemples : Adventure City | Yorba

- Parfois, WinHTTrack télécharge un fichier et lui attribue une mauvaise extension. Les options de correspondance type MIME étant systématiques, il ne faut pas les utiliser pour quelques fichiers. Il vaut mieux visiter les pages, puis utiliser le cache d'Internet Explorer pour s'assurer du type MIME.
- Parfois, ce sont les auteurs qui attribuent cette mauvaise extension.

Quand il s'agit d'images sauvées avec une mauvaise extension, ce qui ne pose problème qu'hors-ligne, un utilitaire comme irfanview permet de renommer les fichiers. Un outil comme inforapid search and replace permet d'éditer les pages du site.

Haut de la page

Taille du site

Exemple : Marian High | Areaparks | Kakadu

- Vous pouvez faire une capture du site partie par partie, puis reconstituer le site en fusionnant les captures.
- Utilisez des filtres.

Haut de la page

Bannières publicitaires

Exemples : Travel West | Areaparks

- Essayez l'option "pas de pages externes" dans l'onglet "Structure".
- Plusieurs méthodes décrites ici permettent de retirer la publicité qui interdit l'affichage des pages ou oblige à cliquer à chaque chargement d'une page.

Haut de la page

Avec javascript