Captures de sites
Si vous débutez, Framasoft propose plusieurs liens pour prendre WinHTTrack en main.
En général, les options par défaut de WinHTTrack et des autres aspirateurs permettent de réussir une capture, mais parfois le résultat n'est pas satisfaisant.
Si la difficulté que vous rencontrez n'est pas traitée ci-dessous, consultez la FAQ en anglais.
Cette page permet d'accéder à plusieurs exemples de captures avec des problèmes, plus ou moins faciles à régler, problèmes liés soit à une visite récente du site, soit aux limitations du logiciel employé ou encore à la conception des sites, les auteurs voulant protéger leur travail ou contrôler les captures.
L'indexation des pages par les moteurs de recherche étant effectué par des robots, ces problèmes finissent souvent par disparaître. Il suffit d'un peu de patience...
L'utilisation de PHP (Personal Home Page ou Hypertext Preprocessor - .php), Perl (.pl), CGI (Common Gateway Interface - .cgi), ColdFusion (.cfm), Active Server Pages (.asp), java (.class), javascript (.js), CSS (.css ou .htc) et Flash (.swf et .dir) peuvent rendre impossible la capture de la totalité d'un site. Les exemples devraient vous permettre de le déterminer.
N'ayant pas trouvé le moyen d'utiliser le cache de Netscape, Konqueror ou Mozilla, c'est Internet Explorer que j'ai utilisé pour trouver le type MIME ou récupérer les fichiers absents, incomplets ou éliminés par les options de la capture car il enregistre par défaut tous les fichiers consultés dans Temporary Internet Files.
Depuis le 30/09/2007, l'utilitaire MozillaCacheView ou encore l'extension CacheViewer peuvent être utilisés car ils permettent de lire et d'extraire les fichiers du cache de Firefox ou Mozilla.

- Utilisez le cache d'Internet Explorer si vous avez un cadre gris.
- Quand les noms de fichiers sont calculés, il faut trouver pour chaque "option value" le nom du fichier qui lui a été associé par WinHTTrack, remplacer la valeur d'origine par le nom de fichier et utiliser une des routines décrites ici sans oublier de nommer ou de renommer le formulaire. C'est parfois très difficile ou très long.
* Javascript, php, asp et cfm empêchent souvent une capture de la totalité d'un site.
- Quand une capture ne fonctionne plus si le site n'a pas été visité récemment sur le PC, utilisez le cache d'Internet Explorer.
- Pour les menus, ajoutez ou modifiez des routines.
- Pour les diaporamas, utilisez le cache Temporary Internet Files.
- Si les fichers externes js (ou css, htc) manquent, ajoutez le nom de ces fichiers dans les adresses Web à capturer. Transformez les liens absolus en liens relatifs (si la version d'Httrack que vous utilisez ne les a pas effectuées).
* Javascript empêche souvent une capture de la totalité d'un site.
Si le problème n'est pas réglé, voici plusieurs options :
1. Comme Internet Explorer enregistre par défaut tous les fichiers consultés dans Temporary Internet Files, visitez le site et chargez les pages manquantes, puis utilisez le cache pour trouver les fichiers absents, copiez les dans le site local et ôtez le chiffre avec les crochets ([1]) ajouté lors de la copie.
2. Après téléchargement d'un fichier .swf, il faut repérer dans la barre d'adresses du navigateur si les appels sont absolus.
S'ils le sont et si le fichier Flash est protégé ou compressé, la capture sera le plus souvent inutilisable à moins qu'une sauvegarde des fichiers décompressés avec SWFRIP ne permette les modifications.
Si les appels sont relatifs, il faut noter les noms des fichiers appelés et les ajouter dans les règles de capture (sans oublier le chemin complet).
Si l'animation appelle un fichier .asp, .php ou .cfm qui existe dans la copie avec une extension html,
- effectuez une copie de ce fichier et renommez la avec une extension asp, php ou cfm.
- ou créez un fichier en HTML avec avec une extension asp, php ou cfm qui redirige vers le fichier html de la copie.
Il extrait les liens html et certains liens php (utilisez l'option -s "txt|js|php|toute_extension" entre nomdufichierdesortie et nomdufichieràexplorer)- pour asp ou cfm utilisez la méthode 1 ou/et 4 si les liens n'ont pas été extraits.
Le fichier html obtenu liste les liens (ligne de commande : swf2html.exe -o nomdufichierdesortie.html nomdufichieràexplorer.swf).
S'ils sont relatifs, ajoutez les aux règles de capture (sans oublier le chemin complet) ou dans les adresses Web à capturer. Quand l'extension n'est pas html ou htm, il faut ensuite employer la méthode 4.
S'ils sont absolus, ajoutez les puis modifiez les liens avec la méthode 4.
Quand les liens sont erronés (exemple Ratanga), utilisez la méthode 1.
4. Pour les risque-tout, il est possible d'utiliser un éditeur hexadécimal.
Quand les appels sont relatifs, ouvrez le fichier .swf, cherchez les fichiers .htm, .html, .asp, .php, .cfm et modifiez l'extension si le fichier sur disque dur existe, notez les noms pour les ajouter dans les règles de filtrage (sans oublier le chemin complet)...
Quand les appels sont absolus, il est possible de les transformer en appels relatifs. Si l'adresse ne comporte pas assez de caractères, redirigez vers un fichier .html qui redirigera ensuite sur le lien, sinon remplacez les caractères en trop par des espaces.
- Utilisez le cache d'Internet Explorer.
- Sélectionnez "pas de règles robots.txt".
- Parfois, ce sont les auteurs qui attribuent cette mauvaise extension.
- Utilisez des filtres.
- Plusieurs méthodes décrites ici permettent de retirer la publicité qui interdit l'affichage des pages ou oblige à cliquer à chaque chargement d'une page.