Exemple de capture de site avec HTTrack

httrack

Testée avec la version WinHTTrack Website Copier 3.30-beta-7b (+swf)

Marian High School mai 2003

nom du projet : marian
adresse Web(URL) : http://marian.creighton.edu pour le "Master"
durée de la capture : 1 heure + 1 heure + plusieurs heures + 1 heure (modem 56k)

problème :

Taille du site

Autres exemples avec des difficultés similaires : Areaparks | Kakadu

solution :

Le site est en construction et mis à jour par des élèves, il y aura donc de nombreuses erreurs comme dans tous les sites d'écoles.
Comme chaque élève a son répertoire, il y a plus de 700 dossiers. Chaque dossier peut être entièrement modifié chaque jour.
Dans ces dossiers, les fichiers images ne sont pas optimisés ou ont une mauvaise extension. Il faut donc prévoir une limite de taille pour les fichiers.
Comme les élèves ne se méfient pas, il peut y avoir des informations et des adresses emails qui ne doivent pas tomber en de mauvaises mains.
Il faut ici procéder en plusieurs étapes si on veut les parties intéressantes du site.
  1. Il faut tout d'abord "Définir les options" et sélectionner l'option "enregistrer les fichiers HTML" dans l'onglet "Pour Experts" afin d'effectuer une copie du site.
    - Avec un autre aspirateur que WinHTTrack, il faut capturer les fichiers HTML et les images de la page d'accueil.-
    Ceci permet d'avoir le plan du site et de choisir les parties qu'on désire avoir complètes.
    Il faut compter une heure avec un modem 56k.
    WinHTTrack remplace ~ par _ dans les noms de dossiers.
    En fin de capture on trouve plus de 1400 erreurs, 5600 fichiers répartis dans 716 dossiers.
    En fait, trois ou quatre dossiers présentent un intérêt pour une utilisation en classe. Le reste est très instructif, mais c'est du travail d'élève sur deux ans ou plus, souvent incomplet, pas toujours corrigé et de qualité inégale.
  2. Ici, on peut consulter les différentes parties du site et décider de filtrer certains répertoires.
    On peut par exemple retirer le dossier concernant le Japon et noter dans "Définir les options", "Règles de filtrage" :
    -marian.creighton.edu\~marian-w\academics\english\japan\*
    On en fait autant avec tous les répertoires dont on peut se passer.
    De même on peut fixer la taille maximale des autres fichiers dans l'onglet "Limites".
  3. Copiez le répertoire marian trois fois.
    Renommez marian en marianMaster. Ce répertoire sera complété au fur et à mesure par les captures effectuées avec les copies.
    Renommez Copie de marian en marian1, Copie (2) de marian en marian2, Copie (3) de marian en marian3. Ces copies permettent avec plusieurs aspirateurs de sites d'éviter de tout reprendre à zéro. Avec WinHTTrack, c'est moins évident, mais cela permettra une résolution des liens en fin de capture.
  4. Ouvrez la capture marianMaster et dans "Définir les options", cochez "pas de purge des anciens fichiers" dans l'onglet "Structure".
    Lors des mises à jour, les fichiers déjà capturés ne seront pas supprimés.
  5. Ouvrez la capture marian1 et dans "Définir les options" sélectionnez l'option "enregistrer tous les fichiers" dans l'onglet "Pour Experts", décochez "pas de purge des anciens fichiers" dans l'onglet "Structure" si ce n'est pas le cas.
    Dans Adresse Web, remplacez http://marian.creighton.edu par marian.creighton.edu/~marian-w/ pour capturer les informations générales.
    Lancez la capture. Vous allez obtenir :
    répertoire site local
    Il faut compter moins d'une heure avec un modem 56k.
  6. Copiez le répertoire marian.creighton.edu dans le répertoire marianMaster et écrasez les anciens fichiers.
    Copiez aussi les autres répertoires qui sont apparus sauf hts-cache.
  7. Ouvrez la capture marian2 et dans "Définir les options" sélectionnez l'option "enregistrer tous les fichiers" dans l'onglet "Pour Experts", décochez "pas de purge des anciens fichiers" dans l'onglet "Structure" si ce n'est pas le cas.
    Dans Adresse Web, remplacez http://marian.creighton.edu par
    marian.creighton.edu/~crusader/
    marian.creighton.edu/~mascu/
    pour capturer les travaux du journal du lycée.
    Lancez la capture. Vous allez obtenir :
    répertoire site local
    Il faut compter environ une heure avec un modem 56k.
  8. Copiez le répertoire marian.creighton.edu dans le répertoire marianMaster et écrasez les anciens fichiers.
    Copiez aussi les autres répertoires qui sont apparus sauf hts-cache.
  9. Faites de même avec les autres répertoires qui vous intéressent en travaillant sur marian3.
  10. Si vous utilisez WinHTTrack, vous pouvez maintenant ouvrir marianMaster et lancer la capture.
    Là, la capture peut durer des heures car les élèves ont stocké des milliers de fichiers (son, vidéo, image, animation...).
    Après une heure avec un modem 56k, les fichiers HTML ont été réécrits et les liens de répertoire à répertoire sont opérationnels.
  11. Consultez la capture et ajoutez les répertoires qui vous intéressent comme décrit précédemment.
    S'il manque des images, relancez la capture sans limites ou téléchargez celles qui manquent pour les copier dans leur répertoire.
    Si les documents ne s'affichent pas alors qu'ils sont dans le site local, c'est qu'une élève a changé l'extension plutôt que le fichier HTML. Utilisez Irfanview pour régler le problème.

La capture est exploitable avec des élèves.
J'utilise une copie assez ancienne du site pour éviter que des messages indésirables ne parviennent aux adresses données par les jeunes lycéennes de Marian High.

hautHaut de la page

Avec javascript

W3C XHTML 1.0
W3C CSS