Pièges à robots

Quand un auteur ne souhaite pas que son site soit copié ou indexé par les moteurs de recherche, il a de nombreux moyens à sa disposition :

Une balise meta comme <meta name="robots" content="noindex,nofollow"> (peu efficace).
Un fichier robots.txt qui indique les parties du site à ne pas explorer (peu efficace).
.htaccess pour exclure les robots connus ou identifiés (très efficace).
Une applet java, un peu d'html, un script en php, javascript et bien d'autres langages (assez à très efficace).

Ces méthodes sont détaillées en anglais aux adresses suivantes :

How to build a Bot Trap and keep bad bots away from a web site
Stopping Spambots: A Spambot Trap
How to keep bad robots, spiders and web crawlers away Apache seulement
E-Mail Protector Script (script perl qui renvoie 10 000 fausses adresses aux robots identifiés)
Les autres méthodes (How to Defeat Bad Web Robots With Apache, Improving Web Spider Trap Efficiency, Blocking Bad User Agents - avec ASP, Robotcop ...) sont peut-être encore en ligne si on effectue une recherche.

dans la documentation d'Httrack (abuse FAQ for webmasters).

et aussi www.webmasterworld.com (recherchez "spider trap" / "Blocking Badly Behaved Bots" ou consultez www.webmasterworld.com/forum24/ ou www.webmasterworld.com/forum88/ ou www.webmasterworld.com/forum92/ ).

Piéger ?

Tous ces pièges risquent d'empêcher le référencement des pages par les moteurs de recherche, de rendre la consultation du site plus difficile et de décourager les utilisateurs.

On peut le comprendre quand il s'agit de lutter - à juste titre et simplement avec une ligne ou deux de javascript - contre les "spam harvesters", "email grabbers", "email collectors", "spambots", "spamrats" mais il n'est pas toujours justifié de s'attaquer à tous les aspirateurs de site ("spiders", "site copiers", "offline browsers" ...) même s'ils consomment de la bande passante et bloquent ou surchargent certains sites.
Il est vrai que certains hébergeurs font payer en fonction du trafic ou limitent les accès et que des visiteurs sont donc refoulés.
Mais la capture de site peut être effectuée pour de bonnes raisons : ce site a pour objet d'aider ceux qui capturent des sites pour leurs élèves ou parce qu'ils n'ont pas la possibilité de rester connectés ...

Capturer ?

Souvent, après quelque temps, les protections sont retirées : ceux dont les navigateurs ne disposent pas des plugins (Macromedia, java -JRE 6.0-) ou n'interprètent pas javascript sont perdus comme lecteurs ou clients.
Si vous jugez que le site mérite néanmoins d'être copié, demandez à son auteur comment en obtenir une copie consultable hors ligne.
En effet, activer l'option "pas de règles robots.txt" risque de vous interdire l'accès au site, vous faire tomber dans un piège à robot ou vous amener à copier des centaines de pages sans intérêt - pages d'erreur, images, documentations etc -.

Dans tous les cas, repérez les répertoires utiles, dans l'onglet "Limites" limitez le "taux maximal", le "nombre maxi de connexions par seconde" ou limitez le nombre de connexions dans l'onglet "contrôle du flux".
Les exemples de capture 12 et 17 peuvent vous donner une idée de la façon de procéder.

Identifier un robot

Pour une liste des robots qui s'identifient, consultez ces adresses :

Search Engine Spiders List (site et UA)
Search Engine IP Addresses (UA et IP)
Search engine robots that visit your web site (UA et IP)
Search Engine Spider Identification (UA et commentaires à webmasterworld)
E-Mail Collectors List (site et UA)
Pour ce site : Identificateurs complets annoncés (1048 User Agents)

- Aucun de ces sites ne donne une liste complète.
- La plupart des robots et aspirateurs donnent l'identificateur de MSIE :
Mozilla/4.0 (compatible; MSIE 6.0; Windows ...)
et ne consultent pas robots.txt...
- Robots qui demandent régulièrement robots.txt (UA).
- Robots qui ont consulté robots.txt cette année(UA).

Les robots et ce site

Liste des robots qui fréquentent ce site (ici il s'agit la plupart du temps de référencement, méta-moteurs de recherche, vérification de la validité d'un lien vers le site, sondages et contrôles divers -anti-plagiat, noms utilisés, spam...-. Plusieurs de ces robots s'attendent à de l'anglais dans la page d'accueil et ne reviennent donc pas.) :

"1Noonbot search engine" - "50.nu" - "80legs crawler" - "ABACHOBot search engine" - "abcfr_robot search engine" - "Accoona-AI-Agent search engine" - "AcoonBot search engine" - "ActiveBookmark" - "Advanced URL Catalog bookmark manager" - "Advista search engine" - "aiHitBot" - "aipbot search engine" - "alef" - "Aleksika search engine" - "amagit.com search engine" - "Amazonbot crawler" - "Amfibibot search engine" - "Anonymous / Skywalker" - "AnswerBus search engine" - "AntBot search engine" - "antibot crawler" - "appie 1.1 (www.walhello.com) search engine" - "Apple-PubSub RSS monitoring" - "archive.org_bot crawler" - "Argus bookmark managing crawler" - "Art-Online.com 0.9(Beta) crawler" - "Ask Jeeves crawler" - "Asterias crawler" - "atraxbot" - "Baiduspider search engine" - "Bazbot search engine" - "BecomeBot search engine" - "Big Fish %S" - "Biglotron search engine" - "bingbot crawler" - "binlar" - "bitlybot" - "BitSightBot" - "bixolabs Data Mining" - "BlackMask.Net search engine" - "BlogCorpusCrawler" - "Bloglines RSS monitoring" - "Bluebot crawler" - "BnF" - "bogospider" - "boitho.com-robot search engine" - "Bookdog bookmark manager" - "bot/1.0" - "botmobi search engine" - "BruinBot crawler" - "Butterfly search engine" - "BuzzRankingBot crawler" - "C4PC" - "CacheBot" - "Caliperbot" - "CamontSpider crawler" - "capek crawler" - "Casper Bot Search %Z" - "CatchBot crawler" - "CazoodleBot crawler" - "CCBot crawler" - "ccubee search engine" - "CentiverseBot search engine" - "cfetch" - "Chanceo %S" - "Charlotte search engine" - "Cherchonsbot search engine" - "Cityreview" - "CMS Crawler" - "Combine crawler" - "comBot search engine" - "cometsystems crawler" - "Content Crawler crawler" - "ContextAd Bot" - "Convera RetrievalWare" - "CorenSearchBot" - "Corpora from the web crawler" - "cortex" - "Cosmix crawler" - "CosmixCrawler search engine" - "Covario crawler" - "Crawl Annu" - "Crawllybot search engine" - "csci_b659 Data Mining" - "CSS/HTML/XTHML Validator" - "CSSCheck" - "cybercity.dk IE 5.5 Compatible Browser" - "CydralSpider search engine" - "darxi spam / email grabbing" - "DataForSEO Link Bot" - "DataFountains/DMOZ Downloader" - "DAUM Web Robot search engine" - "dcbspider search engine" - "DealGates" - "Declumbot" - "deepak-USC/ISI spider" - "del.icio.us-thumbnails" - "del.icio.us bookmark manager link checker" - "DepSpid crawler" - "Diamond search engine" - "Diffbot" - "Directcrawler" - "discobot crawler" - "DLE_Spider spam" - "DMOZ Experiment" - "DNSGroup crawler" - "Domains Project crawler" - "DotBot crawler" - "DTAAgent search engine" - "Dumbot search engine" - "e-SocietyRobot crawler" - "eApolloBot search engine" - "EasyDL/3.04" - "EdisterBot crawler" - "ejupiter.com search engine" - "ellerdale search engine" - "EnaBot crawler" - "envolk search engine" - "ePochta_Extractor spam / email grabbing" - "ETS translation bot" - "europarchive" - "Exabot crawler" - "Exabot-Thumbnails" - "exactseek-crawler-2.63" - "Exalead NG" - "exooba crawler" - "Ezooms" - "facebookexternalhit" - "Factbot search engine" - "Falconsbot search engine" - "FAST crawler" - "FAST Enterprise Crawler" - "FAST FirstPage retriever" - "fast-search-engine" - "FAST-WebCrawler" - "FAST MetaWeb Crawler" - "FavOrg Link checker" - "favorstarbot Advertising" - "FeedBot" - "FeedBurner" - "FeedFetcher-Google" - "Fetch API Request" - "Filangy bookmark managing crawler" - "Findexa crawler" - "findfiles.net search engine" - "findlinks" - "flatlandbot" - "fleck" - "Flight Deck" - "FlightDeckReports" - "Fluffy (searchhippo) search engine" - "flyindex search engine" - "Focal crawler" - "FollowSite" - "Friend search engine" - "FurlBot search engine" - "Gaisbot/3.0 search engine" - "Galbot crawler" - "Generalbot" - "genevabot search engine" - "geniebot search engine" - "GeoBot" - "Gigabot crawler" - "Gigamega.bot search engine" - "GingerCrawler" - "Girafabot" - "Gnomit crawler" - "GOFORITBOT search engine" - "gold crawler" - "Google Desktop RSS monitoring" - "Google-Site-Verification" - "Google-Sitemaps" - "Googlebot crawler" - "Googlebot-Image" - "Googlebot-Mobile" - "Google Web Preview" - "GPTBot crawler" - "grub search engine" - "grub crawler" - "grub.org" - "gsa-crawler" - "GT::WWW/1." - "gURLChecker Link checker" - "GurujiBot search engine" - "GUSbot" - "GVC-SPIDER" - "Hailoobot search engine" - "Haste" - "hclsreport crawler" - "Helix crawler" - "HenriLeRobotMirago crawler" - "Heritrix crawler" - "hoge" - "Holmes search engine" - "HooWWWer crawler" - "htdig" - "HuaweiSymantecSpider crawler" - "ia_archiver crawler" - "ICC-Crawler crawler" - "ichiro search engine" - "icsbot-0.1" - "IlTrovatore search engine" - "imbot" - "INA dlweb crawler" - "IndoCrew %Z" - "Indy Library Internet Direct Library for Borland - often spambot" - "InelaBot crawler" - "inet library" - "inktomi Slurp crawler" - "InsiteRobot" - "integromedb.org crawler" - "InternetSeer Connectivity checker" - "Interseek" - "IntranooBot" - "IP*Works Link checker" - "IRLbot crawler" - "iSearch search engine" - "istarthere search engine" - "IXE Crawler" - "Jakarta Commons" - "Jetbot/1.0 crawler" - "JungleKeyBot search engine" - "Jyxobot search engine" - "KaloogaBot search engine" - "Killou.com search engine" - "KiwiStatus search engine" - "kmccrew Bot Search %Z" - "Knowledge.com search engine" - "knowmore" - "KomodiaBot" - "Lachesis" - "larbin crawler" - "ldspider" - "leak" - "lemurwebcrawler" - "librabot search engine" - "libwww-perl" - "LinguaBot search engine" - "linkaGoGo crawler" - "LinkChecker" - "Link Commander bookmark manager" - "linkdex.com" - "Linkman Link checker" - "Links SQL" - "Link Valet Online Link checker" - "LiteFinder search engine" - "livemark.jp Link checker" - "lmspider crawler" - "Look.com search engine" - "Loopy.fr search engine" - "Loserbot" - "Lsearch/sondeur" - "lwp-request" - "lwp-trivial" - "LWP::Simple" - "MagpieRSS" - "Mail.Ru" - "MaMa CaSpEr %Z" - "MaMa CyBer %Z" - "MapoftheInternet search engine" - "Marvin search engine" - "Me.dium OneRiot crawler" - "Mediapartners-Google" - "Megaglobe search engine" - "Megite news aggregator" - "MetaGeneratorCrawler" - "Metaspinner search engine" - "MileNSbot search engine" - "Mirago (HenriLeRobot) crawler" - "MJ12bot crawler" - "MLBot" - "MnogoSearch/3.2.11" - "MojeekBot search engine" - "Monrobot crawler" - "MOSBookmarks Link checker" - "mozDex crawler" - "Mozilla/4.0 (compatible; MSIE 6.0)" - "Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.0;)" - "Mp3Bot search engine" - "MQbot crawler" - "ms research robot" - "MSIE 4.5 %S" - "MSIE 6.0 (compatible; MSIE 6.0;... %S" - "MSIE 7.01 %S" - "MSMOBOT crawler" - "msnbot crawler" - "MSNPTC MSN search robot" - "MSR-ISRCCrawler" - "MSRBOT crawler" - "MultiCrawler search engine" - "mxbot" - "MyFamilyBot crawler" - "Nambu" - "NaverBot search engine" - "NaverRobot search engine" - "Nelian Pty Ltd" - "Netcraft survey" - "netEstate crawler" - "NetID Bot Advertising" - "NetResearchServer search engine" - "NetSprint search engine" - "NetWhatCrawler search engine" - "newsg8 RSS monitoring" - "NEWT ActiveX spam / email grabbing" - "NG-Search search engine" - "NG/1.0" - "NG/2.0 crawler" - "NGBot crawler" - "nicebot" - "Nigma search engine" - "NimbleCrawler search engine" - "NjuiceBot" - "Norbert the Spider search engine" - "NoteworthyBot" - "NPBot NameProtect crawler" - "nrsbot search engine" - "NuSearch Spider search engine" - "Nutch crawler" - "Nutch (Princeton) crawler" - "ObjectsSearch search engine" - "oBot crawler" - "octopodus search engine" - "Octora crawler" - "ODP::/0.01 Link checker" - "ODP entries" - "ODP links test" - "OmniExplorer_Bot search engine" - "onalytica" - "onCHECK" - "OnetSzukaj search engine" - "OOZBOT search engine" - "Openbot search engine" - "OpenindexSpider" - "OpenISearch search engine" - "OpenTaggerBot social bookmarks" - "OpenX Spider Advertising" - "OrangeBot-Mobile search engine" - "OutfoxBot" - "ozelot" - "page-store" - "Pagebull search engine" - "pagepeeker" - "page_verifier" - "Paleoweb crawler" - "PanopeaBot/1.0 (UCLA CS Dpt.)" - "panopta.com Connectivity checker" - "Pathtraq search engine" - "PEERbot search engine" - "PeerFactor crawler" - "petalbot crawler" - "Pete-Spider crawler" - "pflab" - "PHP/4." - "PHP version tracker web stats" - "PicSpider" - "PipeLine spider" - "Pita crawler" - "plaNETWORK Bot Search %Z" - "Plukkie search engine" - "PollettSearch crawler" - "polybot crawler" - "Pompos - dir.com crawler" - "Popdexter crawler" - "PostFavorites" - "PostRank" - "Powermarks Link checker" - "PrivacyFinder search engine" - "PROBE! search engine" - "Program Shareware" - "psbot crawler" - "Python-urllib" - "QEAVis" - "QihooBot search engine" - "Qualidator.com Bot" - "quickobot crawler" - "RAMPyBot search engine" - "RankurBot" - "Rapid-Finder search engine" - "Reaper/2.06 search engine" - "RedBot crawler" - "RedCarpet" - "RixBot search engine" - "robotgenius malware detection?" - "Robozilla/1.0" - "RSSMicro search engine" - "RTGI Data Mining" - "RufusBot" - "sagool search engine" - "savvybot search engine" - "SBIder crawler" - "schibstedsokbot search engine" - "Scooter search engine" - "ScoutJet search engine" - "Scrubby search engine" - "search.updated.com search engine" - "Search17Bot search engine" - "SearchByUsa search engine" - "SearchIt.Bot search engine" - "SearchWebLinks" - "Seekbot crawler" - "Semager search engine" - "SemrushBot" - "Sensis search engine" - "seocompany crawler" - "SEOENGBot" - "SEOprofiler bot crawler" - "SETOOZBOT search engine" - "SeznamBot" - "ShablastBot search engine" - "Shelob" - "sherlock search engine" - "Shim-Crawler" - "ShrinkTheWeb crawler" - "ShunixBot crawler" - "silk search engine" - "Sindup RSS monitoring" - "SISTRIX crawler" - "SiteBot %S" - "SiteIntel.net Bot" - "Skywalker / Anonymous" - "sledink Bot Search %Z" - "Slurpy Verifier" - "snap.com search engine" - "Snapbot search engine" - "SnapPreviewBot" - "socbay search engine" - "sogou spider" - "sohu-search search engine" - "sohu agent search engine" - "Solomono search engine" - "Sosospider search engine" - "SpeedySpider search engine" - "SpiderLing crawler" - "Spinn3r" - "sproose crawler" - "SpurlBot bookmark managing crawler" - "sSearch Crawler" - "statbot" - "StatusCheckBot Link checker" - "Steeler crawler" - "SuperBot search engine" - "Susie bookmark manager link checker" - "sygol search engine" - "SynapticWalker spam / email grabbing" - "SynooBot search engine" - "Syntryx ANT Chassis crawler" - "Szukacz/1.5 search engine" - "T-H-U-N-D-E-R-S-T-O-N-E" - "TargetYourNews Link checker" - "Teemer" - "Teoma search engine" - "TerraSpider" - "test" - "TFC" - "Theophrastus" - "Thriceler search engine" - "Thumbnail.CZ robot" - "thumbshots-de-bot" - "TinEye crawler" - "TranSGeniKBot" - "trexmod" - "Tubenowbot Link checker" - "TurnitinBot crawler" - "TutorGigBot crawler" - "Tutorial Crawler" - "TweetmemeBot" - "TwengaBot crawler" - "Twiceler crawler" - "Twisted PageGetter" - "Twitterbot" - "Twitturl" - "TygoBot search engine" - "uberbot crawler" - "UnChaosBot search engine" - "Unicorn Validator" - "updated search engine" - "Update Profile Bot search engine" - "Updownerbot" - "UptimeAuditor Connectivity checker" - "UptimeBot" - "URLBase bookmark manager" - "Valizbot crawler" - "VDSX.nl search engine" - "VelenPublicWebCrawler" - "versus crawler" - "Visbot search engine" - "VoilaBot crawler" - "Voluniabot" - "Vortex crawler" - "voyager search engine" - "VSE/1.0 crawler" - "W3C-checklink" - "WASALive search engine" - "WebAlta crawler" - "WebarooBot crawler" - "WebCorp search engine" - "webcrawl search engine" - "WebFilter" - "WebIndexer search engine" - "WebRACE/1.1" - "Webscan" - "WebsiteWorth %S" - "WebwikiBot" - "wikiwix search engine" - "Willow Internet Crawler" - "Windows-Live-Social-Object-Extractor-Engine" - "WinkBot search engine" - "Winsey search engine" - "WIRE" - "WongBot" - "woorank" - "woriobot search engine" - "WorQmada Link checker" - "Wotbox search engine" - "wpbot crawler" - "wume_crawler" - "www.almaden.ibm.com/cs/crawler" - "www.IsMySiteUp.Net" - "www.pisoc.com search engine" - "Xenu Link checker" - "Xerka Data Mining" - "xirq search engine" - "XmarksFetch bookmark manager search engine" - "yacybot search engine" - "Yahoo! Slurp crawler" - "Yahoo! Mindset" - "Yahoo-MMCrawler" - "Yahoo-Test crawler" - "YahooSeeker search engine" - "YahooVideoSearch search engine" - "Yandex search engine" - "Yanga search engine" - "yellowJacket Link checker" - "YesupBot" - "Yeti search engine" - "Yooda" - "yoono search engine" - "YottaCars search engine" - "YottaShopping search engine" - "YoudaoBot search engine" - "YRSpider" - "ZeBot search engine" - "zerxbot search engine" - "Zeus search engine" - "Zion crawler" - "ZipppBot search engine" - "ZyBorg/1.0 search engine" - "101.32.115.96" - "101.32.240.178" - "101.32.244.173" - "101.44.160.***" - "101.44.161.***" - "101.44.162.***" - "101.44.163.***" - "101.44.249.247" - "101.44.25.76" - "101.44.66.78" - "101.44.67.183" - "101.44.69.199" - "101.44.70.157" - "101.46.0.9" - "101.46.1.20" - "101.46.14.79" - "101.46.15.123" - "101.46.15.124" - "101.46.2.11" - "101.46.2.41" - "101.46.3.96" - "101.46.5.37" - "101.46.5.43" - "101.46.6.125" - "101.46.6.162" - "101.46.7.72" - "101.46.9.139" - "101.46.9.255" - "101.46.9.56" - "101.47.8.*** crawler" - "102.129.145.***" - "102.129.152.***" - "102.129.235.***" - "103.122.90.219" - "103.139.17.122" - "103.159.188.120" - "103.159.188.123" - "103.204.211.131" - "103.204.211.135" - "103.244.251.164" - "104.207.32.12" - "104.232.221.246" - "104.239.44.*** crawler" - "104.250.164.106" - "104.250.53.*** crawler" - "104.28.209.115" - "105.235.158.*** crawler" - "107.151.182.54" - "107.151.182.58" - "107.151.182.62" - "108.165.243.23" - "109.105.209.13" - "109.122.245.82" - "109.196.161.*** crawler" - "109.207.130.*** crawler" - "110.238.104.225" - "110.238.104.227" - "110.238.105.253" - "110.238.106.18" - "110.238.107.231" - "110.238.108.0" - "110.238.108.65" - "110.238.109.***" - "110.238.110.***" - "111.119.192.161" - "111.119.192.35" - "111.119.193.219" - "111.119.193.27" - "111.119.195.12" - "111.119.195.232" - "111.119.201.14" - "111.119.201.71" - "111.119.202.91" - "111.119.203.112" - "111.119.203.244" - "111.119.204.117" - "111.119.204.60" - "111.119.206.108" - "111.119.206.172" - "111.119.207.190" - "111.119.207.228" - "111.119.209.115" - "111.119.209.13" - "111.119.209.60" - "111.119.210.***" - "111.119.211.249" - "111.119.211.73" - "111.119.213.142" - "111.119.213.223" - "111.119.214.105" - "111.119.215.27" - "111.119.216.126" - "111.119.216.17" - "111.119.216.36" - "111.119.217.17" - "111.119.219.138" - "111.119.220.232" - "111.119.221.109" - "111.119.221.9" - "111.119.222.127" - "111.119.222.231" - "111.119.222.5" - "111.119.233.***" - "111.119.235.123" - "111.119.235.247" - "111.119.236.147" - "111.119.237.139" - "111.119.237.6" - "111.119.237.63" - "111.119.240.188" - "111.119.243.17" - "111.119.243.67" - "111.119.250.125" - "111.119.253.115" - "114.115.158.156" - "114.115.159.156" - "114.115.175.113" - "114.116.110.95" - "114.119.175.154" - "114.119.181.242" - "114.119.183.4" - "114.119.184.239" - "114.119.185.250" - "114.119.186.247" - "114.119.187.77" - "114.119.189.133" - "114.119.191.215" - "116.202.182.111" - "116.204.117.83" - "116.204.119.227" - "116.204.120.56" - "116.204.122.132" - "116.204.77.47" - "117.50.193.39" - "117.50.197.145" - "117.50.47.189" - "117.50.47.205" - "119.13.100.***" - "119.13.101.100" - "119.13.101.155" - "119.13.101.171" - "119.13.102.90" - "119.13.104.14" - "119.13.104.140" - "119.13.105.163" - "119.13.105.238" - "119.13.105.88" - "119.13.106.117" - "119.13.106.181" - "119.13.106.71" - "119.13.107.222" - "119.13.107.54" - "119.13.108.132" - "119.13.110.181" - "119.13.110.84" - "119.13.91.46" - "119.15.83.218" - "119.8.127.117" - "119.8.162.110" - "119.8.163.102" - "119.8.163.75" - "119.8.166.250" - "119.8.169.96" - "119.8.182.195" - "119.8.190.174" - "119.8.190.185" - "119.8.190.246" - "119.8.232.212" - "119.8.33.67" - "121.237.36.***" - "121.37.105.39" - "122.161.49.56" - "122.8.185.67" - "122.8.186.91" - "122.96.30.65" - "124.243.132.***" - "124.243.133.***" - "124.243.134.***" - "124.243.135.***" - "124.243.136.***" - "124.243.137.***" - "124.243.138.***" - "124.243.139.***" - "124.243.144.***" - "124.243.145.***" - "124.243.146.***" - "124.243.147.***" - "124.243.148.***" - "124.243.149.***" - "124.243.150.***" - "124.243.151.***" - "124.243.168.***" - "124.243.169.132" - "124.243.169.158" - "124.243.169.197" - "124.243.170.150" - "124.243.170.47" - "124.243.171.231" - "124.243.171.48" - "124.243.172.174" - "124.243.172.185" - "124.243.172.191" - "124.243.174.158" - "124.243.174.21" - "124.243.176.105" - "124.243.177.168" - "124.243.177.227" - "124.243.178.***" - "124.243.179.151" - "124.243.180.***" - "124.243.181.***" - "124.243.182.221" - "124.243.182.3" - "124.243.183.***" - "124.243.184.***" - "124.243.185.***" - "124.243.186.***" - "124.243.187.***" - "124.243.189.***" - "124.243.190.***" - "124.243.191.***" - "128.14.159.252" - "128.14.188.106" - "128.14.209.26" - "128.14.209.42" - "128.199.167.175" - "128.241.232.*** crawler" - "128.241.235.***" - "129.153.237.237" - "129.226.146.19" - "129.226.150.55" - "129.226.151.215" - "129.226.154.196" - "129.226.156.129" - "129.226.158.117" - "129.226.192.111" - "129.226.192.224" - "129.226.193.30" - "129.226.209.118" - "129.226.91.207" - "129.226.92.236" - "129.226.92.4" - "129.80.129.244" - "129.80.228.2" - "129.80.230.124" - "129.80.63.18" - "13.220.81.129" - "13.51.106.25" - "13.58.11.68" - "13.58.150.59" - "13.58.252.8" - "13.58.82.79" - "13.75.147.105" - "13.90.150.239" - "131.153.142.170 RSS monitoring" - "131.153.143.50 RSS monitoring" - "131.153.240.*** RSS monitoring" - "138.197.139.195" - "138.201.17.*** crawler" - "139.59.230.32" - "139.99.62.***" - "141.94.194.132" - "141.94.194.132 RSS monitoring" - "142.44.167.89" - "143.110.250.220" - "143.178.156.15" - "144.76.108.212" - "144.76.14.48" - "146.190.108.97" - "146.190.146.83" - "146.70.189.199" - "146.70.189.207" - "146.70.189.213" - "147.185.132.156" - "147.185.132.171" - "147.185.132.81" - "147.78.181.*** crawler" - "149.102.232.***" - "149.102.246.101" - "149.102.246.43" - "149.102.246.50" - "149.71.246.193" - "15.235.15.135" - "150.107.201.110" - "150.109.11.222" - "150.109.12.106" - "150.109.13.249" - "150.109.17.45" - "150.109.20.64" - "150.109.21.76" - "150.109.23.33" - "150.109.24.245" - "150.109.25.235" - "150.109.76.16" - "150.136.246.147" - "150.136.87.92" - "151.252.25.100" - "152.42.245.*** crawler" - "152.53.1.106" - "152.53.101.59" - "152.53.102.203" - "152.53.108.222" - "152.53.108.253" - "152.53.109.4" - "152.53.109.42" - "152.53.110.***" - "152.53.111.181" - "152.53.111.250" - "152.53.112.127" - "152.53.112.132" - "152.53.113.1" - "152.53.114.205" - "152.53.12.144" - "152.53.12.30" - "152.53.13.210" - "152.53.130.68" - "152.53.131.238" - "152.53.135.226" - "152.53.14.123" - "152.53.14.97" - "152.53.15.148" - "152.53.16.134" - "152.53.16.147" - "152.53.16.197" - "152.53.17.110" - "152.53.17.93" - "152.53.18.185" - "152.53.18.75" - "152.53.19.13" - "152.53.19.174" - "152.53.19.214" - "152.53.2.***" - "152.53.20.190" - "152.53.21.115" - "152.53.21.148" - "152.53.3.30" - "152.53.3.49" - "152.53.3.94" - "152.53.33.59" - "152.53.35.50" - "152.53.44.217" - "152.53.47.138" - "152.53.47.144" - "152.53.47.149" - "152.53.49.184" - "152.53.49.201" - "152.53.50.50" - "152.53.51.144" - "152.53.52.***" - "152.53.53.252" - "152.53.53.44" - "152.53.54.2" - "152.53.55.67" - "152.53.55.76" - "152.53.64.157" - "152.53.65.237" - "152.53.67.185" - "152.53.84.49" - "152.53.84.74" - "152.53.85.***" - "152.53.86.***" - "152.53.87.225" - "152.53.87.237" - "152.53.87.55" - "152.70.200.104" - "154.16.206.***" - "154.194.8.*** crawler" - "154.30.107.182" - "154.92.124.*** crawler" - "156.224.168.2" - "156.228.185.188" - "157.97.126.228" - "158.62.208.61 crawler" - "159.138.100.151" - "159.138.102.121" - "159.138.103.201" - "159.138.104.242" - "159.138.105.125" - "159.138.105.133" - "159.138.106.205" - "159.138.110.12" - "159.138.111.209" - "159.138.111.76" - "159.138.121.61" - "159.138.29.236" - "159.138.34.28" - "159.138.85.78" - "159.138.86.203" - "159.138.98.152" - "159.138.98.91" - "159.138.99.105" - "159.203.160.220" - "159.65.127.31" - "165.154.254.20" - "165.154.255.62" - "165.22.247.105" - "165.232.173.160" - "166.108.192.240" - "166.108.194.166" - "166.108.194.199" - "166.108.196.109" - "166.108.200.133" - "166.108.200.170" - "166.108.200.231" - "166.108.203.17" - "166.108.203.187" - "166.108.225.152" - "166.108.226.24" - "166.108.228.4" - "166.108.229.204" - "166.108.229.39" - "166.108.230.220" - "166.108.230.240" - "166.108.232.117" - "166.108.233.127" - "166.108.233.135" - "166.108.233.28" - "166.108.234.88" - "166.108.239.131" - "166.108.239.43" - "167.99.73.24" - "168.199.244.184" - "17.241.219.36" - "17.241.227.191" - "17.241.75.166" - "17.241.75.252" - "170.253.53.115" - "172.104.166.140" - "172.172.104.187" - "172.207.131.36" - "172.207.158.211" - "172.56.66.154" - "173.252.70.114" - "173.252.83.***" - "173.252.87.***" - "174.254.48.23" - "176.125.229.***" - "176.125.230.***" - "176.126.103.21" - "176.56.185.96" - "178.128.93.5" - "178.175.128.40 Link checker" - "178.175.129.***" - "178.215.224.157" - "178.215.224.228" - "18.117.165.66" - "18.117.186.92" - "18.117.81.240" - "18.118.120.204" - "18.118.145.114" - "18.118.184.237" - "18.118.200.86" - "18.119.111.9" - "18.119.125.7" - "18.119.131.178" - "18.119.139.50" - "18.119.213.235" - "18.188.61.223" - "18.189.170.17" - "18.189.178.37" - "18.189.180.244" - "18.190.156.212" - "18.206.12.31" - "18.216.239.46" - "18.216.32.116" - "18.217.144.32" - "18.218.127.141" - "18.219.22.169" - "18.219.224.103" - "18.221.146.223" - "18.221.174.248" - "18.221.187.121" - "18.223.0.53" - "18.224.32.86" - "18.227.190.93" - "18.227.228.95" - "18.232.185.167" - "18.234.55.154" - "181.214.107.93" - "181.41.206.***" - "182.160.12.209" - "183.134.163.43" - "183.134.59.130" - "183.134.59.131" - "183.241.134.115" - "184.94.240.88" - "185.102.48.*** crawler" - "185.117.225.***" - "185.180.141.***" - "185.182.235.44" - "185.202.108.*** crawler" - "185.214.198.243" - "185.216.177.23" - "185.226.197.58" - "185.226.197.70" - "185.226.197.9" - "185.241.208.116" - "185.254.97.109" - "185.37.62.12" - "185.54.229.56" - "185.61.217.*** crawler" - "185.61.223.*** crawler" - "185.65.134.132" - "185.65.134.156" - "185.88.100.*** crawler" - "186.75.152.12" - "188.143.244.135" - "188.143.244.146" - "188.165.251.162" - "188.172.229.121" - "188.208.222.253" - "188.68.33.61" - "188.68.34.94" - "188.68.36.177" - "188.68.38.34" - "188.68.53.142" - "188.68.53.226" - "188.68.54.120" - "188.68.55.12" - "188.68.58.161" - "189.1.223.251" - "190.141.34.139" - "190.92.198.201" - "190.92.199.19" - "190.92.199.75" - "190.92.200.71" - "190.92.200.8" - "190.92.201.109" - "190.92.201.147" - "190.92.203.***" - "190.92.204.35" - "190.92.205.141" - "190.92.205.8" - "190.92.206.113" - "190.92.206.161" - "190.92.208.129" - "190.92.209.***" - "190.92.210.141" - "190.92.211.230" - "190.92.212.198" - "190.92.212.251" - "190.92.213.192" - "190.92.214.107" - "190.92.215.18" - "190.92.215.37" - "190.92.216.***" - "190.92.218.12" - "190.92.221.146" - "190.92.221.210" - "190.92.240.91" - "191.96.106.***" - "191.96.37.***" - "191.96.67.***" - "192.126.193.238" - "192.145.45.246" - "192.159.99.92" - "192.227.120.199" - "193.118.52.22" - "193.118.52.30" - "193.118.52.34" - "193.118.53.109" - "193.118.53.91" - "193.118.55.180" - "193.124.188.83" - "193.124.190.18" - "193.176.86.42" - "193.31.126.*** crawler" - "193.37.32.213" - "193.37.32.228" - "193.37.32.81" - "193.42.225.*** crawler" - "193.8.95.*** crawler" - "194.146.15.80" - "194.31.162.*** crawler" - "194.36.147.49" - "194.38.22.71" - "194.38.23.16" - "194.5.53.*** crawler" - "195.133.20.8" - "195.178.110.75" - "195.82.146.250" - "196.196.53.***" - "196.251.112.209" - "196.251.117.203" - "196.251.118.195" - "196.251.69.153" - "196.251.69.33" - "196.251.71.229" - "196.251.71.46" - "196.251.71.7" - "196.251.72.247" - "196.251.72.46" - "196.251.73.83" - "196.251.86.***" - "198.145.54.189" - "198.15.119.93" - "198.235.24.***" - "199.101.196.102" - "199.101.196.77" - "2.57.169.***" - "20.125.101.243" - "20.14.139.144" - "20.163.52.87" - "20.172.46.206" - "20.191.202.4" - "20.223.212.89" - "20.232.164.19" - "20.232.164.35" - "20.232.165.102" - "20.25.162.233" - "20.39.207.207" - "20.41.116.71" - "20.41.87.85" - "20.5.104.63" - "200.119.177.77" - "202.111.66.108" - "202.61.203.27" - "202.61.224.210" - "202.61.238.111" - "202.61.244.38" - "204.10.193.85" - "205.210.31.*** crawler" - "207.148.68.97" - "207.32.217.219" - "207.46.13.107" - "209.240.99.195" - "212.102.60.162" - "212.109.132.196" - "213.111.144.131" - "216.73.161.***" - "216.73.216.***" - "217.180.43.244" - "217.182.92.119" - "217.76.56.193" - "220.158.233.***" - "221.178.143.70" - "221.194.149.*** crawler" - "221.194.179.*** crawler" - "23.20.220.59" - "23.27.184.88" - "24.144.124.27" - "3.12.71.237" - "3.126.116.154" - "3.128.199.162" - "3.128.94.171" - "3.133.79.70" - "3.136.154.103" - "3.137.161.222" - "3.137.180.32" - "3.137.192.3" - "3.137.218.230" - "3.138.101.95" - "3.138.141.202" - "3.139.97.157" - "3.14.254.103" - "3.140.185.147" - "3.140.185.170" - "3.141.100.120" - "3.141.193.158" - "3.142.135.86" - "3.142.144.40" - "3.142.53.68" - "3.143.0.157" - "3.143.168.172" - "3.143.4.181" - "3.143.9.115" - "3.144.17.45" - "3.144.172.115" - "3.144.189.177" - "3.144.202.167" - "3.144.26.83" - "3.145.119.199" - "3.145.131.28" - "3.145.152.98" - "3.145.173.112" - "3.145.47.253" - "3.145.52.86" - "3.145.94.130" - "3.146.65.212" - "3.149.252.37" - "3.15.143.181" - "3.15.149.45" - "3.15.218.254" - "3.15.219.217" - "3.15.225.173" - "3.16.15.149" - "3.16.66.206" - "3.16.70.101" - "3.16.81.94" - "3.17.162.247" - "3.17.183.24" - "3.17.5.68" - "3.17.6.75" - "3.18.109.77" - "3.19.54.41" - "3.209.56.116" - "3.21.104.109" - "3.21.248.47" - "3.21.76.0" - "3.22.181.209" - "3.22.249.158" - "3.23.101.60" - "3.230.128.106" - "3.230.147.225" - "3.235.199.19" - "3.235.243.45" - "3.236.111.234" - "3.237.31.131" - "3.237.51.235" - "3.238.195.81" - "3.239.206.191" - "3.252.83.45" - "3.253.142.93" - "3.67.80.25" - "3.70.183.103" - "3.71.95.121" - "3.72.246.125" - "3.76.105.213" - "3.76.248.47" - "3.79.103.34" - "3.80.155.163" - "3.81.79.135" - "3.88.16.192" - "3.90.35.86" - "3.91.19.28" - "3.93.173.205" - "31.129.110.237" - "31.129.170.42" - "31.57.112.5" - "34.207.208.186" - "34.220.250.119" - "34.226.66.3" - "34.228.240.6" - "34.230.84.106" - "34.237.245.80" - "34.70.1.206" - "35.159.23.188" - "35.159.84.66" - "35.168.113.41" - "35.171.22.220" - "35.172.194.25" - "35.173.178.60" - "35.173.233.176" - "35.82.31.2" - "35.85.34.241" - "35.86.139.13" - "35.88.212.83" - "35.88.52.201" - "35.89.149.192" - "35.91.120.68" - "35.94.157.182" - "35.94.85.211" - "35.95.1.216" - "35.95.46.17" - "36.150.60.24" - "36.27.95.48" - "360Spider search engine" - "37.120.179.43" - "37.120.184.***" - "37.120.185.171" - "37.120.185.179" - "37.120.185.71" - "37.120.186.137" - "37.120.186.154" - "37.120.187.***" - "37.120.213.216" - "37.140.223.137" - "37.140.223.9" - "37.167.91.236" - "37.19.221.***" - "37.221.194.170" - "37.221.197.60" - "37.46.113.*** Link checker" - "4.147.168.150" - "4.197.236.174" - "4.210.91.56" - "4.217.255.79" - "4.227.121.203" - "40.160.22.64" - "40.71.170.134" - "43.128.121.43" - "43.128.121.86" - "43.128.84.42" - "43.128.88.143" - "43.128.89.170" - "43.130.12.103" - "43.130.141.247" - "43.130.33.54" - "43.130.42.164" - "43.130.62.137" - "43.133.38.100" - "43.133.42.180" - "43.133.43.121" - "43.133.43.154" - "43.133.43.227" - "43.133.56.146" - "43.133.57.8" - "43.133.59.248" - "43.133.60.115" - "43.133.60.97" - "43.133.62.111" - "43.133.62.221" - "43.134.0.62" - "43.134.107.106" - "43.134.109.11" - "43.134.112.111" - "43.134.118.145" - "43.134.119.86" - "43.134.12.237" - "43.134.121.104" - "43.134.15.134" - "43.134.16.138" - "43.134.163.161" - "43.134.163.229" - "43.134.165.87" - "43.134.167.226" - "43.134.176.114" - "43.134.184.91" - "43.134.191.24" - "43.134.229.118" - "43.134.231.229" - "43.134.236.64" - "43.134.26.191" - "43.134.26.28" - "43.134.41.2" - "43.134.41.39" - "43.134.46.116" - "43.134.48.88" - "43.134.56.250" - "43.134.57.196" - "43.134.61.126" - "43.134.61.238" - "43.134.63.65" - "43.134.64.76" - "43.134.68.22" - "43.134.69.123" - "43.134.69.90" - "43.134.72.28" - "43.134.73.181" - "43.134.75.217" - "43.134.77.29" - "43.134.91.203" - "43.134.91.49" - "43.134.93.164" - "43.134.99.61" - "43.143.200.85" - "43.143.7.112" - "43.153.112.164" - "43.153.192.129" - "43.153.193.211" - "43.153.221.113" - "43.153.35.128" - "43.153.62.242" - "43.154.115.27" - "43.154.99.81" - "43.156.107.145" - "43.156.12.8" - "43.156.181.50" - "43.156.2.243" - "43.156.232.154" - "43.156.29.120" - "43.156.29.145" - "43.156.3.195" - "43.156.5.207" - "43.156.6.103" - "43.156.79.172" - "43.157.104.73" - "43.159.130.175" - "43.159.32.86" - "43.159.37.213" - "43.159.41.139" - "43.159.41.195" - "43.163.0.23" - "43.163.8.72" - "43.166.132.11" - "44.197.113.64" - "44.200.101.170" - "44.200.196.114" - "44.202.90.91" - "44.204.164.147" - "44.214.187.82" - "44.218.102.77" - "44.220.41.140" - "44.222.122.246" - "44.222.125.114" - "44.222.149.13" - "44.234.8.38" - "45.10.155.226" - "45.10.155.233" - "45.138.16.202" - "45.138.16.48" - "45.141.215.116" - "45.141.215.142" - "45.148.10.165" - "45.148.10.245" - "45.156.128.***" - "45.156.129.***" - "45.156.130.***" - "45.156.131.14" - "45.156.131.23" - "45.156.131.25" - "45.192.141.*** crawler" - "45.192.145.*** crawler" - "45.192.146.*** crawler" - "45.3.37.226" - "45.3.38.77" - "45.33.51.228" - "45.41.130.192" - "45.76.163.17" - "45.80.158.218" - "45.83.31.80" - "45.84.107.54" - "45.84.224.217" - "45.88.13.*** crawler" - "45.92.229.***" - "45.94.31.58" - "46.19.138.210" - "46.232.250.88" - "46.232.251.86" - "46.250.250.119" - "46.38.236.149" - "46.38.238.73" - "46.38.241.197" - "46.38.253.187" - "47.238.13.*** crawler" - "47.238.14.*** crawler" - "47.242.148.*** crawler" - "47.242.149.*** crawler" - "47.242.167.*** crawler" - "47.242.200.*** crawler" - "47.242.209.*** crawler" - "47.242.230.*** crawler" - "47.243.161.*** crawler" - "47.243.178.*** crawler" - "47.243.228.*** crawler" - "47.243.56.*** crawler" - "47.243.62.*** crawler" - "47.243.78.*** crawler" - "47.76.222.*** crawler" - "47.79.0.***" - "47.79.1.***" - "47.79.116.***" - "47.79.117.***" - "47.79.118.***" - "47.79.119.***" - "47.79.120.***" - "47.79.121.***" - "47.79.122.***" - "47.79.123.***" - "47.79.196.*** crawler" - "47.79.2.***" - "47.79.218.*** crawler" - "47.79.219.*** crawler" - "47.79.3.***" - "47.79.4.***" - "47.79.5.***" - "47.79.7.***" - "47.79.98.***" - "47.82.0.*** crawler" - "47.82.10.*** crawler" - "47.82.11.*** crawler" - "47.82.12.***" - "47.82.13.***" - "47.82.14.***" - "47.82.15.***" - "47.82.16.***" - "47.82.17.***" - "47.82.18.***" - "47.82.20.***" - "47.82.23.***" - "47.82.24.***" - "47.82.25.***" - "47.82.26.***" - "47.82.28.***" - "47.82.9.*** crawler" - "49.0.203.114" - "49.0.203.70" - "49.0.204.134" - "49.0.205.36" - "49.0.205.66" - "49.0.205.79" - "49.0.206.145" - "49.0.206.244" - "49.0.206.82" - "49.0.207.105" - "49.0.207.20" - "5.183.255.129" - "5.252.227.78" - "5.45.109.159" - "51.222.158.108" - "51.75.206.225" - "51.75.206.94" - "52.163.54.6" - "52.164.231.122" - "52.178.204.143" - "52.206.84.190" - "52.224.217.143" - "52.226.135.84" - "52.38.92.236" - "52.90.181.205" - "54.144.81.21" - "54.152.247.108" - "54.159.186.146" - "54.160.243.44" - "54.166.234.171" - "54.172.169.199" - "54.185.168.115" - "54.213.253.217" - "54.221.69.42" - "54.224.124.217" - "54.225.1.66" - "54.234.136.147" - "54.234.83.134" - "54.242.75.224" - "54.39.190.168" - "54.69.185.226" - "54.85.255.74" - "57.141.0.***" - "57.141.5.***" - "57.141.7.***" - "58.144.138.11" - "62.72.43.36" - "62.72.45.43" - "63.177.67.193" - "63.177.87.18" - "64.137.121.*** crawler" - "64.23.233.179" - "64.71.179.*** crawler" - "65.109.116.*** crawler" - "66.220.149.***" - "69.171.230.28" - "69.171.230.31" - "69.171.230.4" - "69.171.249.***" - "74.208.88.236" - "74.235.223.64" - "77.74.177.114" - "77.74.177.118" - "77.74.177.119" - "78.141.211.98" - "79.142.79.47 Link checker" - "79.142.79.55 Link checker" - "8.210.10.*** crawler" - "8.210.108.*** crawler" - "8.210.146.*** crawler" - "8.210.15.*** crawler" - "8.210.152.*** crawler" - "8.210.154.*** crawler" - "8.210.187.*** crawler" - "8.210.190.*** crawler" - "8.210.218.*** crawler" - "8.210.230.*** crawler" - "8.217.146.13" - "8.217.158.207" - "8.217.168.224" - "8.217.188.167" - "8.217.190.93" - "8.217.191.109" - "8.217.208.28" - "8.217.210.223" - "8.217.211.219" - "8.217.212.165" - "8.217.212.190" - "8.217.214.173" - "8.218.186.*** crawler" - "8.218.91.*** crawler" - "80.76.51.217" - "80.85.139.166" - "80.85.142.44" - "81.21.233.*** crawler" - "82.67.157.9" - "83.99.151.64" - "83.99.151.67" - "83.99.151.71" - "84.17.35.72" - "84.247.60.*** crawler" - "85.203.20.*** crawler" - "85.203.44.*** crawler" - "85.208.96.194" - "85.208.96.205" - "85.239.37.*** crawler" - "86.72.52.243" - "87.106.214.89" - "87.120.114.171" - "87.120.126.100" - "87.121.86.54" - "89.58.0.163" - "89.58.12.49" - "89.58.16.134" - "89.58.16.178" - "89.58.17.216" - "89.58.18.243" - "89.58.19.144" - "89.58.19.180" - "89.58.29.125" - "89.58.29.225" - "89.58.29.40" - "89.58.30.159" - "89.58.32.241" - "89.58.40.139" - "89.58.41.206" - "89.58.43.156" - "89.58.43.25" - "89.58.44.37" - "89.58.46.164" - "89.58.46.67" - "89.58.46.75" - "89.58.50.247" - "89.58.57.128" - "89.58.62.110" - "91.222.174.116" - "91.240.118.252" - "91.246.195.*** crawler" - "91.90.44.22" - "91.92.243.138" - "91.92.243.241" - "91.92.245.181" - "91.92.246.225" - "91.92.246.247" - "91.92.247.168" - "91.92.250.96" - "91.92.253.183" - "91.92.253.80" - "91.92.254.123" - "91.92.254.43" - "91.92.255.159" - "93.152.210.179" - "93.157.29.195" - "93.159.230.28" - "93.22.38.74" - "94.103.125.240" - "94.156.67.39" - "94.228.145.229" - "94.30.52.242" - "94.74.102.225" - "94.74.122.138" - "94.74.80.132" - "94.74.80.161" - "94.74.80.165" - "94.74.81.63" - "94.74.82.42" - "94.74.83.173" - "94.74.84.120" - "94.74.84.72" - "94.74.85.217" - "94.74.85.240" - "94.74.85.248" - "94.74.86.81" - "94.74.87.185" - "94.74.88.***" - "94.74.89.31" - "94.74.90.22" - "94.74.92.***" - "94.74.94.113" - "94.74.94.172" - "95.142.121.46" - "98.159.234.***" - "98.80.80.221" - "98.96.193.***" - "Gaisbot/3.0 search engine" - , "www.dir.com"

Vous pouvez consulter les dernières visites ou les identificateurs complets annoncés (1048 User Agents) ou en télécharger la liste.

Quelques robots demandent régulièrement robots.txt mais les testeurs de validité des liens (vers votre site depuis d'autres sites ou des moteurs de recherche), les outils de validation de syntaxe et le log spamming ne lisent pas robots.txt.

Parmi ceux qui explorent le site

N'ont pas respecté les règles robots.txt :

Advista AdBot,alef/0.0, AhrefsBot, Alexa, Asterias, BIGLOTRON(Beta 2), bingbot, boitho.com, Content Crawler, DataForSEO Link Bot, DTAAgent, fast-search-engine, Fetch API Request, Gigamega.bot, grub (looksmart & other users), Helix, ia_archiver (Alexa), IRLbot, INA dlweb, Jyxobot, libwww-perl, LiteFinder, Lsearch/sondeur, LWP (simple & trivial), MegaIndex, msnbot/2.0b, MSR-ISRCCrawler, NetResearchServer, NOOS, OmniExplorer_Bot, Pompos (www.dir.com), Program Shareware, Seekport, shunix (libwww-perl/5.803), TygoBot, wbdbot, WebCrawler, Yahoo! Slurp/3.0, ZyBorg

- récemment :

BaiduSpider, bingbot, Bytespider, DataForSEO Link Bot, Domains Project, GeedoBot, GPTBot, MegaIndex, Seekport

Ont utilisé le maximum de la bande passante :

appie, Ask Jeeves, Exalead ou NG/1.0, Fetch API Request, msnbot/0.1, msnbot/0.11, NaverRobot, Pompos (www.dir.com), Program Shareware, shunix (Xun), TygoBot, WebCrawler

- récemment :

Cityreview, e-SocietyRobot, INA dlweb, LWP (simple & trivial), NG/2 (Exalead), OmniExplorer_Bot, Seekbot, semrush

Ont suivi les règles robots.txt sauf pour les fichiers exe, pdf, tar et zip :
- récemment :

larbin, Sensis.com.au, sygol, ZyBorg

Récemment pour ce site :

Pour les visites plus anciennes :

Explorent uniquement la page d'accueil

Anonymous
aragna.net_bot
Bazbot
Big Fish
BitSightBot
BuzzRankingBot
CentiverseBot
Cherchonsbot
CMS Crawler
comBot
ContextAd Bot
Cosmix
Crawl Annu
Crawllybot
cybercity.dk
DataFountains/DMOZ Downloader
Declumbot
del.icio.us-thumbnails
DMOZ Experiment
DNSGroup
DomainTaggingbot
DuckDuckGo
ejupiter.com
elefent
emefgebot
envolk
exooba
Expanse
favorstarbot
flatlandbot
Flight Deck
Fluffy
flyindex
FollowSite
Gaisbot/3.0
Galbot
GeoBot
Gnomit
GOFORITBOT
google+
grub crawler
GT::WWW/1.02
GVC-SPIDER
Holmes
HooWWWer
HouxouCrawler
ICC-Crawler
Indy Library
InelaBot
InsiteRobot
InternetSeer
IP*Works
IP 67.15.68.85
IP 67.108.232.229
IP 193.109.173.79
IP 207.44.188.104
iSearch
JikeSpider
JungleKeyBot
KaloogaBot
KiwiStatus Update Profile
Knowledge.com
KomodiaBot
linkaGoGo
LinkPimpin
Links SQL
Look.com
Loopy.fr
Loserbot
MapoftheInternet
Marvin
MetaGenerator
Metaspinner
Monrobot
Monsidobot
mozDex
MQBOT
MSIE 4.5; Windows 98;
MSIE 6.0 (compatible; MSIE 6.0;
MSIE 7.01
MSNPTC
MultiCrawler
NCBot
Netcraft
netEstate
NetID Bot
NetResearchServer
NetSprint
NetSystemsResearch
NetWhatCrawler
NimbleCrawler
nrsbot
ObjectsSearch
octopodus
ODP::/0.01
ODP links test
onCHECK
OnetSzukaj
OpenX Spider
PEERbot
PHP/4.2.2
PHP version tracker
PicSpider
PipeLiner
polybot
PrivacyFinder
PROBE!
RAMPyBot
REBOL View
Robotzilla
savvybot
Scrubby
search.updated.com
SearchByUsa
SearchIt.Bot
SemanticScholar
silk
Skywalker
Slurpy Verifier
snap.com
snipsearch
sogou spider
sohu-search
SurdotlyBot
SynooBot
Syntryx ANT
T-H-U-N-D-E-R-S-T-O-N-E
Teoma
test
Thumbnail.CZ robot
thumbshots-de-bot
trexmod
updated
UUNET
VDSX.nl
WebAlta
webcrawl
webpros
WebRACE
WebsiteWorth
WebwikiBot
wectarbot
wikiwix
Willow Internet Crawler
WinkBot
Winsey
WIRE
WorQmada
www.IsMySiteUp.Net
xirq
yacybot
Yahoo-MMCrawler
Yooda
YottaCars
YottaShopping
YoudaoBot
ZeBot
zerxbot
ZipppBot

Explorent les autres pages

1Noonbot
80legs
360Spider
ABACHOBot
abcfr_robot
Accoona-AI-Agent
AcoonBot
ActiveBookmark
ADmantX
AdsBot-Google
Advista AdBot
aiHitBot
aipbot
alef
Aleksika
Alexa
amagit
Amazonbot%C
Amfibibot
AnswerBus
AntBot
antibot
appie
Apple-PubSub
Applebot
AraBot
archive.org_bot
Argus
Ask Jeeves
Asterias
atraxbot
BacklinkCrawler
Baiduspider
Barkrowler / BUbiNG
BecomeBot
Biglotron
Bing
binlar
bitlybot
BitNinja
bixolabs
BlogCorpusCrawler
Blogdimension
Bloglines (RSS)
Bluebot
bogospider
boitho
Bookdog
bot/1.0
BruinBot
Butterfly
C4PC
CacheBot
Caliperbot
capek
CatchBot
CazoodleBot
CCBot
ccubee
cfetch
Chanceo
Cincraw
Cityreview
Claritybot
Combine
cometsystems
CompSpyBot
Content Crawler
ConveraCrawler
CorenSearchBot
COrpora from the Web
Covario
Cox Communications
CRAZYWEBCRAWLER
csci_b659/0.13
CydralSpider
Cyveillance
darxi
DataForSEO Link Bot
Dazoobot
DealGates
deepak-USC/ISI
del.icio.us
DepSpid
Deskyobot
Diamond
Diffbot
discobot
Discovery Engine
Domains Project
DotBot
DTAAgent
Dumbot
e-SocietyRobot
eApolloBot
EasyDL
EdisterBot
ellerdale
EnaBot
ePochta_Extractor
ETS
Exabot
Exabot-Images
Exabot-Thumbnails
facebookexternalhit
Factbot
Falconsbot
FAST-search-engine
FAST-WebCrawler
FAST Enterprise Crawler
FAST MetaWeb Crawler
FavOrg
FeedBurner
FeedFetcher-Google (RSS)
Fetch API Request
Filangy
Findexa
findfiles.net
findlinks
fleck
Focal
Friend or Winsey
FurlBot
Gaisbot
Generalbot
genevabot
geniebot
Gigabot/1.0
Gigamega.bot
GingerCrawler
Girafabot
gold crawler
Google-Site-Verification
Google-Sitemaps
Googlebot
Googlebot-Image
Googlebot-Mobile
Google Desktop
Google Favicon
GrapeshotCrawler
grub
grub.org
gsa-crawler
gURLChecker
GurujiBot
GUSbot
Hailoobot
hclsreport
Headline
Helix
HenriLeRobotMirago
Heritrix
hoge
htdig
ia_archiver
ichiro
IGBot
Iltrovatore-Setaccio
INA dlweb
inet library
interseek
IntranooBot
IP 63.247.72.42
IP 89.122.57.185
IP 217.74.99.100
IRLbot
istarthere
Jakarta Commons-HttpClient
Jetbot
Jyxobot
KiwiStatus
knowmore
larbin
ldspider
leak
lemurwebcrawler
librabot
libwww-perl
LinguaBot
Link Commander
linkdex.com
Linkman
Linkpad
Link Valet Online
LiteFinder
livemark.jp
lmspider
Lsearch/sondeur
LWP (simple & trivial)
Mail.Ru
Me.dium
Mediapartners-Google
Megaglobe
Megite
Metric Tools
MJ12bot
MLBot
MojeekBot
MOSBookmarks
Mozilla/4.0 (compatible; MSIE 6.0)
Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.0;)
Mp3Bot
MQbot
MSMOBOT
msnbot
MSR-ISRCCrawler
MSRBOT
mxbot
MyFamilyBot
Nambu
NaverBot
NaverRobot
neeva
Nelian Pty Ltd
netsweeper
newsg8 (RSS)
NEWT ActiveX
NG-Search
NG/2.0
NGBot
nicebot
Nigma
NjuiceBot
NOOS
Norbert the Spider
NoteworthyBot
NPBot
NuSearch Spider
Nutch
oBot
OmniExplorer
onalytica
OpenindexSpider
OpenISearch
OpenTaggerBot
OrangeBot-Mobile
OutfoxBot
ozelot
page-store
Pagebull
page_verifier
Paleoweb
panopta.com
Pathtraq
PeerFactor crawler
petalbot
Pete-Spider
pflab
Pinboard Dead Link Checker
Pinterestbot
PollettSearch
PostFavorites
PostRank
Powermarks
Program Shareware
proximic
psbot
Python-urllib
QEAVis
QihooBot
Qualidator.com Bot
quickobot
Qwantify
RankurBot
Rapid-Finder
RedBot
RixBot
Rogerbot
RSSMicro
RTGI
RufusBot
Sagool
SBIder
schibstedsokbot
ScoutJet
Screaming Frog
ScSpider
SearchWebLinks
Seekbot
Semager
semetrical
SemrushBot
Sensis
seocompany
SEOENGBot
SEOkicks
SEOprofiler bot
SETOOZBOT
SeznamBot
ShablastBot
Shelob
sherlock
Shim-Crawler
ShrinkTheWeb
ShunixBot
SiMilarTech
SISTRIX
SiteBot
Snapbot
SnapPreviewBot
socbay
sogou spider
sohu agent
Solomono
SpeedySpider
SpiderLing
sproose
SpurlBot
startmebot
statbot
StatusCheckBot
Steeler
SuperBot
Susie
sygol
Synapse
SynapticWalker
Szukacz
TargetYourNews
Teemer
TerraSpider
TFC
Theophrastus
Thriceler
TinEye
Toplistbot
Tubenowbot
TurnitinBot
TutorGigBot
Tutorial Crawler
TweetmemeBot
TwengaBot
Twiceler
Twisted PageGetter
Twitterbot
Twitturl
TygoBot
uberbot
UnChaosBot
Unicorn
UptimeAuditor
URLBase
Valizbot
VelenPublicWebCrawler
versus crawler
Visbot
VoilaBot
Voluniabot
Vortex
voyager
WASALive
wbdbot
WebarooBot
WebCorp
WebFilter
WebMeUp
WebNL
WebSense
Winsey or Friend
WongBot
woorank
woriobot
Wotbox
wpbot
wume_crawler
www.almaden...
www.pisoc.com
Xenu
Xerka
XmarksFetch
XoviBot
Yahoo! Mindset
Yahoo! Slurp
Yahoo-Test
YahooSeeker
YahooVideoSearch
Yandex
Yanga
yellowJacket
YesupBot
Yeti
yoono
YRSpider
Zion
ZyBorg

avec des requêtes parfois anormales

curl
Pompos
shunix (Xun)

A la recherche de vulnérabilités

DataCha0s
libwww-perl
LWP (simple & trivial)
Mozilla/3.0 (compatible; Indy Library)
Mozilla/5.0

Haut de la page

Repérer un robot

Les indésirables

Tout d'abord, il faut s'assurer que la page demandée existe bien.
Pour ce site, Apache renvoie /index.php dans $_SERVER['SCRIPT_NAME'] si la page n'existe pas. Si $_SERVER['REQUEST_URI'] sans la chaîne de requête n'est pas la page d'accueil, alors nous avons affaire à un robot qui cherche les failles connues d'un CMS.

Il faut ensuite s'assurer que la chaîne de requête n'est pas différente de ce qui est utilisé pour le fonctionnement du site ou l'isoler grace à $_SERVER['QUERY_STRING'] et tester la présence d'éléments indésirables qui indiquent qu'il s'agit d'un robot - les expressions régulières #(\b|%..)(AND|UNION|SELECT|CASE|ORDER( |%20)BY)(\b|%..)|(CHA?R|SLEEP|ELT|CONCAT|SCRIPT)\(\d|\d{1,4}=\d{1,4}#i et #(author|cmd|mode|option|task|view)=|admin|user|w(ord)?p(ress)?|\.env|%#i repèrent les plus fréquentes.
L'identificateur du navigateur peut lui aussi comporter ces mêmes éléments.

On peut ensuite s'assurer que le formulaire de contact n'est pas la seule page qui est requise (et avec une méthode POST).

L'examen du "referer" ($_SERVER['HTTP_REFERER']) permet de repérer les spammeurs. La méthode utilisée est souvent HEAD, le domaine de deuxième niveau de l'URL, le répertoire ou le nom de domaine principal peuvent être significatifs. Pour ce site, le domaine de deuxième niveau est le plus souvent ru, ua, kz, su, by et autres extensions comme club, finance, fun... Le répertoire et le nom de domaine utilisent en plus des mots relatifs au commerce, marketing, au jeu, à la finance...
L'examen des fichiers fichiers journaux permet d'en faire une liste assez rapidement.

Nombre de robots reviennent régulièrement sans s'identifier et demandent, toujours dans le même ordre, souvent avec l'URL du site comme "referer", les mêmes pages, parfois une ou deux pages, parfois une grande partie du site.
Ils sont plus difficiles à repérer car ils changent d'adresse IP, d'identificateur...

Ce repérage de robots indésirables n'est pas infaillible car les robots des meilleurs moteurs de recherche souffrent de bugs.

A partir de son identificateur

Ci dessous, le script PHP qui permet de repérer si la requête est due à un robot ou un moteur de recherche et qui est utilisé pour les statistiques du site :
$UA=$_SERVER["HTTP_USER_AGENT"]; $no_ip=$_SERVER["REMOTE_ADDR"]; $brow = strtolower($UA);//en minuscules pour toutes les versions $bots = array ("googlebot","webcrawler","grub.org","slurp","openfind","antibot", "netresearchserver","nutch","ia_archiver","scooter","fluffy"); //on ajoute ici les noms des autres robots en minuscules $n=0; do { $robot = strchr($brow,$bots[$n]); $n=$n+1; }while ((!$robot) && ($n<count($bots))); //en sortie si $robot est vide alors on peut faire la même chose pour les aspirateurs, //les "Spamrats", les autres visiteurs qui n'ont pas masqué leur identificateur et prendre une décision. //si $robot contient le nom du robot que l'on souhaite bloquer, il suffit alors de rediriger //-avant toute sortie vers le navigateur- sur une page avec header("Location:pagebidon.html"); //Cette page ne contenant aucun lien, l'aspiration s'arrête aussitôt. //sur le site la page http://danzcontrib2.free.fr/no_msie6.php renvoie tout compatible MSIE 6 à la page d'accueil //et affiche le code aux autres navigateurs. //On peut aussi tester pour chaque adresse IP, le nombre de pages chargées en un laps de temps donné. //De nombreux scripts sont disponibles aux adresses citées plus haut.

Un script utilisant l'identificateur est maintenant disponible ici

Il est plus difficile de détecter les robots qui ne s'identifient pas :

donnent l'identificateur de MSIE 6 (comme UUNET ou Websense) ou Mozilla 5 (net-sweeper) ou Konqueror (twtc / Websense - RegExp : 3\.[0-1](-rc[1-6])?; i686 Linux; 2002[0-9]{4}- , exabot - Exalead User Preview) ou Mozilla 4.01 (NOOS),
changent d'adresse IP à chaque accès (le service WHOIS de Ripe ou Whois Source ou Openrbl peut vous donner un indice)
ou encore combinent toutes les méthodes (qwest.net ou encore .ev1servers.net).

A partir de son hôte

Un bon exemple semble être le robot de www.dir.com (référencement) qui utilisait en mai 2003 les adresses IP 212.27.33.164 à 212.27.33.173 (212.27.41.18 en novembre 2003) et dont l'activité est filtrée dans la page relevant les serveurs.
Une fois ce type de robot repéré, voici la routine PHP qui fait suite à la précédente :

if (!$robot)
{
$robot=strchr(gethostbyaddr($no_ip),".dir.com");
}
//en sortie, si c'est le robot de www.dir.com alors $robot contient .dir.com...

L'expression rationnelle /semrush|^crawl|\.(google|msn|spider|apple|sketchengine)\./ permet d'éviter les erreurs d'identification liées à un bug ou un "user agent" inhabituel.

A partir de son adresse IP

Un robot qui n'utilise que quelques adresses IP peut être repéré de la même manière :

if (!$robot)
{
$robot=strchr($no_ip,"208.53.138.");
}
/*
en sortie, si l'adresse IP est comprise entre 208.53.138.0 et 208.53.138.255
$robot contient 208.53.138.
*/

Dans tous les cas il est nécessaire de constituer et d'actualiser une liste des identificateurs, des hôtes et des adresses IP dont le comportement lors d'accès au site est anormal.

A partir de la méthode utilisée pour la requête

Il semble qu'actuellement (juin 2005) seuls les robots et utilitaires de téléchargements utilisent une requête HEAD (puis GET si la page existe ou a été modifiée). $_SERVER["REQUEST_METHOD"] peut donc permettre de repérer un robot avec un identificateur de navigateur. (Voir fil RSS pour les essais en cours) :

/*cette méthode doit précéder les autres*/
if ($_SERVER["REQUEST_METHOD"]=="HEAD") {$robot="robot";};
/*en sortie, $robot n'est plus vide*/

Toutes ces méthodes semblent plutôt fiables, moins de 2% d'erreurs dans mon cas.

Haut de la page

Bloquer un robot avec PHP

Quand l'accès à .htaccess est limité (mon cas) ou si on souhaite réduire la taille d'un fichier .htaccess et laisser le serveur s'occuper de ce qui est utile, PHP permet de rediriger ou bloquer un robot.

Pour un robot (ici Fetch API Request) qu'on souhaite bloquer, il suffit alors de débuter toutes nos pages (avant toute sortie vers le navigateur) par le script suivant qui redirige vers la page bye.html, toute autre page ou envoyer un message de statut 403 Access Denied :

<?php
$UA=getenv("HTTP_USER_AGENT");
if (stristr($UA,"Fetch API Request")!="")
{
header("Location:http://mydomain/bye.html");
die(); /*ligne à ôter si on place ici la redirection HTML*/
}
?>

Cette page ne contenant aucun lien, l'aspiration s'arrête aussitôt.
On peut en faire autant avec une adresse IP, on utilise alors getenv("REMOTE_ADDR");.
Des techniques plus sophistiquées sont disponibles plus haut.

Environ deux tiers des robots suivent la redirection si le nom de domaine ne change pas, presque aucun s'il change.
Il faut donc prévoir une redirection en HTML si on souhaite qu'il soient tous redirigés ou qu'ils sachent où se trouve la nouvelle page :

<?php
echo"<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"
 "http://www.w3.org/TR/html4/loose.dtd">
<html>
<head>
<title>Redirection</title>
<meta http-equiv="Refresh" content="0;URL=http://mydomain/bye.html">
</head>
<body>
<p>
Redirection: <a href="http://mydomain/bye.html">http://mydomain/bye.html</a>
</p>
</body>
</html>";
die();
?>

Autoriser certains robots et en bloquer d'autres

Une fonction à inclure et appeler en début de chaque page peut permettre de gérer les robots.

/*début de la fonction*/
function redirige_robots()
{
$requested_page=$_SERVER["REQUEST_URI"];
if (preg_match("/([enptux\d]|\b)(ftp|https?|php)(:\/\/|%3A%2F%2F)/i",$requested_page))
   {die();} /*bloque la majorité des zombies*/

Quand on a la malchance d'être visité par des zombies, ou quand on utilise un CMS, autant rejeter toutes ces requêtes.

if ($_SERVER["REQUEST_METHOD"]=="HEAD") return;

Pourquoi bloquer ce type de requête ? Le "mal" est fait, les testeurs de liens vers votre site (Xenu, Powermarks, Link Commander, HTTrack, IRLbot...) et les moteurs de recherche (Speedy Spider, sygol...) auront une réponse positive et, s'ils reviennent avec une requête GET ou POST, verront leur cas traité ensuite.
Il est possible de stocker l'adresse IP dans une table MySQL pour bloquer tout retour de l'utilitaire ou du robot.

$UA=getenv("HTTP_USER_AGENT");
if (preg_match("/Googlebot|Yahoo|VoilaBot|Ask Jeeves|SpeedySpider/i",$UA)) return;

Pas de problème pour les robots autorisés : ceux qui s'annoncent et qui sont cités dans l'expression rationnelle (régulière) ci-dessus. On peut contrôler que l'hôte corresponde bien à ce qui est déclaré par l'User Agent.

/*
Inclure bot dans l'expression bloquera aipbot, antibot, boitho, OmniExplorer...
Pour ce site, jusqu'à 408 robots !
*/
if (preg_match("/[^e]crawler|spider|bot|custo |web(cow|moni|capture)|wysigot|httrack|wget|xenu/i",$UA))
{
header("Location:http://mydomain/bye.html");die();
/*une autre option c'est d'envoyer un message 403 Access Denied
header("Status: 403 Forbidden");die();*/
}

Même si je ne suis pas convaincu par la nécessité de bloquer ceux qui n'exagèrent pas, tous ceux qui sont dans l'expression rationnelle (régulière) seront redirigés.
Plusieurs utilitaires comme Wysigot laissent leur empreinte dans l'identificateur même lorsqu'ils ne sont pas actifs.

$no_ip=getenv("REMOTE_ADDR");
$hote=gethostbyaddr($no_ip);
if (preg_match("/(becquerel|66-132|64-225)\.noos\.(net|fr)/i",$hote) && (strchr($UA,"MSIE 4.01"))
 {
 header("Location:http://mydomain/bye.html");die();
 }
if (preg_match("/exabot|lehigh/i",$hote))
 {
 header("Location:http://mydomain/bye.html");die();
 }

On peut tester l'hôte et exclure quelques robots mal élevés ou la lecture des pages par l'intermédiaire d'un moteur de recherche. Est-ce bien nécessaire ?

//$no_ip=getenv("REMOTE_ADDR");
if (preg_match("/63\.247\.72\.42|208\.53\.138\.1/",$no_ip))die();

On peut exclure une adresse IP ou un groupe d'adresses IP, récupérer dans une base MySQL les adresses IP à exclure...

return;
}
/*fin de la fonction*/

Ceux qui ont passé toutes les étapes peuvent accéder à la page.
On peut optimiser le code, ajouter d'autres règles pour le referrer, le nombre de pages lues en liaison avec MySQL... Il sera facile d'effectuer des modifications, mais combien d'erreurs ?

Haut de la page

Quelques pistes...

Etant entendu qu'il ne faut pas exclure les robots de référencement (même si personne ne peut empêcher un utilisateur d'aspirateur de site d'envoyer l'identificateur d'un de ces robots), il reste à savoir si les accès sont dus à des êtres humains ou pas.
Ce site comporte deux pièges à robots dans la page d'accueil en français (et un seul piège à robots dans la page d'accueil en anglais) sous forme de liens que l'oeil ne peut repérer :
- le premier me sert à savoir si j'ai affaire à un robot, il se trouve dans un répertoire autorisé et me permet de mettre la liste ci-dessus à jour.
- le deuxième se trouve dans un répertoire interdit par le fichier robots.txt ( Disallow: /interdit/ ). Même si tous les robots de référencement ne sont pas très respectueux des règles, à moi de décider lorsque cette page est atteinte de ce qu'il faut faire.
Comme il est bien rare que le site soit copié, et même si les utilisateurs d'aspirateurs ne respectent pas souvent les règles, ces deux pièges ne servent à rien.
Si le site est suffisamment intéressant pour être "photographié", qu'il le soit.
Si la copie me gênait, je pourrais alors utiliser les scripts cités en début de page, les méthodes commentées à la suite du script de détection, un script PHP anti-capture, limiter le nombre de pages accessibles par session ou par adresse IP (les robots téléchargeront à chaque fois les mêmes fichiers), ou encore m'assurer qu'aucune activité anormale ne vient empêcher l'accès aux autres visiteurs en comptant le nombre de fichiers lus par seconde et ralentir le chargement de chaque page, ce qui ne pose problème qu'aux robots et à ceux qui ne prennent pas le temps de lire.
Utiliser l'adresse IP pour bloquer toutes les pages ou ralentir les accès fonctionne à condition que le prestataire affecte une adresse unique. Ce n'est pas le cas d'AOL ou des grosses entreprises (SNCF, France Télécom, RATP, Alcatel ...) qui font tourner les adresses IP dont elles disposent.
Reste le choix de l'hébergeur : certains bloquent les aspirateurs de site (comme parfois www.free.fr!!!).

Il est donc bien difficile ou bien risqué de vouloir protéger son site des copies.

Comme free.fr filtre parfois HTTrack, si vous préférez la consultation hors ligne, vous pouvez télécharger la partie statique du site au 31/12/05 ( fichiers compressés avec extension : exe~714k ou bz2~828k - seul le plan du site permet d'accéder à toutes les pages).

Haut de la page

Avec javascript