Web Spider Traps

When an author does not want his site to be copied or indexed by search engines, he can use:

A meta tag as <meta name="robots" content="noindex,nofollow"> (well-behaved bots only).
A robots.txt file which indicates the parts of the site not to be explored (well-behaved bots only).
.htaccess to ban known or detected robots (any webbot).
A java applet, some html, a script written in php, javascript or any other language (any webbot).

These methods are detailed in English at the following addresses:

How to build a Bot Trap and keep bad bots away from a web site
Stopping Spambots: A Spambot Trap
How to keep bad robots, spiders and web crawlers away Apache only
E-Mail Protector Script (perl script sending 10,000 fake addresses to identified robots)
Other methods (How to Defeat Bad Web Robots With Apache, Improving Web Spider Trap Efficiency, Blocking Bad User Agents - avec ASP, Robotcop ...) may still be online and searched.

in the documentation of Httrack (abuse FAQ for webmasters).

and www.webmasterworld.com (search for "spider traps" / "Blocking Badly Behaved Bots" or have a look at www.webmasterworld.com/forum24/ or www.webmasterworld.com/forum88/ or http://www.webmasterworld.com/forum92/ ).

Trap?

All these traps are likely to prevent search engines from indexing the pages, make browsing more difficult and discourage the users.

Fighting against the "Spam harvesters", "email grabbers", "email collectors" and "spambots" can easily be understood and quite easily done, but as all spiders are not used for bad purposes why should they all be blocked, even if they consume bandwidth and sometimes block or overload some sites.
Captures can be done for good reasons and good people: this site tries to help those who mirror sites for their students or those who cannot afford staying online...

Mirror?

Often, after some time, protections are removed: those whose navigators do not have the plugins (Macromedia, java -JRE 6.0-) or do not interpret Javascript are lost readers or lost customers.

If you think that the site is interesting enough to be mirrored, ask the author for a copy that you could browse offline.
Indeed, if you activate the option "no robots.txt rules" you may block any access to the site with your IP address or you may copy hundreds of pages without interest - error pages, images, documentations etc -.

In all the cases, locate the useful folders, use reasonable bandwidth limits and connections per second (Options - Limits - Max transfer rate and Options - Limits - Max connections / second), and limit the number of connections.
Examples 12 and 17 of website mirrors may help you.

Identify a robot

You can read about the different robots identifying themselves here:

Search Engine Spiders List (site and UA)
Search Engine IP Addresses (UA and IP)
Search engine robots that visit your web site (site, UA and IP)
Search Engine Spider Identification (UA and comments at webmasterworld)
E-Mail Collectors List (site and UA)
For this site : Listed identities (1066 User Agents Strings)

- None of these sites gives an entire list.
- Most robots and spiders give MSIE User Agent:
Mozilla/4.0 (compatible; MSIE 6.0; Windows ...)
do not read robots.txt
and are not well-behaved...
- Robots that regularly request robots.txt (UA).
- Robots that requested robots.txt this year(UA).

Robots and this site

List of the robots visiting this site (this list indexes the site, tests the link to the site, does surveys or controls for clients' names, plagiarism, spam...):

"1Noonbot search engine" - "50.nu" - "80legs crawler" - "ABACHOBot search engine" - "abcfr_robot search engine" - "Accoona-AI-Agent search engine" - "AcoonBot search engine" - "ActiveBookmark" - "Advanced URL Catalog bookmark manager" - "Advista search engine" - "aiHitBot" - "aipbot search engine" - "alef" - "Aleksika search engine" - "amagit.com search engine" - "Amazonbot crawler" - "Amfibibot search engine" - "Anonymous / Skywalker" - "AnswerBus search engine" - "AntBot search engine" - "antibot crawler" - "appie 1.1 (www.walhello.com) search engine" - "Apple-PubSub RSS monitoring" - "archive.org_bot crawler" - "Argus bookmark managing crawler" - "Art-Online.com 0.9(Beta) crawler" - "Ask Jeeves crawler" - "Asterias crawler" - "atraxbot" - "Baiduspider search engine" - "Bazbot search engine" - "BecomeBot search engine" - "Big Fish %S" - "Biglotron search engine" - "bingbot crawler" - "binlar" - "bitlybot" - "BitSightBot" - "bixolabs Data Mining" - "BlackMask.Net search engine" - "BlogCorpusCrawler" - "Bloglines RSS monitoring" - "Bluebot crawler" - "BnF" - "bogospider" - "boitho.com-robot search engine" - "Bookdog bookmark manager" - "bot/1.0" - "botmobi search engine" - "BruinBot crawler" - "Butterfly search engine" - "BuzzRankingBot crawler" - "C4PC" - "CacheBot" - "Caliperbot" - "CamontSpider crawler" - "capek crawler" - "Casper Bot Search %Z" - "CatchBot crawler" - "CazoodleBot crawler" - "CCBot crawler" - "ccubee search engine" - "CentiverseBot search engine" - "cfetch" - "Chanceo %S" - "Charlotte search engine" - "Cherchonsbot search engine" - "Cityreview" - "CMS Crawler" - "Combine crawler" - "comBot search engine" - "cometsystems crawler" - "Content Crawler crawler" - "ContextAd Bot" - "Convera RetrievalWare" - "CorenSearchBot" - "Corpora from the web crawler" - "cortex" - "Cosmix crawler" - "CosmixCrawler search engine" - "Covario crawler" - "Crawl Annu" - "Crawllybot search engine" - "csci_b659 Data Mining" - "CSS/HTML/XTHML Validator" - "CSSCheck" - "cybercity.dk IE 5.5 Compatible Browser" - "CydralSpider search engine" - "darxi spam / email grabbing" - "DataForSEO Link Bot" - "DataFountains/DMOZ Downloader" - "DAUM Web Robot search engine" - "dcbspider search engine" - "DealGates" - "Declumbot" - "deepak-USC/ISI spider" - "del.icio.us-thumbnails" - "del.icio.us bookmark manager link checker" - "DepSpid crawler" - "Diamond search engine" - "Diffbot" - "Directcrawler" - "discobot crawler" - "DLE_Spider spam" - "DMOZ Experiment" - "DNSGroup crawler" - "Domains Project crawler" - "DotBot crawler" - "DTAAgent search engine" - "Dumbot search engine" - "e-SocietyRobot crawler" - "eApolloBot search engine" - "EasyDL/3.04" - "EdisterBot crawler" - "ejupiter.com search engine" - "ellerdale search engine" - "EnaBot crawler" - "envolk search engine" - "ePochta_Extractor spam / email grabbing" - "ETS translation bot" - "europarchive" - "Exabot crawler" - "Exabot-Thumbnails" - "exactseek-crawler-2.63" - "Exalead NG" - "exooba crawler" - "Ezooms" - "facebookexternalhit" - "Factbot search engine" - "Falconsbot search engine" - "FAST crawler" - "FAST Enterprise Crawler" - "FAST FirstPage retriever" - "fast-search-engine" - "FAST-WebCrawler" - "FAST MetaWeb Crawler" - "FavOrg Link checker" - "favorstarbot Advertising" - "FeedBot" - "FeedBurner" - "FeedFetcher-Google" - "Fetch API Request" - "Filangy bookmark managing crawler" - "Findexa crawler" - "findfiles.net search engine" - "findlinks" - "flatlandbot" - "fleck" - "Flight Deck" - "FlightDeckReports" - "Fluffy (searchhippo) search engine" - "flyindex search engine" - "Focal crawler" - "FollowSite" - "Friend search engine" - "FurlBot search engine" - "Gaisbot/3.0 search engine" - "Galbot crawler" - "Generalbot" - "genevabot search engine" - "geniebot search engine" - "GeoBot" - "Gigabot crawler" - "Gigamega.bot search engine" - "GingerCrawler" - "Girafabot" - "Gnomit crawler" - "GOFORITBOT search engine" - "gold crawler" - "Google Desktop RSS monitoring" - "Google-Site-Verification" - "Google-Sitemaps" - "Googlebot crawler" - "Googlebot-Image" - "Googlebot-Mobile" - "Google Web Preview" - "GPTBot crawler" - "grub search engine" - "grub crawler" - "grub.org" - "gsa-crawler" - "GT::WWW/1." - "gURLChecker Link checker" - "GurujiBot search engine" - "GUSbot" - "GVC-SPIDER" - "Hailoobot search engine" - "Haste" - "hclsreport crawler" - "Helix crawler" - "HenriLeRobotMirago crawler" - "Heritrix crawler" - "hoge" - "Holmes search engine" - "HooWWWer crawler" - "htdig" - "HuaweiSymantecSpider crawler" - "ia_archiver crawler" - "ICC-Crawler crawler" - "ichiro search engine" - "icsbot-0.1" - "IlTrovatore search engine" - "imbot" - "INA dlweb crawler" - "IndoCrew %Z" - "Indy Library Internet Direct Library for Borland - often spambot" - "InelaBot crawler" - "inet library" - "inktomi Slurp crawler" - "InsiteRobot" - "integromedb.org crawler" - "InternetSeer Connectivity checker" - "Interseek" - "IntranooBot" - "IP*Works Link checker" - "IRLbot crawler" - "iSearch search engine" - "istarthere search engine" - "IXE Crawler" - "Jakarta Commons" - "Jetbot/1.0 crawler" - "JungleKeyBot search engine" - "Jyxobot search engine" - "KaloogaBot search engine" - "Killou.com search engine" - "KiwiStatus search engine" - "kmccrew Bot Search %Z" - "Knowledge.com search engine" - "knowmore" - "KomodiaBot" - "Lachesis" - "larbin crawler" - "ldspider" - "leak" - "lemurwebcrawler" - "librabot search engine" - "libwww-perl" - "LinguaBot search engine" - "linkaGoGo crawler" - "LinkChecker" - "Link Commander bookmark manager" - "linkdex.com" - "Linkman Link checker" - "Links SQL" - "Link Valet Online Link checker" - "LiteFinder search engine" - "livemark.jp Link checker" - "lmspider crawler" - "Look.com search engine" - "Loopy.fr search engine" - "Loserbot" - "Lsearch/sondeur" - "lwp-request" - "lwp-trivial" - "LWP::Simple" - "MagpieRSS" - "Mail.Ru" - "MaMa CaSpEr %Z" - "MaMa CyBer %Z" - "MapoftheInternet search engine" - "Marvin search engine" - "Me.dium OneRiot crawler" - "Mediapartners-Google" - "Megaglobe search engine" - "Megite news aggregator" - "MetaGeneratorCrawler" - "Metaspinner search engine" - "MileNSbot search engine" - "Mirago (HenriLeRobot) crawler" - "MJ12bot crawler" - "MLBot" - "MnogoSearch/3.2.11" - "MojeekBot search engine" - "Monrobot crawler" - "MOSBookmarks Link checker" - "mozDex crawler" - "Mozilla/4.0 (compatible; MSIE 6.0)" - "Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.0;)" - "Mp3Bot search engine" - "MQbot crawler" - "ms research robot" - "MSIE 4.5 %S" - "MSIE 6.0 (compatible; MSIE 6.0;... %S" - "MSIE 7.01 %S" - "MSMOBOT crawler" - "msnbot crawler" - "MSNPTC MSN search robot" - "MSR-ISRCCrawler" - "MSRBOT crawler" - "MultiCrawler search engine" - "mxbot" - "MyFamilyBot crawler" - "Nambu" - "NaverBot search engine" - "NaverRobot search engine" - "Nelian Pty Ltd" - "Netcraft survey" - "netEstate crawler" - "NetID Bot Advertising" - "NetResearchServer search engine" - "NetSprint search engine" - "NetWhatCrawler search engine" - "newsg8 RSS monitoring" - "NEWT ActiveX spam / email grabbing" - "NG-Search search engine" - "NG/1.0" - "NG/2.0 crawler" - "NGBot crawler" - "nicebot" - "Nigma search engine" - "NimbleCrawler search engine" - "NjuiceBot" - "Norbert the Spider search engine" - "NoteworthyBot" - "NPBot NameProtect crawler" - "nrsbot search engine" - "NuSearch Spider search engine" - "Nutch crawler" - "Nutch (Princeton) crawler" - "ObjectsSearch search engine" - "oBot crawler" - "octopodus search engine" - "Octora crawler" - "ODP::/0.01 Link checker" - "ODP entries" - "ODP links test" - "OmniExplorer_Bot search engine" - "onalytica" - "onCHECK" - "OnetSzukaj search engine" - "OOZBOT search engine" - "Openbot search engine" - "OpenindexSpider" - "OpenISearch search engine" - "OpenTaggerBot social bookmarks" - "OpenX Spider Advertising" - "OrangeBot-Mobile search engine" - "OutfoxBot" - "ozelot" - "page-store" - "Pagebull search engine" - "pagepeeker" - "page_verifier" - "Paleoweb crawler" - "PanopeaBot/1.0 (UCLA CS Dpt.)" - "panopta.com Connectivity checker" - "Pathtraq search engine" - "PEERbot search engine" - "PeerFactor crawler" - "petalbot crawler" - "Pete-Spider crawler" - "pflab" - "PHP/4." - "PHP version tracker web stats" - "PicSpider" - "PipeLine spider" - "Pita crawler" - "plaNETWORK Bot Search %Z" - "Plukkie search engine" - "PollettSearch crawler" - "polybot crawler" - "Pompos - dir.com crawler" - "Popdexter crawler" - "PostFavorites" - "PostRank" - "Powermarks Link checker" - "PrivacyFinder search engine" - "PROBE! search engine" - "Program Shareware" - "psbot crawler" - "Python-urllib" - "QEAVis" - "QihooBot search engine" - "Qualidator.com Bot" - "quickobot crawler" - "RAMPyBot search engine" - "RankurBot" - "Rapid-Finder search engine" - "Reaper/2.06 search engine" - "RedBot crawler" - "RedCarpet" - "RixBot search engine" - "robotgenius malware detection?" - "Robozilla/1.0" - "RSSMicro search engine" - "RTGI Data Mining" - "RufusBot" - "sagool search engine" - "savvybot search engine" - "SBIder crawler" - "schibstedsokbot search engine" - "Scooter search engine" - "ScoutJet search engine" - "Scrubby search engine" - "search.updated.com search engine" - "Search17Bot search engine" - "SearchByUsa search engine" - "SearchIt.Bot search engine" - "SearchWebLinks" - "Seekbot crawler" - "Semager search engine" - "SemrushBot" - "Sensis search engine" - "seocompany crawler" - "SEOENGBot" - "SEOprofiler bot crawler" - "SETOOZBOT search engine" - "SeznamBot" - "ShablastBot search engine" - "Shelob" - "sherlock search engine" - "Shim-Crawler" - "ShrinkTheWeb crawler" - "ShunixBot crawler" - "silk search engine" - "Sindup RSS monitoring" - "SISTRIX crawler" - "SiteBot %S" - "SiteIntel.net Bot" - "Skywalker / Anonymous" - "sledink Bot Search %Z" - "Slurpy Verifier" - "snap.com search engine" - "Snapbot search engine" - "SnapPreviewBot" - "socbay search engine" - "sogou spider" - "sohu-search search engine" - "sohu agent search engine" - "Solomono search engine" - "Sosospider search engine" - "SpeedySpider search engine" - "SpiderLing crawler" - "Spinn3r" - "sproose crawler" - "SpurlBot bookmark managing crawler" - "sSearch Crawler" - "statbot" - "StatusCheckBot Link checker" - "Steeler crawler" - "SuperBot search engine" - "Susie bookmark manager link checker" - "sygol search engine" - "SynapticWalker spam / email grabbing" - "SynooBot search engine" - "Syntryx ANT Chassis crawler" - "Szukacz/1.5 search engine" - "T-H-U-N-D-E-R-S-T-O-N-E" - "TargetYourNews Link checker" - "Teemer" - "Teoma search engine" - "TerraSpider" - "test" - "TFC" - "Theophrastus" - "Thriceler search engine" - "Thumbnail.CZ robot" - "thumbshots-de-bot" - "TinEye crawler" - "TranSGeniKBot" - "trexmod" - "Tubenowbot Link checker" - "TurnitinBot crawler" - "TutorGigBot crawler" - "Tutorial Crawler" - "TweetmemeBot" - "TwengaBot crawler" - "Twiceler crawler" - "Twisted PageGetter" - "Twitterbot" - "Twitturl" - "TygoBot search engine" - "uberbot crawler" - "UnChaosBot search engine" - "Unicorn Validator" - "updated search engine" - "Update Profile Bot search engine" - "Updownerbot" - "UptimeAuditor Connectivity checker" - "UptimeBot" - "URLBase bookmark manager" - "Valizbot crawler" - "VDSX.nl search engine" - "VelenPublicWebCrawler" - "versus crawler" - "Visbot search engine" - "VoilaBot crawler" - "Voluniabot" - "Vortex crawler" - "voyager search engine" - "VSE/1.0 crawler" - "W3C-checklink" - "WASALive search engine" - "WebAlta crawler" - "WebarooBot crawler" - "WebCorp search engine" - "webcrawl search engine" - "WebFilter" - "WebIndexer search engine" - "WebRACE/1.1" - "Webscan" - "WebsiteWorth %S" - "WebwikiBot" - "wikiwix search engine" - "Willow Internet Crawler" - "Windows-Live-Social-Object-Extractor-Engine" - "WinkBot search engine" - "Winsey search engine" - "WIRE" - "WongBot" - "woorank" - "woriobot search engine" - "WorQmada Link checker" - "Wotbox search engine" - "wpbot crawler" - "wume_crawler" - "www.almaden.ibm.com/cs/crawler" - "www.IsMySiteUp.Net" - "www.pisoc.com search engine" - "Xenu Link checker" - "Xerka Data Mining" - "xirq search engine" - "XmarksFetch bookmark manager search engine" - "yacybot search engine" - "Yahoo! Slurp crawler" - "Yahoo! Mindset" - "Yahoo-MMCrawler" - "Yahoo-Test crawler" - "YahooSeeker search engine" - "YahooVideoSearch search engine" - "Yandex search engine" - "Yanga search engine" - "yellowJacket Link checker" - "YesupBot" - "Yeti search engine" - "Yooda" - "yoono search engine" - "YottaCars search engine" - "YottaShopping search engine" - "YoudaoBot search engine" - "YRSpider" - "ZeBot search engine" - "zerxbot search engine" - "Zeus search engine" - "Zion crawler" - "ZipppBot search engine" - "ZyBorg/1.0 search engine" - "100.251.***" - "100.27.71.49" - "101.251.219.5" - "101.251.237.***" - "101.251.238.***" - "101.251.239.***" - "101.32.115.96" - "101.32.240.178" - "101.32.244.173" - "101.44.160.***" - "101.44.161.***" - "101.44.162.***" - "101.44.163.***" - "101.44.187.64" - "101.44.249.247" - "101.44.25.76" - "101.44.66.78" - "101.44.67.183" - "101.44.69.199" - "101.44.70.157" - "101.46.0.9" - "101.46.1.20" - "101.46.14.79" - "101.46.15.123" - "101.46.15.124" - "101.46.2.11" - "101.46.2.41" - "101.46.3.96" - "101.46.5.37" - "101.46.5.43" - "101.46.6.125" - "101.46.6.162" - "101.46.7.72" - "101.46.9.139" - "101.46.9.255" - "101.46.9.56" - "101.47.53.*** crawler" - "101.47.54.*** crawler" - "101.47.55.*** crawler" - "102.129.145.***" - "102.129.235.***" - "102.165.48.***" - "102.216.32.204" - "102.251.***" - "103.105.167.88" - "103.105.86.10" - "103.122.90.219" - "103.139.17.122" - "103.159.188.120" - "103.159.188.123" - "103.204.211.131" - "103.204.211.135" - "103.244.251.164" - "104.168.40.121" - "104.168.40.255" - "104.194.192.159" - "104.207.32.12" - "104.232.221.246" - "104.234.180.26" - "104.239.44.*** crawler" - "104.250.164.106" - "104.250.53.*** crawler" - "104.28.198.33" - "104.28.209.115" - "105.235.158.*** crawler" - "107.151.182.54" - "107.151.182.62" - "108.165.243.23" - "109.105.209.13" - "109.105.210.87" - "109.105.210.90" - "109.122.245.82" - "109.196.161.*** crawler" - "109.207.130.*** crawler" - "110.172.98.2" - "110.238.104.225" - "110.238.104.227" - "110.238.105.253" - "110.238.106.18" - "110.238.107.231" - "110.238.108.0" - "110.238.108.65" - "110.238.109.***" - "110.238.110.***" - "111.119.192.161" - "111.119.192.35" - "111.119.193.219" - "111.119.193.27" - "111.119.195.12" - "111.119.195.232" - "111.119.201.14" - "111.119.201.71" - "111.119.202.91" - "111.119.203.112" - "111.119.203.244" - "111.119.204.117" - "111.119.204.60" - "111.119.206.108" - "111.119.206.172" - "111.119.207.190" - "111.119.207.228" - "111.119.209.115" - "111.119.209.13" - "111.119.209.60" - "111.119.210.***" - "111.119.211.249" - "111.119.211.73" - "111.119.213.142" - "111.119.213.223" - "111.119.214.105" - "111.119.215.27" - "111.119.216.***" - "111.119.217.17" - "111.119.219.138" - "111.119.220.232" - "111.119.221.109" - "111.119.221.9" - "111.119.222.127" - "111.119.222.231" - "111.119.222.5" - "111.119.233.***" - "111.119.235.123" - "111.119.235.247" - "111.119.236.147" - "111.119.237.139" - "111.119.237.6" - "111.119.237.63" - "111.119.240.188" - "111.119.243.17" - "111.119.243.67" - "111.119.250.125" - "111.119.253.115" - "113.160.208.48 crawler" - "113.162.174.153 crawler" - "113.162.176.60 crawler" - "113.164.107.116 crawler" - "113.164.205.1 crawler" - "113.165.137.50 crawler" - "113.166.173.7 crawler" - "113.166.215.133 crawler" - "113.167.176.37 crawler" - "113.168.245.132 crawler" - "113.169.0.130 crawler" - "113.169.104.11 crawler" - "113.169.219.159 crawler" - "113.169.248.145 crawler" - "113.170.179.27 crawler" - "113.170.58.160 crawler" - "113.170.74.216 crawler" - "113.172.213.159 crawler" - "113.172.42.61 crawler" - "113.172.62.197 crawler" - "113.173.133.124 crawler" - "113.173.151.191 crawler" - "113.173.180.153 crawler" - "113.173.187.2 crawler" - "113.173.195.144 crawler" - "113.173.216.21 crawler" - "113.173.224.218 crawler" - "113.173.28.207 crawler" - "113.173.82.101 crawler" - "113.174.1.76 crawler" - "113.176.191.152 crawler" - "113.176.234.152 crawler" - "113.177.57.48 crawler" - "113.177.75.82 crawler" - "113.178.110.7 crawler" - "113.178.235.39 crawler" - "113.179.124.173 crawler" - "113.179.143.67 crawler" - "113.179.18.75 crawler" - "113.180.244.29 crawler" - "113.182.114.38 crawler" - "113.183.119.120 crawler" - "113.183.30.101 crawler" - "113.184.146.243 crawler" - "113.184.215.60 crawler" - "113.186.80.100 crawler" - "113.187.134.53 crawler" - "113.188.19.67 crawler" - "113.189.60.138 crawler" - "113.190.1.213 crawler" - "113.190.197.73 crawler" - "113.190.87.91 crawler" - "113.45.68.177" - "113.46.128.252" - "114.115.158.156" - "114.115.159.156" - "114.115.175.113" - "114.116.110.95" - "114.119.181.242" - "114.119.183.4" - "114.119.184.239" - "114.119.185.250" - "114.119.186.247" - "114.119.187.77" - "114.119.189.133" - "114.119.191.215" - "116.202.182.111" - "116.204.117.83" - "116.204.119.227" - "116.204.120.56" - "116.204.122.132" - "116.204.77.47" - "117.50.193.39" - "117.50.197.145" - "117.50.47.189" - "117.50.47.205" - "119.13.100.***" - "119.13.101.100" - "119.13.101.155" - "119.13.101.171" - "119.13.102.90" - "119.13.104.14" - "119.13.104.140" - "119.13.105.163" - "119.13.105.238" - "119.13.105.88" - "119.13.106.117" - "119.13.106.181" - "119.13.107.222" - "119.13.107.54" - "119.13.108.132" - "119.13.110.181" - "119.13.110.84" - "119.13.91.46" - "119.15.83.218" - "119.8.127.117" - "119.8.160.2" - "119.8.162.110" - "119.8.163.102" - "119.8.166.250" - "119.8.169.96" - "119.8.182.195" - "119.8.190.174" - "119.8.190.185" - "119.8.190.246" - "119.8.232.212" - "119.8.33.67" - "121.237.36.***" - "121.37.105.39" - "122.161.49.56" - "122.8.182.15" - "122.8.185.151" - "122.8.185.67" - "122.8.186.91" - "122.96.30.65" - "123.16.108.87 crawler" - "123.16.200.212 crawler" - "123.16.61.41 crawler" - "123.17.123.211 crawler" - "123.17.206.119 crawler" - "123.17.250.170 crawler" - "123.17.72.69 crawler" - "123.26.10.72 crawler" - "123.26.37.14 crawler" - "123.26.63.228 crawler" - "123.26.76.166 crawler" - "123.30.62.127 crawler" - "123.30.63.243 crawler" - "124.243.132.***" - "124.243.133.***" - "124.243.134.***" - "124.243.135.***" - "124.243.136.***" - "124.243.137.***" - "124.243.138.***" - "124.243.139.***" - "124.243.144.***" - "124.243.145.***" - "124.243.146.***" - "124.243.147.***" - "124.243.148.***" - "124.243.149.***" - "124.243.150.***" - "124.243.151.***" - "124.243.168.***" - "124.243.169.132" - "124.243.169.158" - "124.243.169.197" - "124.243.170.150" - "124.243.170.47" - "124.243.171.231" - "124.243.171.48" - "124.243.172.174" - "124.243.172.185" - "124.243.172.191" - "124.243.174.158" - "124.243.174.21" - "124.243.176.105" - "124.243.177.168" - "124.243.177.227" - "124.243.178.***" - "124.243.179.151" - "124.243.180.***" - "124.243.181.***" - "124.243.182.221" - "124.243.182.3" - "124.243.183.***" - "124.243.184.***" - "124.243.185.***" - "124.243.186.***" - "124.243.187.***" - "124.243.189.***" - "124.243.190.***" - "124.243.191.***" - "124.71.210.80" - "128.14.159.252" - "128.14.188.106" - "128.14.188.215" - "128.14.209.26" - "128.14.209.42" - "128.199.167.175" - "128.241.232.*** crawler" - "128.241.235.***" - "129.153.237.237" - "129.226.146.19" - "129.226.150.55" - "129.226.151.215" - "129.226.154.196" - "129.226.156.129" - "129.226.158.117" - "129.226.192.111" - "129.226.192.224" - "129.226.193.30" - "129.226.209.118" - "129.226.91.207" - "129.226.92.236" - "129.226.92.4" - "129.80.129.244" - "129.80.228.2" - "129.80.230.124" - "129.80.63.18" - "13.220.81.129" - "13.223.36.87" - "13.223.5.61" - "13.51.106.25" - "13.58.11.68" - "13.58.150.59" - "13.58.204.235" - "13.58.252.8" - "13.58.82.79" - "131.153.142.170 RSS monitoring" - "131.153.143.50 RSS monitoring" - "131.153.240.*** RSS monitoring" - "132.231.12.78" - "139.59.230.32" - "139.99.124.192" - "14.160.96.78 crawler" - "14.162.132.160 crawler" - "14.162.161.6 crawler" - "14.163.127.98 crawler" - "14.163.167.45 crawler" - "14.163.55.254 crawler" - "14.164.123.243 crawler" - "14.164.240.215 crawler" - "14.165.8.103 crawler" - "14.166.103.89 crawler" - "14.167.23.34 crawler" - "14.167.248.7 crawler" - "14.168.1.216 crawler" - "14.168.170.102 crawler" - "14.169.0.189 crawler" - "14.169.104.85 crawler" - "14.169.126.213 crawler" - "14.169.47.189 crawler" - "14.169.63.243 crawler" - "14.170.130.114 crawler" - "14.171.133.202 crawler" - "14.171.203.113 crawler" - "14.171.41.124 crawler" - "14.172.14.115 crawler" - "14.172.53.30 crawler" - "14.173.1.82 crawler" - "14.173.180.236 crawler" - "14.173.189.236 crawler" - "14.175.125.116 crawler" - "14.175.146.162 crawler" - "14.175.59.74 crawler" - "14.175.81.133 crawler" - "14.177.164.213 crawler" - "14.177.49.118 crawler" - "14.178.196.144 crawler" - "14.179.109.20 crawler" - "14.179.75.64 crawler" - "14.179.92.205 crawler" - "14.180.128.69 crawler" - "14.181.133.32 crawler" - "14.182.142.91 crawler" - "14.182.56.6 crawler" - "14.182.73.95 crawler" - "14.183.89.99 crawler" - "14.184.55.207 crawler" - "14.185.181.23 crawler" - "14.185.227.33 crawler" - "14.186.174.78 crawler" - "14.186.197.138 crawler" - "14.186.208.22 crawler" - "14.186.245.246 crawler" - "14.186.252.135 crawler" - "14.186.32.153 crawler" - "14.186.56.69 crawler" - "14.186.64.241 crawler" - "14.186.65.28 crawler" - "14.187.117.223 crawler" - "14.187.140.186 crawler" - "14.187.147.242 crawler" - "14.187.152.8 crawler" - "14.187.184.167 crawler" - "14.187.194.215 crawler" - "14.187.231.71 crawler" - "14.188.102.60 crawler" - "14.188.67.48 crawler" - "14.188.90.136 crawler" - "14.189.26.81 crawler" - "14.189.92.123 crawler" - "14.190.181.229 crawler" - "14.190.36.24 crawler" - "14.191.102.149 crawler" - "14.191.116.205 crawler" - "14.191.117.224 crawler" - "14.191.146.92 crawler" - "14.191.153.20 crawler" - "14.191.17.78 crawler" - "14.191.179.253 crawler" - "14.191.209.202 crawler" - "14.191.209.82 crawler" - "14.191.214.248 crawler" - "14.191.221.12 crawler" - "14.191.222.183 crawler" - "14.191.223.233 crawler" - "14.191.228.199 crawler" - "14.191.242.21 crawler" - "14.191.244.241 crawler" - "14.191.244.252 crawler" - "14.191.248.183 crawler" - "14.191.249.111 crawler" - "14.191.26.124 crawler" - "14.191.32.192 crawler" - "14.191.33.254 crawler" - "14.191.36.58 crawler" - "14.191.64.163 crawler" - "14.191.65.107 crawler" - "14.191.70.124 crawler" - "14.191.87.237 crawler" - "14.191.88.202 crawler" - "14.191.92.134 crawler" - "14.191.93.3 crawler" - "14.191.94.72 crawler" - "14.224.104.101 crawler" - "14.226.29.56 crawler" - "14.227.130.80 crawler" - "14.227.160.103 crawler" - "14.228.165.241 crawler" - "14.229.8.193 crawler" - "14.230.118.224 crawler" - "14.230.254.141 crawler" - "14.230.84.69 crawler" - "14.231.155.130 crawler" - "14.231.176.149 crawler" - "14.231.193.116 crawler" - "14.231.202.23 crawler" - "14.231.230.63 crawler" - "14.232.16.171 crawler" - "14.232.187.42 crawler" - "14.233.86.178 crawler" - "14.234.145.202 crawler" - "14.234.188.137 crawler" - "14.234.225.53 crawler" - "14.234.23.191 crawler" - "14.235.130.161 crawler" - "14.235.164.252 crawler" - "14.235.99.86 crawler" - "14.236.14.164 crawler" - "14.237.193.84 crawler" - "14.237.62.162 crawler" - "14.239.174.6 crawler" - "14.239.83.243 crawler" - "14.240.105.254 crawler" - "14.240.56.67 crawler" - "14.243.161.115 crawler" - "14.244.84.27 crawler" - "14.244.87.149 crawler" - "14.245.95.41 crawler" - "14.248.165.101 crawler" - "14.249.108.111 crawler" - "14.252.56.135 crawler" - "14.254.213.102 crawler" - "14.254.25.131 crawler" - "14.254.94.196 crawler" - "141.94.194.132" - "141.94.194.132 RSS monitoring" - "144.76.108.212" - "144.76.14.48" - "144.76.23.11" - "146.190.146.83" - "146.70.189.199" - "146.70.189.207" - "146.70.189.213" - "147.185.132.***" - "147.78.181.*** crawler" - "149.102.246.101" - "149.102.246.43" - "149.102.246.50" - "149.50.110.83" - "149.71.246.193" - "149.71.56.164" - "150.107.201.110" - "150.109.11.222" - "150.109.12.106" - "150.109.13.249" - "150.109.17.45" - "150.109.20.64" - "150.109.21.76" - "150.109.23.33" - "150.109.24.245" - "150.109.25.235" - "150.109.76.16" - "150.136.246.147" - "150.136.87.92" - "151.252.25.100" - "152.42.245.*** crawler" - "152.53.1.106" - "152.53.101.59" - "152.53.102.203" - "152.53.108.222" - "152.53.108.253" - "152.53.109.4" - "152.53.109.42" - "152.53.110.***" - "152.53.111.181" - "152.53.111.250" - "152.53.112.127" - "152.53.112.132" - "152.53.113.1" - "152.53.114.205" - "152.53.12.144" - "152.53.12.30" - "152.53.13.210" - "152.53.130.68" - "152.53.131.238" - "152.53.135.226" - "152.53.14.123" - "152.53.14.97" - "152.53.15.148" - "152.53.16.134" - "152.53.16.147" - "152.53.16.197" - "152.53.17.110" - "152.53.17.93" - "152.53.18.185" - "152.53.18.75" - "152.53.19.13" - "152.53.19.174" - "152.53.19.214" - "152.53.2.***" - "152.53.20.190" - "152.53.21.115" - "152.53.21.148" - "152.53.3.30" - "152.53.3.49" - "152.53.3.94" - "152.53.33.59" - "152.53.35.50" - "152.53.44.217" - "152.53.47.138" - "152.53.47.144" - "152.53.47.149" - "152.53.49.184" - "152.53.49.201" - "152.53.50.50" - "152.53.51.144" - "152.53.52.***" - "152.53.53.252" - "152.53.53.44" - "152.53.54.2" - "152.53.55.67" - "152.53.55.76" - "152.53.64.157" - "152.53.65.237" - "152.53.67.185" - "152.53.84.49" - "152.53.84.74" - "152.53.85.***" - "152.53.86.***" - "152.53.87.225" - "152.53.87.237" - "152.53.87.55" - "152.70.200.104" - "154.16.206.***" - "154.194.8.*** crawler" - "154.30.107.182" - "154.92.124.*** crawler" - "156.224.168.2" - "156.228.185.188" - "157.1.136.8" - "157.97.126.228" - "158.173.155.167" - "158.173.155.169" - "158.173.156.***" - "158.173.157.***" - "158.62.208.61 crawler" - "159.138.100.151" - "159.138.102.121" - "159.138.103.201" - "159.138.104.242" - "159.138.105.125" - "159.138.105.133" - "159.138.106.205" - "159.138.110.12" - "159.138.111.209" - "159.138.111.76" - "159.138.121.61" - "159.138.29.236" - "159.138.34.28" - "159.138.85.78" - "159.138.86.203" - "159.138.87.141" - "159.138.98.152" - "159.138.98.91" - "159.138.99.105" - "159.65.127.31" - "161.35.128.54" - "162.128.159.*** crawler" - "162.55.97.171" - "165.154.254.20" - "165.154.255.62" - "166.108.192.240" - "166.108.194.166" - "166.108.194.199" - "166.108.196.109" - "166.108.200.133" - "166.108.200.170" - "166.108.200.231" - "166.108.203.17" - "166.108.203.187" - "166.108.225.152" - "166.108.226.24" - "166.108.228.4" - "166.108.229.204" - "166.108.229.39" - "166.108.230.220" - "166.108.230.240" - "166.108.232.117" - "166.108.233.127" - "166.108.233.135" - "166.108.233.28" - "166.108.234.88" - "166.108.239.131" - "166.108.239.43" - "167.99.73.24" - "168.199.244.184" - "17.241.219.36" - "17.241.227.191" - "17.241.75.166" - "17.241.75.252" - "170.253.53.115" - "172.121.218.76" - "172.121.221.204" - "172.207.131.36" - "172.207.158.211" - "172.56.66.154" - "172.86.117.198" - "173.244.42.***" - "173.252.70.114" - "173.252.83.***" - "173.252.87.***" - "174.254.48.23" - "176.125.229.***" - "176.126.103.21" - "176.56.185.96" - "178.128.93.5" - "178.175.128.40 Link checker" - "18.117.165.66" - "18.117.186.92" - "18.117.81.240" - "18.118.120.204" - "18.118.145.114" - "18.118.184.237" - "18.118.200.86" - "18.119.111.9" - "18.119.125.7" - "18.119.131.178" - "18.119.139.50" - "18.119.213.235" - "18.188.61.223" - "18.189.170.17" - "18.189.178.37" - "18.189.180.244" - "18.190.156.212" - "18.206.12.31" - "18.216.239.46" - "18.216.32.116" - "18.217.144.32" - "18.218.127.141" - "18.219.224.103" - "18.221.146.223" - "18.221.174.248" - "18.221.187.121" - "18.223.0.53" - "18.224.32.86" - "18.227.190.93" - "18.227.228.95" - "18.232.185.167" - "18.234.55.154" - "181.214.107.93" - "182.160.12.209" - "182.160.2.17" - "183.134.59.130" - "183.134.59.131" - "183.215.23.242" - "183.241.134.115" - "184.94.240.88" - "185.102.48.*** crawler" - "185.117.225.***" - "185.180.141.***" - "185.182.235.44" - "185.202.108.*** crawler" - "185.214.198.243" - "185.216.177.23" - "185.226.196.19" - "185.226.197.15" - "185.226.197.58" - "185.226.197.70" - "185.226.197.9" - "185.254.97.109" - "185.37.62.12" - "185.61.217.*** crawler" - "185.65.134.132" - "185.65.134.156" - "186.75.152.12" - "188.143.244.140" - "188.143.244.146" - "188.172.229.121" - "188.208.222.253" - "188.243.29.193" - "188.68.33.61" - "188.68.34.94" - "188.68.36.177" - "188.68.38.34" - "188.68.53.142" - "188.68.53.226" - "188.68.54.120" - "188.68.55.12" - "188.68.58.161" - "189.1.223.251" - "190.141.34.139" - "190.92.198.201" - "190.92.199.75" - "190.92.200.71" - "190.92.200.8" - "190.92.201.109" - "190.92.201.147" - "190.92.204.35" - "190.92.205.141" - "190.92.205.8" - "190.92.206.113" - "190.92.206.161" - "190.92.208.129" - "190.92.209.***" - "190.92.210.141" - "190.92.211.230" - "190.92.212.198" - "190.92.212.251" - "190.92.213.192" - "190.92.214.107" - "190.92.214.40" - "190.92.215.18" - "190.92.215.37" - "190.92.216.***" - "190.92.218.12" - "190.92.221.146" - "190.92.221.210" - "190.92.240.91" - "192.126.193.238" - "192.145.45.246" - "192.159.99.92" - "192.227.120.199" - "193.118.52.30" - "193.118.52.34" - "193.118.53.109" - "193.118.53.91" - "193.118.55.180" - "193.175.2.84" - "193.176.86.42" - "193.31.126.*** crawler" - "193.37.32.81" - "193.42.225.*** crawler" - "193.8.95.*** crawler" - "194.230.146.235" - "194.26.192.80" - "194.31.162.*** crawler" - "194.36.147.49" - "194.38.22.71" - "194.38.23.16" - "194.5.53.*** crawler" - "195.133.20.8" - "195.178.110.75" - "195.24.236.17" - "195.82.146.250" - "196.196.53.***" - "196.251.112.209" - "196.251.117.203" - "196.251.118.195" - "196.251.69.153" - "196.251.69.33" - "196.251.71.229" - "196.251.71.46" - "196.251.71.7" - "196.251.72.221" - "196.251.72.247" - "196.251.72.46" - "196.251.73.83" - "196.251.83.129" - "196.251.86.***" - "198.145.54.189" - "198.15.119.93" - "198.235.24.***" - "199.101.196.102" - "199.101.196.77" - "199.127.56.***" - "2.57.169.***" - "2.58.56.174" - "2.58.56.55" - "20.232.164.19" - "20.232.165.102" - "20.39.207.207" - "20.41.116.71" - "20.41.87.85" - "200.119.177.77" - "202.111.66.108" - "202.61.203.27" - "202.61.224.210" - "202.61.238.111" - "202.61.244.38" - "203.162.157.119 crawler" - "204.10.193.85" - "204.12.231.186" - "205.210.31.*** crawler" - "207.32.217.219" - "207.46.13.107" - "209.240.99.195" - "211.161.51.197" - "212.102.60.162" - "212.109.132.196" - "213.111.144.131" - "215.73.***" - "216.218.147.201" - "216.73.161.***" - "216.73.215.***" - "216.73.216.***" - "216.73.217.***" - "217.180.43.244" - "217.182.92.119" - "217.198.191.218" - "217.198.191.220" - "217.198.191.222" - "217.73.***" - "217.76.56.193" - "221.178.143.70" - "222.252.140.183 crawler" - "222.253.191.147 crawler" - "222.254.21.117 crawler" - "23.20.220.59" - "23.21.20.21" - "23.21.201.118" - "23.23.233.50" - "23.27.184.88" - "24.144.124.27" - "3.12.71.237" - "3.126.116.154" - "3.128.199.162" - "3.128.94.171" - "3.133.79.70" - "3.136.154.103" - "3.137.161.222" - "3.137.180.32" - "3.137.192.3" - "3.137.218.230" - "3.138.101.95" - "3.138.141.202" - "3.139.97.157" - "3.14.254.103" - "3.140.185.147" - "3.140.185.170" - "3.141.193.158" - "3.142.135.86" - "3.142.144.40" - "3.142.53.68" - "3.143.0.157" - "3.143.168.172" - "3.143.4.181" - "3.143.9.115" - "3.144.17.45" - "3.144.172.115" - "3.144.189.177" - "3.144.202.167" - "3.144.26.83" - "3.145.119.199" - "3.145.131.28" - "3.145.152.98" - "3.145.173.112" - "3.145.47.253" - "3.145.52.86" - "3.145.94.130" - "3.146.65.212" - "3.149.252.37" - "3.15.143.181" - "3.15.149.45" - "3.15.218.254" - "3.15.219.217" - "3.15.225.173" - "3.16.15.149" - "3.16.66.206" - "3.16.70.101" - "3.16.81.94" - "3.17.162.247" - "3.17.183.24" - "3.17.6.75" - "3.18.109.77" - "3.19.54.41" - "3.209.56.116" - "3.21.104.109" - "3.21.248.47" - "3.21.76.0" - "3.22.181.209" - "3.22.249.158" - "3.23.101.60" - "3.230.128.106" - "3.230.147.225" - "3.235.199.19" - "3.235.243.45" - "3.236.111.234" - "3.237.31.131" - "3.237.51.235" - "3.238.195.81" - "3.239.206.191" - "3.252.83.45" - "3.253.142.93" - "3.67.80.25" - "3.70.183.103" - "3.71.95.121" - "3.72.246.125" - "3.76.105.213" - "3.76.248.47" - "3.79.103.34" - "3.80.155.163" - "3.80.75.225" - "3.81.79.135" - "3.88.16.192" - "3.90.35.86" - "3.91.121.199" - "3.91.19.28" - "3.93.173.205" - "31.129.110.237" - "31.129.170.42" - "31.57.112.5" - "34.193.202.67" - "34.193.37.226" - "34.195.3.202" - "34.197.21.75" - "34.203.55.79" - "34.207.208.186" - "34.226.66.3" - "34.228.240.6" - "34.230.84.106" - "34.234.98.53" - "34.237.245.80" - "35.159.23.188" - "35.159.84.66" - "35.168.113.41" - "35.170.162.250" - "35.171.22.220" - "35.172.194.25" - "35.173.178.60" - "35.173.233.176" - "36.150.60.24" - "36.27.95.48" - "360Spider search engine" - "37.120.179.43" - "37.120.184.***" - "37.120.185.171" - "37.120.185.179" - "37.120.185.71" - "37.120.186.137" - "37.120.186.154" - "37.120.187.***" - "37.120.213.216" - "37.140.223.137" - "37.140.223.9" - "37.167.91.236" - "37.19.221.***" - "37.221.194.170" - "37.221.197.60" - "37.46.113.*** Link checker" - "38.127.60.228" - "38.60.255.***" - "4.147.168.150" - "4.155.145.197" - "4.197.236.174" - "4.217.255.79" - "4.230.28.207" - "40.160.22.64" - "43.128.121.43" - "43.128.121.86" - "43.128.156.195" - "43.128.84.42" - "43.128.88.143" - "43.128.89.170" - "43.129.80.195" - "43.130.12.103" - "43.130.141.247" - "43.130.33.54" - "43.130.42.164" - "43.130.62.137" - "43.133.38.100" - "43.133.42.180" - "43.133.43.121" - "43.133.43.154" - "43.133.43.227" - "43.133.56.146" - "43.133.57.8" - "43.133.59.248" - "43.133.60.115" - "43.133.60.97" - "43.133.62.111" - "43.133.62.221" - "43.134.0.62" - "43.134.107.106" - "43.134.109.11" - "43.134.112.111" - "43.134.118.145" - "43.134.119.86" - "43.134.12.237" - "43.134.121.104" - "43.134.15.134" - "43.134.16.138" - "43.134.163.161" - "43.134.163.229" - "43.134.165.87" - "43.134.167.226" - "43.134.176.114" - "43.134.184.91" - "43.134.191.24" - "43.134.229.118" - "43.134.231.229" - "43.134.236.64" - "43.134.26.191" - "43.134.26.28" - "43.134.41.2" - "43.134.41.39" - "43.134.46.116" - "43.134.48.88" - "43.134.56.250" - "43.134.57.196" - "43.134.61.126" - "43.134.61.238" - "43.134.63.65" - "43.134.64.76" - "43.134.68.22" - "43.134.69.123" - "43.134.69.90" - "43.134.72.28" - "43.134.73.181" - "43.134.75.217" - "43.134.77.29" - "43.134.91.203" - "43.134.91.49" - "43.134.93.164" - "43.134.99.61" - "43.143.200.85" - "43.143.7.112" - "43.153.112.164" - "43.153.192.129" - "43.153.193.211" - "43.153.221.113" - "43.153.35.128" - "43.153.62.242" - "43.153.63.165" - "43.154.115.27" - "43.154.99.81" - "43.156.107.145" - "43.156.12.8" - "43.156.181.50" - "43.156.2.243" - "43.156.232.154" - "43.156.29.120" - "43.156.29.145" - "43.156.3.195" - "43.156.5.207" - "43.156.6.103" - "43.156.79.172" - "43.157.104.73" - "43.157.56.49" - "43.159.130.175" - "43.159.32.86" - "43.159.37.213" - "43.159.41.139" - "43.159.41.195" - "43.163.0.23" - "43.163.22.232" - "43.163.22.33" - "43.163.23.89" - "43.163.8.72" - "43.166.132.11" - "44.197.113.64" - "44.197.47.41" - "44.198.83.238" - "44.200.101.170" - "44.200.196.114" - "44.202.90.91" - "44.204.164.147" - "44.206.68.168" - "44.210.179.106" - "44.213.194.20" - "44.214.52.128" - "44.216.53.84" - "44.217.13.63" - "44.220.41.140" - "44.221.205.134" - "44.222.122.246" - "44.222.125.114" - "44.222.149.13" - "44.88.***" - "45.10.155.226" - "45.10.155.233" - "45.138.16.48" - "45.141.215.142" - "45.141.215.45" - "45.148.10.***" - "45.154.98.111" - "45.156.128.***" - "45.156.129.***" - "45.156.130.***" - "45.156.131.***" - "45.192.141.*** crawler" - "45.192.145.*** crawler" - "45.192.146.*** crawler" - "45.3.37.226" - "45.3.38.77" - "45.41.130.192" - "45.84.107.54" - "45.84.224.217" - "45.88.13.*** crawler" - "45.88.96.***" - "45.88.97.***" - "45.88.98.***" - "45.91.22.***" - "45.92.229.***" - "45.94.31.58" - "45.94.31.82" - "46.19.138.210" - "46.232.250.88" - "46.232.251.86" - "46.250.162.50" - "46.250.171.20" - "46.38.236.149" - "46.38.238.73" - "46.38.241.197" - "46.38.253.187" - "46.79.*** crawler" - "46.88.***" - "47.238.13.*** crawler" - "47.238.14.*** crawler" - "47.242.148.*** crawler" - "47.242.149.*** crawler" - "47.242.167.*** crawler" - "47.242.200.*** crawler" - "47.242.209.*** crawler" - "47.242.230.*** crawler" - "47.243.161.*** crawler" - "47.243.178.*** crawler" - "47.243.228.*** crawler" - "47.243.56.*** crawler" - "47.243.62.*** crawler" - "47.243.78.*** crawler" - "47.76.222.*** crawler" - "47.79.0.***" - "47.79.1.***" - "47.79.116.***" - "47.79.117.***" - "47.79.118.***" - "47.79.119.***" - "47.79.120.***" - "47.79.121.***" - "47.79.122.***" - "47.79.123.***" - "47.79.191.*** crawler" - "47.79.192.*** crawler" - "47.79.193.*** crawler" - "47.79.194.*** crawler" - "47.79.195.*** crawler" - "47.79.196.*** crawler" - "47.79.197.*** crawler" - "47.79.198.*** crawler" - "47.79.199.*** crawler" - "47.79.2.***" - "47.79.200.*** crawler" - "47.79.201.*** crawler" - "47.79.202.*** crawler" - "47.79.203.*** crawler" - "47.79.204.*** crawler" - "47.79.205.*** crawler" - "47.79.206.*** crawler" - "47.79.207.*** crawler" - "47.79.208.*** crawler" - "47.79.211.*** crawler" - "47.79.212.*** crawler" - "47.79.213.*** crawler" - "47.79.214.*** crawler" - "47.79.215.*** crawler" - "47.79.216.*** crawler" - "47.79.217.*** crawler" - "47.79.218.*** crawler" - "47.79.219.*** crawler" - "47.79.220.*** crawler" - "47.79.3.***" - "47.79.4.***" - "47.79.5.***" - "47.79.7.***" - "47.79.98.***" - "47.82.0.*** crawler" - "47.82.10.*** crawler" - "47.82.11.*** crawler" - "47.82.12.***" - "47.82.13.***" - "47.82.14.***" - "47.82.15.***" - "47.82.16.***" - "47.82.17.***" - "47.82.18.***" - "47.82.20.***" - "47.82.23.***" - "47.82.24.***" - "47.82.25.***" - "47.82.26.***" - "47.82.28.***" - "47.82.9.*** crawler" - "48.79.*** crawler" - "49.0.203.114" - "49.0.204.134" - "49.0.205.36" - "49.0.205.66" - "49.0.205.79" - "49.0.206.145" - "49.0.206.244" - "49.0.206.82" - "49.0.207.105" - "49.0.207.20" - "5.183.255.129" - "5.252.227.78" - "5.252.55.178" - "5.45.109.159" - "51.178.76.233" - "51.210.34.84" - "51.222.158.108" - "51.75.206.225" - "51.75.206.94" - "51.83.25.234" - "51.83.25.235" - "51.83.25.237" - "52.15.155.175" - "52.163.54.6" - "52.20.28.25" - "52.205.132.115" - "52.206.84.190" - "52.21.89.144" - "52.22.175.199" - "52.224.217.143" - "52.226.135.84" - "52.3.51.98" - "52.44.240.11" - "52.53.164.97" - "52.72.224.69" - "52.90.181.205" - "54.144.81.21" - "54.146.140.54" - "54.152.247.108" - "54.158.141.93" - "54.159.186.146" - "54.160.243.44" - "54.162.92.127" - "54.166.234.171" - "54.166.43.22" - "54.172.169.199" - "54.172.78.31" - "54.173.173.237" - "54.203.138.147" - "54.205.140.139" - "54.210.199.111" - "54.221.69.42" - "54.224.124.217" - "54.225.1.66" - "54.225.124.19" - "54.227.223.138" - "54.234.136.147" - "54.234.83.134" - "54.235.44.90" - "54.236.158.176" - "54.236.177.28" - "54.236.181.119" - "54.242.75.224" - "54.39.190.168" - "54.69.185.226" - "54.85.255.74" - "54.86.172.146" - "54.86.63.253" - "57.141.0.***" - "57.141.5.***" - "57.141.7.***" - "58.144.138.11" - "62.60.131.161" - "62.72.45.43" - "63.177.67.193" - "63.177.87.18" - "64.137.121.*** crawler" - "64.23.233.179" - "64.71.179.*** crawler" - "66.220.149.***" - "68.183.55.37" - "69.171.230.28" - "69.171.230.31" - "69.171.230.4" - "69.171.249.***" - "72.144.139.87" - "74.208.88.236" - "74.235.223.64" - "75.153.220.190" - "75.153.225.194" - "75.153.225.57" - "75.153.232.118" - "77.74.177.114" - "77.74.177.118" - "78.141.211.98" - "79.142.79.47 Link checker" - "79.142.79.55 Link checker" - "8.210.10.*** crawler" - "8.210.108.*** crawler" - "8.210.146.*** crawler" - "8.210.15.*** crawler" - "8.210.152.*** crawler" - "8.210.154.*** crawler" - "8.210.187.*** crawler" - "8.210.190.*** crawler" - "8.210.218.*** crawler" - "8.210.230.*** crawler" - "8.217.146.13" - "8.217.158.207" - "8.217.168.144" - "8.217.168.224" - "8.217.188.167" - "8.217.188.201" - "8.217.190.93" - "8.217.191.109" - "8.217.191.94" - "8.217.208.219" - "8.217.208.28" - "8.217.209.23" - "8.217.210.223" - "8.217.210.248" - "8.217.211.219" - "8.217.211.96" - "8.217.212.***" - "8.217.213.2" - "8.217.214.173" - "8.217.214.193" - "8.218.186.*** crawler" - "8.218.91.*** crawler" - "80.76.51.217" - "80.80.142.9" - "81.21.233.*** crawler" - "82.67.157.9" - "83.99.151.64" - "83.99.151.67" - "84.17.35.72" - "84.247.60.*** crawler" - "85.203.20.*** crawler" - "85.203.44.*** crawler" - "85.203.51.210" - "85.208.96.194" - "85.208.96.205" - "85.239.37.*** crawler" - "87.106.214.89" - "87.121.86.54" - "87.251.78.131" - "87.251.78.138" - "88.174.3.1" - "89.58.0.163" - "89.58.12.49" - "89.58.16.134" - "89.58.16.178" - "89.58.17.216" - "89.58.18.243" - "89.58.19.144" - "89.58.19.180" - "89.58.29.125" - "89.58.29.225" - "89.58.29.40" - "89.58.30.159" - "89.58.32.241" - "89.58.40.139" - "89.58.41.206" - "89.58.43.156" - "89.58.43.25" - "89.58.44.37" - "89.58.46.164" - "89.58.46.67" - "89.58.46.75" - "89.58.50.247" - "89.58.57.128" - "89.58.62.110" - "91.184.246.174" - "91.222.174.116" - "91.246.195.*** crawler" - "91.90.44.22" - "92.204.175.84" - "93.152.210.179" - "93.157.29.195" - "93.158.91.34" - "93.159.230.28" - "93.159.230.84" - "94.103.125.240" - "94.228.145.229" - "94.30.52.242" - "94.74.102.225" - "94.74.122.138" - "94.74.80.132" - "94.74.80.161" - "94.74.80.165" - "94.74.81.63" - "94.74.82.42" - "94.74.83.173" - "94.74.84.120" - "94.74.84.72" - "94.74.85.217" - "94.74.85.240" - "94.74.85.248" - "94.74.86.81" - "94.74.87.185" - "94.74.88.***" - "94.74.89.31" - "94.74.90.22" - "94.74.92.***" - "94.74.94.113" - "94.74.94.172" - "95.142.121.46" - "98.159.234.***" - "98.80.80.221" - "98.85.57.215" - "98.96.193.***" - "Gaisbot/3.0 search engine" - , "www.dir.com"

You can see their last visits or find their identity (1066 User Agent strings) or download a list.

Some robots regularly request robots.txt but link checkers (inbound links from other sites or search engines), validation tools and log spamming do not read robots.txt.

Among those exploring the site

Did not follow robots.txt rules:

Advista AdBot,alef/0.0, AhrefsBot, Alexa, Asterias, BIGLOTRON(Beta 2), bingbot, boitho.com, Content Crawler, DataForSEO Link Bot, DTAAgent, fast-search-engine, Fetch API Request, Gigamega.bot, grub (looksmart & other users), Helix, ia_archiver (Alexa), IRLbot, INA dlweb, Jyxobot, libwww-perl, LiteFinder, Lsearch/sondeur, LWP (simple & trivial), MegaIndex, msnbot/2.0b, MSR-ISRCCrawler, NetResearchServer, NOOS, OmniExplorer_Bot, Pompos (www.dir.com), Program Shareware, Seekport, shunix (libwww-perl/5.803), TygoBot, wbdbot, WebCrawler, Yahoo! Slurp/3.0, ZyBorg

- recently:

BaiduSpider, bingbot, Bytespider, DataForSEO Link Bot, Domains Project, GeedoBot, GPTBot, MegaIndex, Seekport

Did not limit bandwidth usage:

appie, Ask Jeeves, Exalead ou NG/1.0, Fetch API Request, msnbot/0.1, msnbot/0.11, NaverRobot, Pompos (www.dir.com), Program Shareware, shunix (Xun), TygoBot, WebCrawler

- recently:

Cityreview, e-SocietyRobot, INA dlweb, LWP (simple & trivial), NG/2 (Exalead), OmniExplorer_Bot, Seekbot, semrush

Followed robots.txt rules except for exe, pdf, tar and zip files:
- recently:

larbin, Sensis.com.au, sygol, ZyBorg

Recently for this site:

Older visits:

Explore home page only

Anonymous
aragna.net_bot
Bazbot
Big Fish
BitSightBot
BuzzRankingBot
CentiverseBot
Cherchonsbot
CMS Crawler
comBot
ContextAd Bot
Cosmix
Crawl Annu
Crawllybot
cybercity.dk
DataFountains/DMOZ Downloader
Declumbot
del.icio.us-thumbnails
DMOZ Experiment
DNSGroup
DomainTaggingbot
DuckDuckGo
ejupiter.com
elefent
emefgebot
envolk
exooba
Expanse
favorstarbot
flatlandbot
Flight Deck
Fluffy
flyindex
FollowSite
Gaisbot/3.0
Galbot
GeoBot
Gnomit
GOFORITBOT
google+
grub crawler
GT::WWW/1.02
GVC-SPIDER
Holmes
HooWWWer
HouxouCrawler
ICC-Crawler
Indy Library
InelaBot
InsiteRobot
InternetSeer
IP*Works
IP 67.15.68.85
IP 67.108.232.229
IP 193.109.173.79
IP 207.44.188.104
iSearch
JikeSpider
JungleKeyBot
KaloogaBot
KiwiStatus Update Profile
Knowledge.com
KomodiaBot
linkaGoGo
LinkPimpin
Links SQL
Look.com
Loopy.fr
Loserbot
MapoftheInternet
Marvin
MetaGenerator
Metaspinner
Monrobot
Monsidobot
mozDex
MQBOT
MSIE 4.5; Windows 98;
MSIE 6.0 (compatible; MSIE 6.0;
MSIE 7.01
MSNPTC
MultiCrawler
NCBot
Netcraft
netEstate
NetID Bot
NetResearchServer
NetSprint
NetSystemsResearch
NetWhatCrawler
NimbleCrawler
nrsbot
ObjectsSearch
octopodus
ODP::/0.01
ODP links test
onCHECK
OnetSzukaj
OpenX Spider
PEERbot
PHP/4.2.2
PHP version tracker
PicSpider
PipeLiner
polybot
PrivacyFinder
PROBE!
RAMPyBot
REBOL View
Robotzilla
savvybot
Scrubby
search.updated.com
SearchByUsa
SearchIt.Bot
SemanticScholar
silk
Skywalker
Slurpy Verifier
snap.com
snipsearch
sogou spider
sohu-search
SurdotlyBot
SynooBot
Syntryx ANT
T-H-U-N-D-E-R-S-T-O-N-E
Teoma
test
Thumbnail.CZ robot
thumbshots-de-bot
trexmod
updated
UUNET
VDSX.nl
WebAlta
webcrawl
webpros
WebRACE
WebsiteWorth
WebwikiBot
wectarbot
wikiwix
Willow Internet Crawler
WinkBot
Winsey
WIRE
WorQmada
www.IsMySiteUp.Net
xirq
yacybot
Yahoo-MMCrawler
Yooda
YottaCars
YottaShopping
YoudaoBot
ZeBot
zerxbot
ZipppBot

Explore other pages too

1Noonbot
80legs
360Spider
ABACHOBot
abcfr_robot
Accoona-AI-Agent
AcoonBot
ActiveBookmark
ADmantX
AdsBot-Google
Advista AdBot
aiHitBot
aipbot
alef
Aleksika
Alexa
amagit
Amazonbot%C
Amfibibot
AnswerBus
AntBot
antibot
appie
Apple-PubSub
Applebot
AraBot
archive.org_bot
Argus
Ask Jeeves
Asterias
atraxbot
BacklinkCrawler
Baiduspider
Barkrowler / BUbiNG
BecomeBot
Biglotron
Bing
binlar
bitlybot
BitNinja
bixolabs
BlogCorpusCrawler
Blogdimension
Bloglines (RSS)
Bluebot
bogospider
boitho
Bookdog
bot/1.0
BruinBot
Butterfly
C4PC
CacheBot
Caliperbot
capek
CatchBot
CazoodleBot
CCBot
ccubee
cfetch
Chanceo
Cincraw
Cityreview
Claritybot
Combine
cometsystems
CompSpyBot
Content Crawler
ConveraCrawler
CorenSearchBot
COrpora from the Web
Covario
Cox Communications
CRAZYWEBCRAWLER
csci_b659/0.13
CydralSpider
Cyveillance
darxi
DataForSEO Link Bot
Dazoobot
DealGates
deepak-USC/ISI
del.icio.us
DepSpid
Deskyobot
Diamond
Diffbot
discobot
Discovery Engine
Domains Project
DotBot
DTAAgent
Dumbot
e-SocietyRobot
eApolloBot
EasyDL
EdisterBot
ellerdale
EnaBot
ePochta_Extractor
ETS
Exabot
Exabot-Images
Exabot-Thumbnails
facebookexternalhit
Factbot
Falconsbot
FAST-search-engine
FAST-WebCrawler
FAST Enterprise Crawler
FAST MetaWeb Crawler
FavOrg
FeedBurner
FeedFetcher-Google (RSS)
Fetch API Request
Filangy
Findexa
findfiles.net
findlinks
fleck
Focal
Friend or Winsey
FurlBot
Gaisbot
Generalbot
genevabot
geniebot
Gigabot/1.0
Gigamega.bot
GingerCrawler
Girafabot
gold crawler
Google-Site-Verification
Google-Sitemaps
Googlebot
Googlebot-Image
Googlebot-Mobile
Google Desktop
Google Favicon
GrapeshotCrawler
grub
grub.org
gsa-crawler
gURLChecker
GurujiBot
GUSbot
Hailoobot
hclsreport
Headline
Helix
HenriLeRobotMirago
Heritrix
hoge
htdig
ia_archiver
ichiro
IGBot
Iltrovatore-Setaccio
INA dlweb
inet library
interseek
IntranooBot
IP 63.247.72.42
IP 89.122.57.185
IP 217.74.99.100
IRLbot
istarthere
Jakarta Commons-HttpClient
Jetbot
Jyxobot
KiwiStatus
knowmore
larbin
ldspider
leak
lemurwebcrawler
librabot
libwww-perl
LinguaBot
Link Commander
linkdex.com
Linkman
Linkpad
Link Valet Online
LiteFinder
livemark.jp
lmspider
Lsearch/sondeur
LWP (simple & trivial)
Mail.Ru
Me.dium
Mediapartners-Google
Megaglobe
Megite
Metric Tools
MJ12bot
MLBot
MojeekBot
MOSBookmarks
Mozilla/4.0 (compatible; MSIE 6.0)
Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.0;)
Mp3Bot
MQbot
MSMOBOT
msnbot
MSR-ISRCCrawler
MSRBOT
mxbot
MyFamilyBot
Nambu
NaverBot
NaverRobot
neeva
Nelian Pty Ltd
netsweeper
newsg8 (RSS)
NEWT ActiveX
NG-Search
NG/2.0
NGBot
nicebot
Nigma
NjuiceBot
NOOS
Norbert the Spider
NoteworthyBot
NPBot
NuSearch Spider
Nutch
oBot
OmniExplorer
onalytica
OpenindexSpider
OpenISearch
OpenTaggerBot
OrangeBot-Mobile
OutfoxBot
ozelot
page-store
Pagebull
page_verifier
Paleoweb
panopta.com
Pathtraq
PeerFactor crawler
petalbot
Pete-Spider
pflab
Pinboard Dead Link Checker
Pinterestbot
PollettSearch
PostFavorites
PostRank
Powermarks
Program Shareware
proximic
psbot
Python-urllib
QEAVis
QihooBot
Qualidator.com Bot
quickobot
Qwantify
RankurBot
Rapid-Finder
RedBot
RixBot
Rogerbot
RSSMicro
RTGI
RufusBot
Sagool
SBIder
schibstedsokbot
ScoutJet
Screaming Frog
ScSpider
SearchWebLinks
Seekbot
Semager
semetrical
SemrushBot
Sensis
seocompany
SEOENGBot
SEOkicks
SEOprofiler bot
SETOOZBOT
SeznamBot
ShablastBot
Shelob
sherlock
Shim-Crawler
ShrinkTheWeb
ShunixBot
SiMilarTech
SISTRIX
SiteBot
Snapbot
SnapPreviewBot
socbay
sogou spider
sohu agent
Solomono
SpeedySpider
SpiderLing
sproose
SpurlBot
startmebot
statbot
StatusCheckBot
Steeler
SuperBot
Susie
sygol
Synapse
SynapticWalker
Szukacz
TargetYourNews
Teemer
TerraSpider
TFC
Theophrastus
Thriceler
TinEye
Toplistbot
Tubenowbot
TurnitinBot
TutorGigBot
Tutorial Crawler
TweetmemeBot
TwengaBot
Twiceler
Twisted PageGetter
Twitterbot
Twitturl
TygoBot
uberbot
UnChaosBot
Unicorn
UptimeAuditor
URLBase
Valizbot
VelenPublicWebCrawler
versus crawler
Visbot
VoilaBot
Voluniabot
Vortex
voyager
WASALive
wbdbot
WebarooBot
WebCorp
WebFilter
WebMeUp
WebNL
WebSense
Winsey or Friend
WongBot
woorank
woriobot
Wotbox
wpbot
wume_crawler
www.almaden...
www.pisoc.com
Xenu
Xerka
XmarksFetch
XoviBot
Yahoo! Mindset
Yahoo! Slurp
Yahoo-Test
YahooSeeker
YahooVideoSearch
Yandex
Yanga
yellowJacket
YesupBot
Yeti
yoono
YRSpider
Zion
ZyBorg

with sometimes strange requests

curl
Pompos
shunix (Xun)

looking for known vulnerabilities

DataCha0s
libwww-perl
LWP (simple & trivial)
Mozilla/3.0 (compatible; Indy Library)
Mozilla/5.0

Top of the page

Detecting a robot

The undesirables

First of all, it is necessary to ensure that the requested page actually exists.
For this site, Apache returns /index.php in $_SERVER['SCRIPT_NAME'] if the page does not exist. If $_SERVER['REQUEST_URI'] without the query string is not the homepage, then we are dealing with a robot looking for a CMS known vulnerability.

It is then necessary to ensure that the query string is not different from what is used by the site operation or tested for undesirable elements using $_SERVER['QUERY_STRING']. The regular expressions #(\b|%..)(AND|UNION|SELECT|CASE|ORDER( |%20)BY)(\b|%..)|(CHA?R|SLEEP|ELT|CONCAT|SCRIPT)\(\d|\d{1,4}=\d{1,4}#i and #(author|cmd|mode|option|task|view)=|admin|user|w(ord)?p(ress)?|\.env|%#i identify the most common ones.
The user agent may also contain these same elements.

We can also verify that the contact page is not the only one requested and using a POST method.

Checking the "referer" ($_SERVER['HTTP_REFERER']) helps to identify spammers. The method used is often HEAD, the second-level domain of the URL, the directory or the main domain name can be significant. For this site, the second-level domain is most often ru, ua, kz, su, by or club, finance, fun... The directory and the domain name also use words related to marketing, gambling, finance...
The log files allow to make a list fairly quickly.

Many robots regularly return without identifying themselves and request, always in the same order, often with the site URL as "referer", the same pages, sometimes one or two pages, sometimes a large part of the site.
They are more difficult to identify because they change their IP address, their user agent...

This identification of undesirable robots is not bullet-proof because the robots of the best search engines suffer from bugs.

Using its User Agent

Here is a PHP script (which is used by the site stats) allowing you to know if a robot or a search engine is requesting a page:

$UA=$_SERVER["HTTP_USER_AGENT"]; $no_ip=$_SERVER["REMOTE_ADDR"]; $brow = strtolower($UA);//to lowercase as there are many versions $bots = array ("googlebot","webcrawler","grub.org","slurp","openfind","antibot", "netresearchserver","nutch","ia_archiver","scooter","fluffy"); //Here you can add the other robots names in lower case $n=0; do { $robot = strchr($brow,$bots[$n]); $n=$n+1; }while ((!$robot) && ($n<count($bots))); //if $robot is a nul string, you can do the same to spot spiders, "Spamrats", //or other visitors who identify themselves and then take a decision. //if $robot contains the name of the robot you want to stop, // redirect before any output towards the browser by using header("Location:anypage.html"); //this page will have no links, so the spider will stop searching. //In the site the page http://danzcontrib2.free.fr/no_msie6.php redirects any MSIE 6 compatible to the home page //and displays the code to other browsers.

A script using the User Agent is now online here

It is more difficult to spot robots that do not identify:

give a MSIE 6 (as UUNET or Websense) or Mozilla 5 (net-sweeper) or Konqueror (twtc / Websense - RegExp: 3\.[0-1](-rc[1-6])?; i686 Linux; 2002[0-9]{4}-, exabot - Exalead User Preview) or Mozilla 4.01 (NOOS) identification,
change IP address each time they load a page (a WHOIS search on Ripe or Whois Source or Openrbl may give you a clue),
combine all the methods (qwest.net, .ev1servers.net as well).

Using its host

A good example seems to be the www.dir.com (search engine) robot which uses many IP addresses (from 212.27.33.164 to 212.27.33.173 in May 2003, 212.27.41.18 in November 2003). Its activity could be seen on the page logging servers, but is filtered now by the following PHP routine.

if (!$robot)
{
$robot=strchr(gethostbyaddr($no_ip),".dir.com");
}
//if it's the www.dir.com robot then $robot is set as .dir.com

The regular expression /semrush|^crawl|\.(google|msn|spider|apple|sketchengine)\./ helps to avoid identification errors related to a bug or an unusual user agent.

Using its IP address

A robot requesting pages from a few IP addresses can be spotted likewise:

if (!$robot)
{
$robot=strchr($no_ip,"208.53.138.");
}
/*
if the IP address is between 208.53.138. and 208.53.138.
$robot is set as 208.53.138.
*/

In any case, maintaining a list of User Agents, hosts and IP addresses noticed as having a strange behaviour will be necessary.

Using the request method

It seems that, at the present time (June 2005), only robots and download utilities use a HEAD request (then a GET if the page exists or has been modified). Thus $_SERVER["REQUEST_METHOD"] can allow the identification of a robot using a browser User Agent. (Read RSS feed for tests in progress).

/*this method must come first*/
if ($_SERVER["REQUEST_METHOD"]=="HEAD") {$robot="robot";};
/*if head is used, $robot will not be empty*/

All these methods seem to be rather accurate.

Top of the page

Blocking a robot with PHP

When some Apache modules are not available for use and having access to .htaccess files is restricted (my case) or if we want to cut down the size of the file .htaccess and let the server do what's useful, PHP allows us to redirect or block a robot.

If we want to stop a robot (here Fetch API Request) , we just have begin all our pages (before any output to the browser) with the following script so that the webbot is redirected toward the page bye.html, any other page or send a 403 Access Denied status message.

<?php
$UA=getenv("HTTP_USER_AGENT");
if (stristr($UA,"Fetch API Request")!="")
{
header("Location:http://mydomain/bye.html");
die(); /*this line can be replaced by the HTML redirection*/
}
?>

This page not being linked, the spidering will immediately stop.
The same can be done with an IP address by using getenv("REMOTE_ADDR");.
More sophisticated techniques are listed above.

About two thirds of the robots will follow the redirection if the domain name does not change, almost none if it changes.
A redirection in HTML will be necessary if we want to redirect all of them or let them know where the new page is:

<?php
echo"<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"
 "http://www.w3.org/TR/html4/loose.dtd">
<html>
<head>
<title>Redirection</title>
<meta http-equiv="Refresh" content="0;URL=http://mydomain/bye.html">
</head>
<body>
<p>
Redirection: <a href="http://mydomain/bye.html">http://mydomain/bye.html</a>
</p>
</body>
</html>";
die();
?>

Allowing some robots and blocking others

A function to include and call at the begining of each page can allow us to manage robots.

/*start*/
function redirect_robots()
{
$requested_page=$_SERVER["REQUEST_URI"];
if (preg_match("/([enptux\d]|\b)(ftp|https?|php)(:\/\/|%3A%2F%2F)/i",$requested_page))
   {die();} /*blocks the majority of zombies*/

When we are unlucky and visited by zombies, or when we are using a CMS, the best is to block all these requests.

if ($_SERVER["REQUEST_METHOD"]=="HEAD") return;

Why should we block this type of request? The "harm's done", link checkers toward our site (Xenu, Powermarks, Link Commander, HTTrack, IRLbot...) and search engines (Speedy Spider, sygol...) will have a positive answer and their case, if they come back with a GET or POST request, will be considered later.
There, we can store the IP address in a MySQL table to block any comeback of the utility or webbot.

$UA=getenv("HTTP_USER_AGENT");
if (preg_match("/Googlebot|Yahoo|VoilaBot|Ask Jeeves|SpeedySpider/i",$UA)) return;

No problem for the robots we accept: those who identify themselves and are named in the regular expression above. The host can be checked to see if it matches the User Agent.

/*
Including bot in the expression will block aipbot, antibot, boitho, OmniExplorer...
As for this site, up to 408 robots!
*/
if (preg_match("/[^e]crawler|spider|bot|custo |web(cow|moni|capture)|wysigot|httrack|wget|xenu/i",$UA))
{
header("Location:http://mydomain/bye.html");die();
/*another option is to send a 403 Access Denied status message
handled by Apache .htaccess
header("Status: 403 Forbidden");die();*/
}

Even if I am not convinced by the necessity to block the ones that do not exaggerate, all those in the regular expression will be redirected.
Many utilities like Wysigot leave their name in the User Agent even when they are not active.

$no_ip=getenv("REMOTE_ADDR");
$host=gethostbyaddr($no_ip);
if (preg_match("/(becquerel|66-132|64-225)\.noos\.(net|fr)/i",$host) && (strchr($UA,"MSIE 4.01"))
 {
 header("Location:http://mydomain/bye.html");die();
 }
if (preg_match("/exabot|lehigh/i",$host))
 {
 header("Location:http://mydomain/bye.html");die();
 }

We can test the host and ban a few badly-behaved robots or the reading by a request from a search engine. Is it really useful?

//$no_ip=getenv("REMOTE_ADDR");
if (preg_match("/63\.247\.72\.42|208\.53\.138\.1/",$no_ip))die();

We can ban an IP address or a group of IP addresses, get from a MySQL database the IP address to ban...

return;
}
/*end*/

Now, those who are still here can browse.
We can optimize the code, add a few rules for the referrer, the number of pages requested (stored with MySQL)... It will be easy to update or modify the code, but how many errors?

Top of the page

A few ideas...

As indexing activity shouldn't be blocked (even if no one can stop a web spider user to declare a robot identifier), knowing whether a human being is viewing a page is done in the site with two bot traps in the French home page (and only one robot trap in the English home page):
They consist in links without text so that no one can see them.
- The first is in an allowed folder. Any access to the file allows me to update the list above.
- The second is in a folder marked as prohibited to robots in the file robots.txt ( Disallow: /interdit/). Even if all indexing robots do not always respect the rules, if the page is hit it must be a web copier.
As the site is rarely copied and even if few users follow robots.txt rules, these two traps do not initiate an action.
If some people find the site interesting enough to be mirrored, they can archive it but I could stop them with a script from the sites mentioned above, the methods following the detection script, an anti-mirroring PHP script, I could limit the number of pages per session or per IP address (robots usually follow the same route), or slow them by counting the number of pages visitors or robots are trying to get by second and allow less than a page per second which will be a problem for web spiders and people who do not read.
Using the IP address to do so works if the visitor's provider gives a unique IP address. This is not the case with AOL and many big companies.
Changing provider is one option: some filter web spiders (just as www.free.fr sometimes does!!!).

Therefore preventing or stopping website mirroring is difficult or risky.

If you prefer offline browsing, you can download the static part of the site (extension of compressed files : exe~597k or bz2~631k - December 2005 / use the site map).

Top of the page

With javascript