Posts Tagged robot

google管理员工具提示robots.txt语法有误的解决

网站使用了google管理员工具,但在抓取工具的权限这一项里,老是有问题,具体是:

第 1行:?User-agent:*   语法有误

认真检查了robots.txt文件,并没有那个门号或其它字符

上网查了下,才知道是编码问题

因为我习惯用UE将所有文件保存成utf-8格式,而google管理员工具是不能正常读取这种格式的

解决方法,保存为ANSI格式

  • Share/Bookmark

Tags: ,

nginx文件类型错误解析漏洞(80sec)

漏洞介绍:nginx是一款高性能的web服务器,使用非常广泛,其不仅经常被用作反向代理,也可以非常好的支持PHP的运行。80sec发现其中存在一个较为严重的安全问题,默认情况下可能导致服务器错误的将任何类型的文件以PHP的方式进行解析,这将导致严重的安全问题,使得恶意的攻击者可能攻陷支持php的nginx服务器。
漏洞分析:nginx默认以cgi的方式支持php的运行,譬如在配置文件当中可以以

location ~ \.php$ {
root html;
fastcgi_pass 127.0.0.1:9000;
fastcgi_index index.php;
fastcgi_param SCRIPT_FILENAME /scripts$fastcgi_script_name;
include fastcgi_params;
}

的方式支持对php的解析,location对请求进行选择的时候会使用URI环境变量进行选择,其中传递到后端Fastcgi的关键变量SCRIPT_FILENAME由nginx生成的$fastcgi_script_name决定,而通过分析可以看到$fastcgi_script_name是直接由URI环境变量控制的,这里就是产生问题的点。而为了较好的支持PATH_INFO的提取,在PHP的配置选项里存在cgi.fix_pathinfo选项,其目的是为了从SCRIPT_FILENAME里取出真正的脚本名。
那么假设存在一个http://www.80sec.com/80sec.jpg,我们以如下的方式去访问

将会得到一个URI
/80sec.jpg/80sec.php
经过location指令,该请求将会交给后端的fastcgi处理,nginx为其设置环境变量SCRIPT_FILENAME,内容为
/scripts/80sec.jpg/80sec.php
而在其他的webserver如lighttpd当中,我们发现其中的SCRIPT_FILENAME被正确的设置为
/scripts/80sec.jpg
所以不存在此问题。
后端的fastcgi在接受到该选项时,会根据fix_pathinfo配置决定是否对SCRIPT_FILENAME进行额外的处理,一般情况下如果不对fix_pathinfo进行设置将影响使用PATH_INFO进行路由选择的应用,所以该选项一般配置开启。Php通过该选项之后将查找其中真正的脚本文件名字,查找的方式也是查看文件是否存在,这个时候将分离出SCRIPT_FILENAME和PATH_INFO分别为
/scripts/80sec.jpg和80sec.php
最后,以/scripts/80sec.jpg作为此次请求需要执行的脚本,攻击者就可以实现让nginx以php来解析任何类型的文件了。

http://www.80sec.com/80sec.jpg/80sec.php

 

POC: 访问一个nginx来支持php的站点,在一个任何资源的文件如robots.txt后面加上/80sec.php,这个时候你可以看到如下的区别:

访问http://www.80sec.com/robots.txt
HTTP/1.1 200 OK
Server: nginx/0.6.32
Date: Thu, 20 May 2010 10:05:30 GMT
Content-Type: text/plain
Content-Length: 18
Last-Modified: Thu, 20 May 2010 06:26:34 GMT
Connection: keep-alive
Keep-Alive: timeout=20
Accept-Ranges: bytes

访问访问http://www.80sec.com/robots.txt/80sec.php
HTTP/1.1 200 OK
Server: nginx/0.6.32
Date: Thu, 20 May 2010 10:06:49 GMT
Content-Type: text/html
Transfer-Encoding: chunked
Connection: keep-alive
Keep-Alive: timeout=20
X-Powered-By: PHP/5.2.6

其中的Content-Type的变化说明了后端负责解析的变化,该站点就可能存在漏洞。

漏洞厂商:http://www.nginx.org

解决方案:

我们已经尝试联系官方,但是此前你可以通过以下的方式来减少损失
关闭cgi.fix_pathinfo为0
或者
if ( $fastcgi_script_name ~ \..*\/.*php ) {
return 403;
}

  • Share/Bookmark

Tags: , , , , , , , , , , ,

如何写robots.txt?(摘点石)

在国内,网站管理者似乎对robots.txt并没有引起多大重视,应一些朋友之请求,今天想通过这篇文章来简单谈一下robots.txt的写作。

 

robots.txt基本介绍

robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容。

当一个搜索机器人(有的叫搜索蜘蛛)访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么搜索机器人就沿着链接抓取。

另外,robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。

robots.txt写作语法

首先,我们来看一个robots.txt范例:http://www.seovip.cn/robots.txt

访问以上具体地址,我们可以看到robots.txt的具体内容如下:

# Robots.txt file from http://www.seovip.cn
# All robots will spider the domain

User-agent: *
Disallow:

以上文本表达的意思是允许所有的搜索机器人访问www.seovip.cn站点下的所有文件。

具体语法分析:其中#后面文字为说明信息;User-agent:后面为搜索机器人的名称,后面如果是*,则泛指所有的搜索机器人;Disallow:后面为不允许访问的文件目录。

下面,我将列举一些robots.txt的具体用法:

允许所有的robot访问

User-agent: *
Disallow:

或者也可以建一个空文件 “/robots.txt” file

禁止所有搜索引擎访问网站的任何部分

User-agent: *
Disallow: /

禁止所有搜索引擎访问网站的几个部分(下例中的01、02、03目录)

User-agent: *
Disallow: /01/
Disallow: /02/
Disallow: /03/

禁止某个搜索引擎的访问(下例中的BadBot)

User-agent: BadBot
Disallow: /

只允许某个搜索引擎的访问(下例中的Crawler)

User-agent: Crawler
Disallow:

User-agent: *
Disallow: /

另外,我觉得有必要进行拓展说明,对robots meta进行一些介绍:

Robots META标签则主要是针对一个个具体的页面。和其他的META标签(如使用的语言、页面的描述、关键词等)一样,Robots META标签也是放在页面的<head></head>中,专门用来告诉搜索引擎ROBOTS如何抓取该页的内容。

Robots META标签的写法:

Robots META标签中没有大小写之分,name=”Robots”表示所有的搜索引擎,可以针对某个具体搜索引擎写为name=”BaiduSpider”。 content部分有四个指令选项:index、noindex、follow、nofollow,指令间以“,”分隔。

INDEX 指令告诉搜索机器人抓取该页面;

FOLLOW 指令表示搜索机器人可以沿着该页面上的链接继续抓取下去;

Robots Meta标签的缺省值是INDEX和FOLLOW,只有inktomi除外,对于它,缺省值是INDEX,NOFOLLOW。

这样,一共有四种组合:

<META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”>
<META NAME=”ROBOTS” CONTENT=”NOINDEX,FOLLOW”>
<META NAME=”ROBOTS” CONTENT=”INDEX,NOFOLLOW”>
<META NAME=”ROBOTS” CONTENT=”NOINDEX,NOFOLLOW”>

其中

<META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”>可以写成<META NAME=”ROBOTS” CONTENT=”ALL”>;

<META NAME=”ROBOTS” CONTENT=”NOINDEX,NOFOLLOW”>可以写成<META NAME=”ROBOTS” CONTENT=”NONE”>

目前看来,绝大多数的搜索引擎机器人都遵守robots.txt的规则,而对于Robots META标签,目前支持的并不多,但是正在逐渐增加,如著名搜索引擎GOOGLE就完全支持,而且GOOGLE还增加了一个指令“archive”,可以限制GOOGLE是否保留网页快照。例如:

<META NAME=”googlebot” CONTENT=”index,follow,noarchive”>

  • Share/Bookmark

Tags: , , , , , , , , ,

lightinthebox的robots.txt

User-agent:*
Disallow: /cache/

User-Agent: almaden
Disallow: /
User-Agent: ASPSeek
Disallow: /
User-Agent: Axmo
Disallow: /
User-Agent: BaiduSpider
Disallow: /
User-Agent: booch
Disallow: /
User-Agent: DTS Agent
Disallow: /
User-Agent: Downloader
Disallow: /
User-Agent: EmailCollector
Disallow: /
User-Agent: EmailSiphon
Disallow: /
User-Agent: EmailWolf
Disallow: /
User-Agent: Expired Domain Sleuth
Disallow: /
User-Agent: Franklin Locator
Disallow: /
User-Agent: Gaisbot
Disallow: /
User-Agent: grub
Disallow: /
User-Agent: HughCrawler
Disallow: /
User-Agent: iaea.org
Disallow: /
User-Agent: lcabotAccept
Disallow: /
User-Agent: IconSurf
Disallow: /
User-Agent: Iltrovatore-Setaccio
Disallow: /
User-Agent: Indy Library
Disallow: /
User-Agent: IUPUI
Disallow: /
User-Agent: Kittiecentral
Disallow: /
User-Agent: iaea.org
Disallow: /
User-Agent: larbin
Disallow: /
User-Agent: lwp-trivial
Disallow: /
User-Agent: MetaTagRobot
Disallow: /
User-Agent: Missigua Locator
Disallow: /
User-Agent: NetResearchServer
Disallow: /
User-Agent: NextGenSearch
Disallow: /
User-Agent: NPbot
Disallow: /
User-Agent: Nutch
Disallow: /
User-Agent: ObjectsSearch
Disallow: /
User-Agent: Oracle Ultra Search
Disallow: /
User-Agent: PEERbot
Disallow: /
User-Agent: PictureOfInternet
Disallow: /
User-Agent: PlantyNet
Disallow: /
User-Agent: QuepasaCreep
Disallow: /
User-Agent: ScSpider
Disallow: /
User-Agent: SOFT411
Disallow: /
User-Agent: spider.acont.de
Disallow: /
User-Agent: Sqworm
Disallow: /
User-Agent: SSM Agent
Disallow: /
User-Agent: TAMU
Disallow: /
User-Agent: TheUsefulbot
Disallow: /
User-Agent: TurnitinBot
Disallow: /
User-Agent: Tutorial Crawler
Disallow: /
User-Agent: TutorGig
Disallow: /
User-Agent: WebCopier
Disallow: /
User-Agent: WebZIP
Disallow: /
User-Agent: ZipppBot
Disallow: /
User-Agent: Xenu
Disallow: /
User-Agent: Wotbox
Disallow: /
User-Agent: Wget
Disallow: /
User-Agent: NaverBot
Disallow: /
User-Agent: mozDex
Disallow: /
User-Agent: Sosospider
Disallow: /
Sitemap:http://localhost/sitemapindex.xml

看来除了google和yahoo,lightinthebox不打算让别的搜索引擎收录了

百度site一下,只收了首页,title是兰亭国际,挺有趣的

  • Share/Bookmark

Tags: , , , , , , , , , , , , ,

Robot

当个机器人,能抵御一切人类的。。。

去看个出车祸的人,让生活总是趋向于越来越糟

  • Share/Bookmark

Tags: ,

Meta标签说明

Meta标签是用来描述网页属性的一种语言,标准的Meta标签可以便于搜索引擎排序,提高搜索引擎网站权重排名。要想网站做的更符合搜索引擎标准就必须了解meta标签的,下面给大家讲讲meta标签含义与使用方法:

1、META标签的keywords
写法为:<meta name=”Keywords” content=”信息参数” />
meat标签的Keywords的的信息参数,代表说明网站的关键词是什么。

2、META标签的Description
<meta name=”Description” content=”信息参数” />
meat标签的Description的信息参数,代表说明网站的主要内容,概况是什么。

3、META标签的http-equiv=Content-Type content=”text/html
http-equiv=Content-Type代表的是HTTP的头部协议,提示浏览器网页的信息,
<meta http-equiv=”Content-Type” content=”text/html; charset=信息参数” />
meat标签的Description的信息参数如GB2312时,代表说明网站是采用的编码是简体中文;
meat标签的Description的信息参数如BIG5时,代表说明网站是采用的编码是繁体中文;
meat标签的Description的信息参数如iso-2022-jp时,代表说明网站是采用的编码是日文;
meat标签的Description的信息参数如ks_c_5601时,代表说明网站是采用的编码是韩文;
meat标签的Description的信息参数如ISO-8859-1时,代表说明网站是采用的编码是英文;
meat标签的Description的信息参数如UTF-8时,代表世界通用的语言编码;

4、META标签的generator
<meta name=”generator” content=”信息参数” />
meat标签的generator的信息参数,代表说明网站的采用的什么软件制作。

5、META标签的author
<meta name=”author” content=”信息参数”>
meat标签的author的信息参数,代表说明网页版权作者信息。

6、META标签的http-equiv=”Refresh”
<Meta http-equiv=”Refresh” Content=”时间; Url=网址参数”>
meat标签的Refresh代表多少时间网页自动刷新,加上Url中的网址参数就代表,多长时间自动链接其他网址。

7、META标签的HTTP-EQUIV=”Pragma” CONTENT=”no-cache”
<META HTTP-EQUIV=”Pragma” CONTENT=”no-cache”>代表禁止浏览器从本地计算机的缓存中访问页面内容,这样设定,访

问者将无法脱机浏览。

8、META标签的COPYRIGHT
<META NAME=”COPYRIGHT” CONTENT=”信息参数”>
meat标签的COPYRIGHT的信息参数,代表说明网站版权信息。

9、META标签的http-equiv=”imagetoolbar”
<meta http-equiv=”imagetoolbar” content=”false” />
指定是否显示图片工具栏,当为false代表不显示,当为true代表显示。

10、META标签的Content-Script-Type
<Meta http-equiv=”Content-Script-Type” Content=”text/javascript”>
W3C网页规范,指明页面中脚本的类型。
11、META标签的revisit-after
<META name=”revisit-after” CONTENT=”7 days” >
revisit-after代表网站重访,7 days代表7天,依此类推。

12、META标签的Robots
<meta name=”Robots” contect=”信息参数”>
Robots代表告诉搜索引擎机器人抓取哪些页面
  其中的属性说明如下:

  信息参数为all:文件将被检索,且页面上的链接可以被查询;

  信息参数为none:文件将不被检索,且页面上的链接不可以被查询;

  信息参数为index:文件将被检索;

  信息参数为follow:页面上的链接可以被查询;

  信息参数为noindex:文件将不被检索,但页面上的链接可以被查询;

  信息参数为nofollow:文件将不被检索,页面上的链接可以被查询。

13、META标签的<meta http-equiv=”windows-Target” contect=”_top”>
代表页面在当前窗口中以独立页面显示,可以防止自己的网页被别人当作一个frame页调用,设置有:_blank、_top、_self、_parent。

14、META标签的set-cookie
<meta http-equiv=”set-cookie” contect=”Mon,12 May 2001 00:20:00 GMT”>
代表Cookie设定,如果网页过期,存盘的cookie将被删除,需要注意的也是必须使用GMT时间格式;

  • Share/Bookmark

Tags: , , , , , , , , , , , , , , ,

雅虎和谷歌都宣布robots.txt文件支持通配符

以下是雅虎Search Blog发表的官方声明和robots.txt通配符解决方案:
Yahoo! Search Crawler (Yahoo! Slurp) – Supporting wildcards in robots.txt

I was going through my notes from Danny Sullivan’s Open Feedback sessions that occur during the ?Meet the Crawlers? panel at Search Engine Strategies. One of the items on my list was a request for enhanced syntax in robots.txt to make it easier for webmasters to manage how search crawlers, including Slurp, access your content.

For those who may not be as familiar with search index terminology, webmasters use the robots.txt file to direct robots that visit their site, including search engine crawlers, which files should be crawled and which shouldn’t be. You can read about our support for robots directives in the help for Yahoo! Slurp.

Well, we can scratch that one off the list, since we have just updated Yahoo! Slurp to recognize two additional symbols in the robots.txt directives ? ‘*’ and ‘$’. The semantics of these is what is as widely understood for robots.txt files.

‘*’ – matches a sequence of characters

You can now use ‘*’ in robots directives for Yahoo! Slurp to wildcard match a sequence of characters in your URL. You can use this symbol in any part of the URL string you provide in the robots directive. For example,

User-Agent: Yahoo! Slurp
Allow: /public*/  #允许所有以public开头的目录被索引
Disallow: /*_print*.html
Disallow: /*?sessionid #这句的意思是拒绝一切包含sessionid参数的页面被搜索引擎索引。

The robots directives above will:

allow all directories that begin with ‘public’, such as ‘/public_html/’ or ‘/public_graphs/’ to be crawled
disallow any files or directories which contain ‘_print’, such as ‘/card_print.html’ or ‘/store_print/product.html’ to be crawled
disallow any files with ‘?sessionid’ in their URL string, such as ‘/cart.php?sessionid=342bca31? to be crawled
Note that a trailing ‘*’ is redundant since that is existing matching behavior for Slurp. So, the following two directives are equivalent:

User-Agent: Yahoo! Slurp
Disallow: /private*
Disallow: /private

‘$’ ? anchors at the end of the URL string

You can now also use ‘$’ in robots directives for Slurp to anchor the match to the end of the URL string. Without this symbol, Yahoo! Slurp would match all URLs against the directives, treating the directives as a prefix. For example:

User-Agent: Yahoo! Slurp
Disallow: /*.gif$
Allow: /*?$

The robots directives above will

Disallow all files ending in ‘.gif’ in your entire site. Note that without the ‘$’, this would disallow all files containing ‘.gif’ in their file path
Allow all files ending in ‘?’ to be included. This would not automatically allow files that just contain ‘?’ somewhere in the URL string
As you can see, this symbol only makes sense at the end of the string. Hence, when we see it, we assume that your directive terminates there and any characters after that symbol are ignored.

Oh, by the way, if you thought we didn’t support the ‘Allow’ tag, as you can see from these examples, we do.

If you have any questions about the new syntax or any particular cases you are concerned about, please write in at the Site Explorer forums or read up our area.

Next time you see me at SES, you should ask me what else is on my list!

Priyank Garg
Product Manager, Yahoo! Search

可以用google管理员工具测试,一般第一次提交很快就会抓取robots.txt,然后更新就慢了点

  • Share/Bookmark

Tags: , , , , , , , , , , , , , ,

被搜索封杀或者降低排名几个解决办法

首先应该确定你的网站是完全被封,还是只是排名下降。

直接搜索一下域名或URL

用site:指令查一下

用网页上某一句独特的话(比如版权声明之类的在其他站点肯定不会出现的句子)搜索一下

如果你确认你的网站所有网页都已经从搜索引擎数据库里消失,那么有可能是服务器死机,也有可能robots.txt文件有问题,或者被检测出严重作弊行为。

如果你的网页还在数据库中,但排名下降,那么有可能是你网站有一些可疑的迹象而被惩罚,也有可能是搜索引擎算法改变。

这里所说的排名下降指的是大幅下降,如果只是从第一页掉到第二页,这纯属正常。如果从第一页掉到第二十页,那么你应该查一下。

服务器是否一切正常

最近有没有宕机?服务器设置是否正常?当搜索引擎蜘蛛来抓取的时候,服务器返回的是不是200状态码?如果服务器有问题,应该只是一个暂时的现象。

robots.txt文件是否正确

robots.txt文件用来阻挡搜索引擎蜘蛛抓取某些目录或某些文件,虽然这个功能很有用,但是很容易出错。

如果你的robots.txt文件设置有问题,搜索引擎蜘蛛就没办法抓取你的网站了。正常设置和有错的设置可能差别非常微小,要多次检查,确保无误。

网站是否过度优化

前面谈了很多具体的优化技巧和手段,比如关键词选择,标题标签的写作,关键词位置密度,网站结构等等。但如果你把所有这些技术都用上,那离出问题就不远了。

过度优化现在往往是排名被惩罚的重要原因。这里有个度的问题,做到哪样是适当优化,哪种程度是过度优化,只有靠经验来掌握了。如果你在优化的时候会安慰自己”这应该没事吧”,就说明恐怕快有事了。

可疑的页面转向

有不少页面会放上一些JavaScript转项或者meta refresh转向,这些都有可能被认为是可疑的手法。302转向也可能造成问题。

是否有大量交叉链接

有不少站长会同时掌握很多网站,并且在这些网站之间互相交叉链接,这是很有可能导致问题的。

一个人拥有四五个网站,可以理解,但如果四五十个网站,每个网站都不大,质量也不高,还都互相链接起来,这就可疑了。

是否链接向其他有作弊嫌疑的网站

检查导出链接,是不是只链接向相关网站?是不是只链接向高质量网站?你链接的网站有没有被封或被惩罚的?如果有,你的网站被封或被惩罚的日子就不远了。

有没有复制内容网页

虽然复制内容不会导致网站被封,但如果你的域名权威度不高,可能导致排名下降。

其他作弊手段

仔细检查有没有用隐藏网页?有没有发大量垃圾链接?

在检查这些的时候,不能骗自己,在网站上用了哪些手段,只有站长自己最清楚,外人很难一眼看出来。

  • Share/Bookmark

Tags: , , , , ,

robots.txt使用方法

如何放置Robots.txt文件

robots.txt自身是一个文本文件。它必须位于域名的根目录中并 被命名为”robots.txt”。位于子目录中的 robots.txt 文件无效,因为漫游器只在域名的根目录中查找此文件。例如,http://www.example.com/robots.txt 是有效位置,http://www.example.com/mysite/robots.txt 则不是。

这里举一个
robots.txt的例子:

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~name/

使用 robots.txt 文件拦截或删除整个网站

要从搜索引擎中删除您的网站,并防止所有漫游器在以后抓取您的网站,请将以下 robots.txt 文件放入您服务器的根目录:

User-agent: *
Disallow: /

要只从 Google 中删除您的网站,并只是防止 Googlebot 将来抓取您的网站,请将以下 robots.txt 文件放入您服务器的根目录:

User-agent: Googlebot
Disallow: /

每个端口都应有自己的 robots.txt 文件。尤其是您通过 http 和 https 托管内容的时候,这些协议都需要有各自的 robots.txt 文件。例如,要让 Googlebot 只为所有的 http 网页而不为 https 网页编制索引,应使用下面的 robots.txt 文件。

对于 http 协议 (http://yourserver.com/robots.txt):

User-agent: *
Allow: /

对于 https 协议 (https://yourserver.com/robots.txt):

User-agent: *
Disallow: /

允许所有的漫游器访问您的网页

User-agent: *
Disallow:

(另一种方法: 建立一个空的 “/robots.txt” 文件, 或者不使用robot.txt。)

使用 robots.txt 文件拦截或删除网页

您可以使用 robots.txt 文件来阻止 Googlebot 抓取您网站上的网页。 例如,如果您正在手动创建 robots.txt 文件以阻止 Googlebot 抓取某一特定目录下(例如,private)的所有网页,可使用以下 robots.txt 条目:

User-agent: Googlebot
Disallow: /private

要阻止 Googlebot 抓取特定文件类型(例如,.gif)的所有文件,可使用以下 robots.txt 条目:

User-agent: Googlebot
Disallow: /*.gif$

要阻止 Googlebot 抓取所有包含 ? 的网址(具体地说,这种网址以您的域名开头,后接任意字符串,然后是问号,而后又是任意字符串),可使用以下条目:

User-agent: Googlebot
Disallow: /*?

尽管我们不抓取被 robots.txt 拦截的网页内容或为其编制索引,但如果我们在网络上的其他网页中发现这些内容,我们仍然会抓取其网址并编制索引。因此,网页网址及其他公开的信息,例如指 向该网站的链接中的定位文字,有可能会出现在 Google 搜索结果中。不过,您网页上的内容不会被抓取、编制索引和显示。

  • Share/Bookmark

Tags: , , , , , , , , , ,

一个被google除名的案例

例中的某公司网站刚刚被Google搜索引擎收录才几天,就发现网站再次用site命令检测结果为0。作为SEO都知道,Google是不会胡乱删除网站的,因此至关重要的是先分析清楚网站被删除的原因,才能更好地为该公司网站做搜索引擎优化。

首先,按部就班地分析了网站的外部链接,查看了下这些链接是否正常收录,虽然这些反向链接整体质量不高,但显然并非“链接工厂”,外部链接不当导致除名的可能便被排除了;
再看网站内部,没有诸如隐藏、超小、超淡文本、堆砌关键词等;网站没有跳转程序,没有桥页,不过是一个普普通通的静态企业网站;

用国外的IP检测工具查看IP下的各个网站情况,均在Google上搜索引擎上有收录,IP也没有任何问题;

再检查域名历史,这的确是一个新域名,以前没有使用过;

该公司之前没有找SEO公司做过搜索引擎优化的服务;

但是,Google删除一个网站,一定是有原因的,究竟是什么原因导致这个网站被Google除名呢?

最后目光移向网站底部的文本。这个网站与其它众多设计公司网站一样,网站是自己做的,完全采用平面设计的思维来做网页。网页铺天盖地的大图片,首页创意非凡,看得出花了很多心思打造这个网站。导航和菜单全部采用图片;内容页面的业务介绍三分之二的面积是高深莫测的创意拼图,三分之一则为文字——文字同样以图片的方式呈现,而且为了表现创意,文字说了半天都吐不出一个关键词。全站唯一的文本内容是他们在每个页面底部老老实实放置了与网站业务有关的文本链接及一些文字介绍,各自链接到业务介绍页面。

当再次点击这些文本链接的时候,一瞬间突然找到原因了——复制网页!

原来用户虽然看到这个网站的每个页面有不同的设计画面、文字介绍、菜单名称,但是由于这些核心内容全部被做到图片中,底部有限的文本内容又是全站统一,因此在看不见图片的搜索引擎蜘蛛眼中,每个页面的内容全部相同。页面底部的不同文本链接到不同的URL,而这些URL的页面内容一模一样,这就无意间触犯了搜索引擎关于复制网页作弊的禁忌。

企业连起码的网站建设规范都不知道,如何奢谈开展网络营销。在“SEO三十六计:擒贼擒王”这一案例中,独孤天骄也碰到一个类似的经历,不过是由于robots.txt文件处理不当引起的,大家可以参阅。

一个网站发布后,如果在Google搜索引擎中长时间只有一页收录,大致说明这个网站多半存在以下问题:

1、网站是框架型网页,形式体现为全站统一URL;
2、网站是图片型网站,文本太稀少,全站统一title、meta,对于搜索引擎来说这样的网站没有多大的收录价值;
3、网站存在严重的结构问题,导致页面之间链接不通畅;
4、动态网页URL长度过长,或参数的数量过多;
5、站点内每个页面彼此复制内容;
6、网站域名的IP有问题,可能是被Google处罚的IP,其下网站都被牵连(IP地址WHOIS查询);
7、网站做好以后再不更新;
8、网站服务器经常无法正常访问。

当然,还有其他许多原因

  • Share/Bookmark

Tags: , , , , , , ,