Posts Tagged 搜索引擎

GOOGLE人员对网站重新审核的说明

[Brain] 你好,我是Brian White,这是我的同事Rachel,我们都在Google搜索质量组工作。我们今天想向您介绍一些申请重新审核过程中的小窍门。

[Rachel] 首先,您一定要了解到您的网站哪里违反了网站管理员指南;并且,您要让我们了解到您已经修正了这些问题。有的时候,我们收到了一些这样的申请:”我的网站现在符合网站管理员指南了”,这些信息对我们来说是远远不够的。所以,希望您的描述越具体越好。您要想到是一些工作者,而不是机器,在阅读这些申请。

如果您不清楚自己的网站为什么表现未如自己的预期,请您在发出重新审核的申请前,再一次重新认真阅读网站管理员质量指南。如果您希望听一些第三方的意见,您可以到Google网站管理员支持论坛寻求其他站长的帮助

[Brain] 有时我们会收到一些重新审核的申请,这些申请者误把一些网站技术问题当成受到了惩罚。比如,有时Google在抓取您的网站时碰上了服务器响应超时,Google 一般来说能适应和包容网站常出现的这些暂时性问题,但是有时人们会误认为自己的网站被惩罚了,并发出了重新审核的请求。在这种情况下,您最好能多等待一下,看看网站收录等能否自然恢复。

有的网站管理员把受惩罚的原因归咎为重复内容,实际上问题经常不在这里。比如,您的网站和另外一个网站有合作,他们在合作中做出了一些有违网站管理员质量指南的行为,并把您的网站和他们的网站都牵涉在里面,最终给双方都带来了负面影响。您能控制您自己的网站,但是有时候很难将那些您没有控制权的内容彻底清除。我们理解这种情况,您只要在您的重新审核申请中将这些情况尽可能地加以说明就可以了。

而且,我们有非常好的内部工具,并有专人负责审核这些申请,所以请不要试图欺骗我们。如果您有意隐瞒或者提供一些误导的信息,我们将拒绝您的请求。

[Rachel] 同时,请不要滥用重新审核的申请表单,同时提交多个相同的请求并无益处,只提交一个言简意赅的申请,并且一次性做好就可以了。您的申请将由我们团队负责审核,而且我们将尽量及时审核,如果您有一些新的信息要补充,您可以发送一个新的重新审核的申请。

最后,要提醒您的是,如果重新审核真的发生的话,通常是需要一段时间才能察觉到惩罚被移除了,在这里要感谢您的耐心。

[Brian] 我们非常关注我们的搜索引擎用户,我们希望用户有愉快的体验,而不是抱怨。所以请您确保:1)在发送重新审核的请求之前,请确保您网站的问题已经妥善解决 2)请确保在将来我们也无须为您的网站再次违反质量指南而担忧。作为重新审核过程中的一员,在这里,真诚地向您说一句:谢谢!

[Rachel] 谢谢!

以上是google官方一个视频对话的翻译,希望看了对大家有帮助
  • Share/Bookmark

Tags:

什么情况下google spider会来抓取新站页面

有个想法,想测试下什么情况下google spider(谷歌蜘蛛)会来踩点,即来抓取一个新站

1、有效外链,即已被GG收录并经常更新的网站的dofollow链接

2、无效外链,即已被GG收录并经常更新的网站的nofollow链接

3、刷刷流量,即通过软件刷,不过估计GG是测不到的

4、加入google网站管理员工具

5、Google Analytics,据说很强大的东西,可我不喜欢

6、到GG官方提交地址提交网址

7、用Google浏览器打开几次网页玩玩

8、用装有google工具体栏的浏览器玩

9、用sitemap去ping

10、让其它搜索引擎收录,看google会不会看不下去主动来收

11、用google多搜几次我的网址,不信它不好奇

12….

还有什么想法的跟上

  • Share/Bookmark

Tags: , , ,

如何写robots.txt?(摘点石)

在国内,网站管理者似乎对robots.txt并没有引起多大重视,应一些朋友之请求,今天想通过这篇文章来简单谈一下robots.txt的写作。

 

robots.txt基本介绍

robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容。

当一个搜索机器人(有的叫搜索蜘蛛)访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么搜索机器人就沿着链接抓取。

另外,robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。

robots.txt写作语法

首先,我们来看一个robots.txt范例:http://www.seovip.cn/robots.txt

访问以上具体地址,我们可以看到robots.txt的具体内容如下:

# Robots.txt file from http://www.seovip.cn
# All robots will spider the domain

User-agent: *
Disallow:

以上文本表达的意思是允许所有的搜索机器人访问www.seovip.cn站点下的所有文件。

具体语法分析:其中#后面文字为说明信息;User-agent:后面为搜索机器人的名称,后面如果是*,则泛指所有的搜索机器人;Disallow:后面为不允许访问的文件目录。

下面,我将列举一些robots.txt的具体用法:

允许所有的robot访问

User-agent: *
Disallow:

或者也可以建一个空文件 “/robots.txt” file

禁止所有搜索引擎访问网站的任何部分

User-agent: *
Disallow: /

禁止所有搜索引擎访问网站的几个部分(下例中的01、02、03目录)

User-agent: *
Disallow: /01/
Disallow: /02/
Disallow: /03/

禁止某个搜索引擎的访问(下例中的BadBot)

User-agent: BadBot
Disallow: /

只允许某个搜索引擎的访问(下例中的Crawler)

User-agent: Crawler
Disallow:

User-agent: *
Disallow: /

另外,我觉得有必要进行拓展说明,对robots meta进行一些介绍:

Robots META标签则主要是针对一个个具体的页面。和其他的META标签(如使用的语言、页面的描述、关键词等)一样,Robots META标签也是放在页面的<head></head>中,专门用来告诉搜索引擎ROBOTS如何抓取该页的内容。

Robots META标签的写法:

Robots META标签中没有大小写之分,name=”Robots”表示所有的搜索引擎,可以针对某个具体搜索引擎写为name=”BaiduSpider”。 content部分有四个指令选项:index、noindex、follow、nofollow,指令间以“,”分隔。

INDEX 指令告诉搜索机器人抓取该页面;

FOLLOW 指令表示搜索机器人可以沿着该页面上的链接继续抓取下去;

Robots Meta标签的缺省值是INDEX和FOLLOW,只有inktomi除外,对于它,缺省值是INDEX,NOFOLLOW。

这样,一共有四种组合:

<META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”>
<META NAME=”ROBOTS” CONTENT=”NOINDEX,FOLLOW”>
<META NAME=”ROBOTS” CONTENT=”INDEX,NOFOLLOW”>
<META NAME=”ROBOTS” CONTENT=”NOINDEX,NOFOLLOW”>

其中

<META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”>可以写成<META NAME=”ROBOTS” CONTENT=”ALL”>;

<META NAME=”ROBOTS” CONTENT=”NOINDEX,NOFOLLOW”>可以写成<META NAME=”ROBOTS” CONTENT=”NONE”>

目前看来,绝大多数的搜索引擎机器人都遵守robots.txt的规则,而对于Robots META标签,目前支持的并不多,但是正在逐渐增加,如著名搜索引擎GOOGLE就完全支持,而且GOOGLE还增加了一个指令“archive”,可以限制GOOGLE是否保留网页快照。例如:

<META NAME=”googlebot” CONTENT=”index,follow,noarchive”>

  • Share/Bookmark

Tags: , , , , , , , , ,

lightinthebox的robots.txt

User-agent:*
Disallow: /cache/

User-Agent: almaden
Disallow: /
User-Agent: ASPSeek
Disallow: /
User-Agent: Axmo
Disallow: /
User-Agent: BaiduSpider
Disallow: /
User-Agent: booch
Disallow: /
User-Agent: DTS Agent
Disallow: /
User-Agent: Downloader
Disallow: /
User-Agent: EmailCollector
Disallow: /
User-Agent: EmailSiphon
Disallow: /
User-Agent: EmailWolf
Disallow: /
User-Agent: Expired Domain Sleuth
Disallow: /
User-Agent: Franklin Locator
Disallow: /
User-Agent: Gaisbot
Disallow: /
User-Agent: grub
Disallow: /
User-Agent: HughCrawler
Disallow: /
User-Agent: iaea.org
Disallow: /
User-Agent: lcabotAccept
Disallow: /
User-Agent: IconSurf
Disallow: /
User-Agent: Iltrovatore-Setaccio
Disallow: /
User-Agent: Indy Library
Disallow: /
User-Agent: IUPUI
Disallow: /
User-Agent: Kittiecentral
Disallow: /
User-Agent: iaea.org
Disallow: /
User-Agent: larbin
Disallow: /
User-Agent: lwp-trivial
Disallow: /
User-Agent: MetaTagRobot
Disallow: /
User-Agent: Missigua Locator
Disallow: /
User-Agent: NetResearchServer
Disallow: /
User-Agent: NextGenSearch
Disallow: /
User-Agent: NPbot
Disallow: /
User-Agent: Nutch
Disallow: /
User-Agent: ObjectsSearch
Disallow: /
User-Agent: Oracle Ultra Search
Disallow: /
User-Agent: PEERbot
Disallow: /
User-Agent: PictureOfInternet
Disallow: /
User-Agent: PlantyNet
Disallow: /
User-Agent: QuepasaCreep
Disallow: /
User-Agent: ScSpider
Disallow: /
User-Agent: SOFT411
Disallow: /
User-Agent: spider.acont.de
Disallow: /
User-Agent: Sqworm
Disallow: /
User-Agent: SSM Agent
Disallow: /
User-Agent: TAMU
Disallow: /
User-Agent: TheUsefulbot
Disallow: /
User-Agent: TurnitinBot
Disallow: /
User-Agent: Tutorial Crawler
Disallow: /
User-Agent: TutorGig
Disallow: /
User-Agent: WebCopier
Disallow: /
User-Agent: WebZIP
Disallow: /
User-Agent: ZipppBot
Disallow: /
User-Agent: Xenu
Disallow: /
User-Agent: Wotbox
Disallow: /
User-Agent: Wget
Disallow: /
User-Agent: NaverBot
Disallow: /
User-Agent: mozDex
Disallow: /
User-Agent: Sosospider
Disallow: /
Sitemap:http://localhost/sitemapindex.xml

看来除了google和yahoo,lightinthebox不打算让别的搜索引擎收录了

百度site一下,只收了首页,title是兰亭国际,挺有趣的

  • Share/Bookmark

Tags: , , , , , , , , , , , , ,

Google可能将退出中国市场

今天,Google在英文的官方博客声称,Google已经做出决定,重新检讨在中国开展业务的可行性,如有必要,可能会关闭Google.cn,并撤出在中国的办事处。

  Google称其业务系统遭受到来自中国有针对性的攻击,导致知识产品被盗,Google在2006年进入中国,是为了让中国人能够在更加开放的互联网中获取信息,基于这种理念,Google可以容忍部分审查,但Google会密切注视中国新的法律对Google服务的限制情况,现在Google已经确认,Google已经到了重新考虑评估中国业务运营可行性的时候了。

  在过去的一年里,对于互联网言论自由的限制已经完全突破了Google的底线,Google公司已经决定,不愿再审查Google.cn上的搜索结果,因此,如果可能,Google将在未来几周时间和中国政府谈判,要求能够在中国法律框架内运营未经过滤审查的搜索引擎。Google承认这很可能意味着必须关闭Google.cn,撤出Google在中国的办公室。

  看来,中国的互联网环境之恶劣,连国际互联网巨头Google都无法忍受了,Google的这个决定首次对中国的互联网政策说了声“不”。如果未来Google真的撤出中国,不仅仅Google会损失掉中国的业务,中国自身的经济发展也会受到冲击,国际形象会有负面影响,对于广大依靠Google AdSense业务生存的个人网站来说也是致命一击,中国的个人网站可能真的要走向灭亡了。

  • Share/Bookmark

Tags: ,

百度挂了

全球最大的中文搜索引擎商,百度,今天挂了,原因不明

相关新闻:

百度遭黑客劫持 手段与12月劫持twitter类似

北京时间1月12日晨7点半左右,国内最大搜索引擎百度遭遇伊朗黑客攻击,打开百度首页,出现了“This site has been hacked by IRNIAN CYBER ARMY”的字样。在页面下部,有一连串波斯语的留言,大意是“作为美国当局的干预伊朗内部事务的回应,这个只是一个警告”。

  但是不久,这张图片随即被去掉,但是百度依然无法访问。输入页面后,出现的是一个含有“YAHOO”标的页面。

  有技术方面的人士表示,百度的域名有可能被劫持。有技术人员发现,百度的域名解析已由YAHOO接管。(Name Server: YNS1.YAHOO.COM Name Server: YNS2.YAHOO.COM)修改时间信息为“Updated Date: 11-jan-2010”。

  有百度内部人士认为,黑客攻击百度的难度非常之大,因为百度拥有世界上最先进的服务器和黑客防御系统,百度在“灾备”方面投入是非常大的,整个系统的抵御攻击性很强,而且有一定的自动恢复能力,被攻击导致集体瘫痪的难度非常之大。

  不过也有业内人士指出,直接盗取或者劫持百度的域名也并非很难,而且百度如此大的请求数量是任何一个黑页服务器也无法抵御的,因此刚开始的时候还能显示黑客页面,最后黑客的服务器也肯定因为不堪重负而瘫痪了,只能是访问失败。

  不过回想起twitter上次域名被转向,百度和这次攻击有着惊人的相似之处(twitter被黑疑为伊朗的“Cyber army”所为)。

  可能因为机房分布设置或者有备份的缘故,在中国国内部分地区,依然能够访问百度页面。

  • Share/Bookmark

Tags: , , ,

Meta标签说明

Meta标签是用来描述网页属性的一种语言,标准的Meta标签可以便于搜索引擎排序,提高搜索引擎网站权重排名。要想网站做的更符合搜索引擎标准就必须了解meta标签的,下面给大家讲讲meta标签含义与使用方法:

1、META标签的keywords
写法为:<meta name=”Keywords” content=”信息参数” />
meat标签的Keywords的的信息参数,代表说明网站的关键词是什么。

2、META标签的Description
<meta name=”Description” content=”信息参数” />
meat标签的Description的信息参数,代表说明网站的主要内容,概况是什么。

3、META标签的http-equiv=Content-Type content=”text/html
http-equiv=Content-Type代表的是HTTP的头部协议,提示浏览器网页的信息,
<meta http-equiv=”Content-Type” content=”text/html; charset=信息参数” />
meat标签的Description的信息参数如GB2312时,代表说明网站是采用的编码是简体中文;
meat标签的Description的信息参数如BIG5时,代表说明网站是采用的编码是繁体中文;
meat标签的Description的信息参数如iso-2022-jp时,代表说明网站是采用的编码是日文;
meat标签的Description的信息参数如ks_c_5601时,代表说明网站是采用的编码是韩文;
meat标签的Description的信息参数如ISO-8859-1时,代表说明网站是采用的编码是英文;
meat标签的Description的信息参数如UTF-8时,代表世界通用的语言编码;

4、META标签的generator
<meta name=”generator” content=”信息参数” />
meat标签的generator的信息参数,代表说明网站的采用的什么软件制作。

5、META标签的author
<meta name=”author” content=”信息参数”>
meat标签的author的信息参数,代表说明网页版权作者信息。

6、META标签的http-equiv=”Refresh”
<Meta http-equiv=”Refresh” Content=”时间; Url=网址参数”>
meat标签的Refresh代表多少时间网页自动刷新,加上Url中的网址参数就代表,多长时间自动链接其他网址。

7、META标签的HTTP-EQUIV=”Pragma” CONTENT=”no-cache”
<META HTTP-EQUIV=”Pragma” CONTENT=”no-cache”>代表禁止浏览器从本地计算机的缓存中访问页面内容,这样设定,访

问者将无法脱机浏览。

8、META标签的COPYRIGHT
<META NAME=”COPYRIGHT” CONTENT=”信息参数”>
meat标签的COPYRIGHT的信息参数,代表说明网站版权信息。

9、META标签的http-equiv=”imagetoolbar”
<meta http-equiv=”imagetoolbar” content=”false” />
指定是否显示图片工具栏,当为false代表不显示,当为true代表显示。

10、META标签的Content-Script-Type
<Meta http-equiv=”Content-Script-Type” Content=”text/javascript”>
W3C网页规范,指明页面中脚本的类型。
11、META标签的revisit-after
<META name=”revisit-after” CONTENT=”7 days” >
revisit-after代表网站重访,7 days代表7天,依此类推。

12、META标签的Robots
<meta name=”Robots” contect=”信息参数”>
Robots代表告诉搜索引擎机器人抓取哪些页面
  其中的属性说明如下:

  信息参数为all:文件将被检索,且页面上的链接可以被查询;

  信息参数为none:文件将不被检索,且页面上的链接不可以被查询;

  信息参数为index:文件将被检索;

  信息参数为follow:页面上的链接可以被查询;

  信息参数为noindex:文件将不被检索,但页面上的链接可以被查询;

  信息参数为nofollow:文件将不被检索,页面上的链接可以被查询。

13、META标签的<meta http-equiv=”windows-Target” contect=”_top”>
代表页面在当前窗口中以独立页面显示,可以防止自己的网页被别人当作一个frame页调用,设置有:_blank、_top、_self、_parent。

14、META标签的set-cookie
<meta http-equiv=”set-cookie” contect=”Mon,12 May 2001 00:20:00 GMT”>
代表Cookie设定,如果网页过期,存盘的cookie将被删除,需要注意的也是必须使用GMT时间格式;

  • Share/Bookmark

Tags: , , , , , , , , , , , , , , ,

什么是PR劫持

PR劫持是SEO作弊的一种方法

一般有两种做法:

一、是利用301和302跳转
一般搜索引擎在处理301和302转向的时候,都是把目标URL当作实际应该收录的URL。如果你从域名A做301或302跳转到域名B,而域名B的PR 值比较高,域名A在PR更新后,也会显示域名B的PR值。PR挟持最简单的就是先做301或302跳转到高PR的域名B,等PR更新过后,立刻取消转向, 同时也获得了和B站相同的PR值。这个做假的PR显示值至少维持到下一次PR更新,一般有两三个月或更长的时间(最近GG更新有点慢)。

二、PR挟持方法是欺骗Google蜘。
通过程序检测到Google蜘蛛,返回301或302转向,对普通访问者和其他蜘蛛都返回正常内容。这样我们看到的是普通网站,只有Google会看到转向。一般这样得到PR值的人的目的也很明显,就是为了卖链接,卖PR。但是这种网站上的链接对PR值没有任何贡献。

  • Share/Bookmark

Tags: , , , ,

什么是联属计划(google的说明)

我们的网站管理员指南建议您创建能为用户增加附加值的原创内容的网站。 这对于参与联属计划的网站来说尤为重要。 通常,联属网站提供整个联属网络中的网站上的产品说明信息。 因此,主要提供来自联属网络内容的网站可能在 Google 的搜索排名中的位置不会太好,因为它们不具有独特的内容,无法使其从网络中的其他网站中脱颖而出。

Google 认为纯联属网站不会为网络用户提供额外的价值,尤其是那些向数百个联属网站分发内容的计划中的网站。 由于搜索结果可能返回具有相同内容的多个网站,这会产生令人不快的用户体验。

如果您参与了联属计划,以下谨提供一些措施,有助于您让自己的网站脱颖而出并提高您的排名。

  • 联属计划内容应只占您网站内容的一小部分。
  • 在挑选联属计划时,选择适合您目标受众的产品类别。 联属计划对您的网站内容越有针对性,就会增加越多的价值,您网站就越有可能在 Google 搜索结果中取得较好的排名并从计划中获得收益。 例如,一个维护良好,介绍在阿尔卑斯山上进行徒步旅行的网站可以考虑与销售徒步旅行书籍,而非办公用品的供应商建立联属合作伙伴关系。
  • 使用网站在用户中建立社区。 这有助于构建忠实的读者群体,并可针对您制作的主题创建一个信息来源。 例如,论坛、用户评论和博客均可提供独特的内容并可为用户带来价值。
  • 随时更新内容并保持其相关性。 最新且切合主题的信息可以增加您的内容被 Googlebot 抓取和被用户点击的可能性。

所提供的内容遍布网上的纯联属网站在 Google 搜索结果中不太可能取得良好的效果,而且会导致搜索引擎的消极对待。 独特,相关的内容会给用户带来价值,使您的网站从其他联属网站中脱颖而出,在 Google 搜索结果中更有可能获得较好的排名。

说白了就是友情链接页了

  • Share/Bookmark

Tags: , , , , ,

什么是桥页

桥页在英文中应该叫“Entry Page”或“doorway pages”,直译是“进入页面”、“门页”,但是我觉得叫“桥页”可能更便于理解。严格说桥页的全称应该是“search engine entry doorway pages”,也就是说“桥页”主要是为搜索引擎做的。这些页面都指向你站点的主要页面,同时每个“桥页”还专门针对某一个搜索引擎做了优化,以保证能迎合该搜索引擎的一些特别要求(算法)而在该引擎中获得高的排名。  

  很多情况下,搜索引擎没办法检索你的站点时,就需要使用这种“桥页”。比如说,当你的站点是通过数据库动态生成的,或者站点中使用了大量的框架和javascript时;  还有些情况,即使能检索,结果也很差时,比如,你的SEO是一个形象图片、FLASH动画等,由于页面上没有与关键词相关的内容,搜索引擎的检索结果会让你的站点排名很低。这个时候,也需要使用“桥页”。我们会根据站点的内容、关键词,按照引擎的特点制作页面,这些页面本身一般没有什么图片、动画等,完全是文本,而且是以关键词为基础选定的文字,然后有一个或多个链接指向你真正的主要页面。  

  “桥页”一般围绕一个主题/关键词展开,以增加该页面与该主题/关键词的关联性。  

  举个例子,如果你的站点同时销售海尔和TCL的家电产品,由于站点的关键词中同时包括了“海尔”和“TCL”,这就会降低站点的关联性,无论用户使用“海尔”还是“TCL”查询,该站点的排名都不会高。  

  在这个时候,我们就可以设计两个“桥页”,一个围绕“海尔”,一个以“TCL”为核心,再将这两个桥页递交给搜索引擎,这样能大大提高排名。  

  同时,如果我们要递交到2个不同的搜索引擎(对关键词的算法不同),那么对每一个关键词(上例中的“海尔”和“TCL”)就应该有不同版本的“桥页”分别针对2个引擎。  

桥页一般代码如下:

<html>
<head>
<meta name=”description” content=”SEO”>
<meta name=”keywords” content=”SEO”>
<title>商品001</title>
<meta http-equiv=”refresh” content=”0″;
url=”www.crazylemon.net”>
</head>
<body>
</body>
</html>

这个页面打开后会在0秒(由content=”0″定义时间)内转向到www.crazylemon.net

  • Share/Bookmark

Tags: , , , , , , ,