Posts Tagged 搜索引擎

Google可能将退出中国市场

今天,Google在英文的官方博客声称,Google已经做出决定,重新检讨在中国开展业务的可行性,如有必要,可能会关闭Google.cn,并撤出在中国的办事处。

  Google称其业务系统遭受到来自中国有针对性的攻击,导致知识产品被盗,Google在2006年进入中国,是为了让中国人能够在更加开放的互联网中获取信息,基于这种理念,Google可以容忍部分审查,但Google会密切注视中国新的法律对Google服务的限制情况,现在Google已经确认,Google已经到了重新考虑评估中国业务运营可行性的时候了。

  在过去的一年里,对于互联网言论自由的限制已经完全突破了Google的底线,Google公司已经决定,不愿再审查Google.cn上的搜索结果,因此,如果可能,Google将在未来几周时间和中国政府谈判,要求能够在中国法律框架内运营未经过滤审查的搜索引擎。Google承认这很可能意味着必须关闭Google.cn,撤出Google在中国的办公室。

  看来,中国的互联网环境之恶劣,连国际互联网巨头Google都无法忍受了,Google的这个决定首次对中国的互联网政策说了声“不”。如果未来Google真的撤出中国,不仅仅Google会损失掉中国的业务,中国自身的经济发展也会受到冲击,国际形象会有负面影响,对于广大依靠Google AdSense业务生存的个人网站来说也是致命一击,中国的个人网站可能真的要走向灭亡了。

  • Share/Bookmark

Tags: ,

百度挂了

全球最大的中文搜索引擎商,百度,今天挂了,原因不明

相关新闻:

百度遭黑客劫持 手段与12月劫持twitter类似

北京时间1月12日晨7点半左右,国内最大搜索引擎百度遭遇伊朗黑客攻击,打开百度首页,出现了“This site has been hacked by IRNIAN CYBER ARMY”的字样。在页面下部,有一连串波斯语的留言,大意是“作为美国当局的干预伊朗内部事务的回应,这个只是一个警告”。

  但是不久,这张图片随即被去掉,但是百度依然无法访问。输入页面后,出现的是一个含有“YAHOO”标的页面。

  有技术方面的人士表示,百度的域名有可能被劫持。有技术人员发现,百度的域名解析已由YAHOO接管。(Name Server: YNS1.YAHOO.COM Name Server: YNS2.YAHOO.COM)修改时间信息为“Updated Date: 11-jan-2010”。

  有百度内部人士认为,黑客攻击百度的难度非常之大,因为百度拥有世界上最先进的服务器和黑客防御系统,百度在“灾备”方面投入是非常大的,整个系统的抵御攻击性很强,而且有一定的自动恢复能力,被攻击导致集体瘫痪的难度非常之大。

  不过也有业内人士指出,直接盗取或者劫持百度的域名也并非很难,而且百度如此大的请求数量是任何一个黑页服务器也无法抵御的,因此刚开始的时候还能显示黑客页面,最后黑客的服务器也肯定因为不堪重负而瘫痪了,只能是访问失败。

  不过回想起twitter上次域名被转向,百度和这次攻击有着惊人的相似之处(twitter被黑疑为伊朗的“Cyber army”所为)。

  可能因为机房分布设置或者有备份的缘故,在中国国内部分地区,依然能够访问百度页面。

  • Share/Bookmark

Tags: , , ,

Meta标签说明

Meta标签是用来描述网页属性的一种语言,标准的Meta标签可以便于搜索引擎排序,提高搜索引擎网站权重排名。要想网站做的更符合搜索引擎标准就必须了解meta标签的,下面给大家讲讲meta标签含义与使用方法:

1、META标签的keywords
写法为:<meta name=”Keywords” content=”信息参数” />
meat标签的Keywords的的信息参数,代表说明网站的关键词是什么。

2、META标签的Description
<meta name=”Description” content=”信息参数” />
meat标签的Description的信息参数,代表说明网站的主要内容,概况是什么。

3、META标签的http-equiv=Content-Type content=”text/html
http-equiv=Content-Type代表的是HTTP的头部协议,提示浏览器网页的信息,
<meta http-equiv=”Content-Type” content=”text/html; charset=信息参数” />
meat标签的Description的信息参数如GB2312时,代表说明网站是采用的编码是简体中文;
meat标签的Description的信息参数如BIG5时,代表说明网站是采用的编码是繁体中文;
meat标签的Description的信息参数如iso-2022-jp时,代表说明网站是采用的编码是日文;
meat标签的Description的信息参数如ks_c_5601时,代表说明网站是采用的编码是韩文;
meat标签的Description的信息参数如ISO-8859-1时,代表说明网站是采用的编码是英文;
meat标签的Description的信息参数如UTF-8时,代表世界通用的语言编码;

4、META标签的generator
<meta name=”generator” content=”信息参数” />
meat标签的generator的信息参数,代表说明网站的采用的什么软件制作。

5、META标签的author
<meta name=”author” content=”信息参数”>
meat标签的author的信息参数,代表说明网页版权作者信息。

6、META标签的http-equiv=”Refresh”
<Meta http-equiv=”Refresh” Content=”时间; Url=网址参数”>
meat标签的Refresh代表多少时间网页自动刷新,加上Url中的网址参数就代表,多长时间自动链接其他网址。

7、META标签的HTTP-EQUIV=”Pragma” CONTENT=”no-cache”
<META HTTP-EQUIV=”Pragma” CONTENT=”no-cache”>代表禁止浏览器从本地计算机的缓存中访问页面内容,这样设定,访

问者将无法脱机浏览。

8、META标签的COPYRIGHT
<META NAME=”COPYRIGHT” CONTENT=”信息参数”>
meat标签的COPYRIGHT的信息参数,代表说明网站版权信息。

9、META标签的http-equiv=”imagetoolbar”
<meta http-equiv=”imagetoolbar” content=”false” />
指定是否显示图片工具栏,当为false代表不显示,当为true代表显示。

10、META标签的Content-Script-Type
<Meta http-equiv=”Content-Script-Type” Content=”text/javascript”>
W3C网页规范,指明页面中脚本的类型。
11、META标签的revisit-after
<META name=”revisit-after” CONTENT=”7 days” >
revisit-after代表网站重访,7 days代表7天,依此类推。

12、META标签的Robots
<meta name=”Robots” contect=”信息参数”>
Robots代表告诉搜索引擎机器人抓取哪些页面
  其中的属性说明如下:

  信息参数为all:文件将被检索,且页面上的链接可以被查询;

  信息参数为none:文件将不被检索,且页面上的链接不可以被查询;

  信息参数为index:文件将被检索;

  信息参数为follow:页面上的链接可以被查询;

  信息参数为noindex:文件将不被检索,但页面上的链接可以被查询;

  信息参数为nofollow:文件将不被检索,页面上的链接可以被查询。

13、META标签的<meta http-equiv=”windows-Target” contect=”_top”>
代表页面在当前窗口中以独立页面显示,可以防止自己的网页被别人当作一个frame页调用,设置有:_blank、_top、_self、_parent。

14、META标签的set-cookie
<meta http-equiv=”set-cookie” contect=”Mon,12 May 2001 00:20:00 GMT”>
代表Cookie设定,如果网页过期,存盘的cookie将被删除,需要注意的也是必须使用GMT时间格式;

  • Share/Bookmark

Tags: , , , , , , , , , , , , , , ,

什么是PR劫持

PR劫持是SEO作弊的一种方法

一般有两种做法:

一、是利用301和302跳转
一般搜索引擎在处理301和302转向的时候,都是把目标URL当作实际应该收录的URL。如果你从域名A做301或302跳转到域名B,而域名B的PR 值比较高,域名A在PR更新后,也会显示域名B的PR值。PR挟持最简单的就是先做301或302跳转到高PR的域名B,等PR更新过后,立刻取消转向, 同时也获得了和B站相同的PR值。这个做假的PR显示值至少维持到下一次PR更新,一般有两三个月或更长的时间(最近GG更新有点慢)。

二、PR挟持方法是欺骗Google蜘。
通过程序检测到Google蜘蛛,返回301或302转向,对普通访问者和其他蜘蛛都返回正常内容。这样我们看到的是普通网站,只有Google会看到转向。一般这样得到PR值的人的目的也很明显,就是为了卖链接,卖PR。但是这种网站上的链接对PR值没有任何贡献。

  • Share/Bookmark

Tags: , , , ,

什么是联属计划(google的说明)

我们的网站管理员指南建议您创建能为用户增加附加值的原创内容的网站。 这对于参与联属计划的网站来说尤为重要。 通常,联属网站提供整个联属网络中的网站上的产品说明信息。 因此,主要提供来自联属网络内容的网站可能在 Google 的搜索排名中的位置不会太好,因为它们不具有独特的内容,无法使其从网络中的其他网站中脱颖而出。

Google 认为纯联属网站不会为网络用户提供额外的价值,尤其是那些向数百个联属网站分发内容的计划中的网站。 由于搜索结果可能返回具有相同内容的多个网站,这会产生令人不快的用户体验。

如果您参与了联属计划,以下谨提供一些措施,有助于您让自己的网站脱颖而出并提高您的排名。

  • 联属计划内容应只占您网站内容的一小部分。
  • 在挑选联属计划时,选择适合您目标受众的产品类别。 联属计划对您的网站内容越有针对性,就会增加越多的价值,您网站就越有可能在 Google 搜索结果中取得较好的排名并从计划中获得收益。 例如,一个维护良好,介绍在阿尔卑斯山上进行徒步旅行的网站可以考虑与销售徒步旅行书籍,而非办公用品的供应商建立联属合作伙伴关系。
  • 使用网站在用户中建立社区。 这有助于构建忠实的读者群体,并可针对您制作的主题创建一个信息来源。 例如,论坛、用户评论和博客均可提供独特的内容并可为用户带来价值。
  • 随时更新内容并保持其相关性。 最新且切合主题的信息可以增加您的内容被 Googlebot 抓取和被用户点击的可能性。

所提供的内容遍布网上的纯联属网站在 Google 搜索结果中不太可能取得良好的效果,而且会导致搜索引擎的消极对待。 独特,相关的内容会给用户带来价值,使您的网站从其他联属网站中脱颖而出,在 Google 搜索结果中更有可能获得较好的排名。

说白了就是友情链接页了

  • Share/Bookmark

Tags: , , , , ,

什么是桥页

桥页在英文中应该叫“Entry Page”或“doorway pages”,直译是“进入页面”、“门页”,但是我觉得叫“桥页”可能更便于理解。严格说桥页的全称应该是“search engine entry doorway pages”,也就是说“桥页”主要是为搜索引擎做的。这些页面都指向你站点的主要页面,同时每个“桥页”还专门针对某一个搜索引擎做了优化,以保证能迎合该搜索引擎的一些特别要求(算法)而在该引擎中获得高的排名。  

  很多情况下,搜索引擎没办法检索你的站点时,就需要使用这种“桥页”。比如说,当你的站点是通过数据库动态生成的,或者站点中使用了大量的框架和javascript时;  还有些情况,即使能检索,结果也很差时,比如,你的SEO是一个形象图片、FLASH动画等,由于页面上没有与关键词相关的内容,搜索引擎的检索结果会让你的站点排名很低。这个时候,也需要使用“桥页”。我们会根据站点的内容、关键词,按照引擎的特点制作页面,这些页面本身一般没有什么图片、动画等,完全是文本,而且是以关键词为基础选定的文字,然后有一个或多个链接指向你真正的主要页面。  

  “桥页”一般围绕一个主题/关键词展开,以增加该页面与该主题/关键词的关联性。  

  举个例子,如果你的站点同时销售海尔和TCL的家电产品,由于站点的关键词中同时包括了“海尔”和“TCL”,这就会降低站点的关联性,无论用户使用“海尔”还是“TCL”查询,该站点的排名都不会高。  

  在这个时候,我们就可以设计两个“桥页”,一个围绕“海尔”,一个以“TCL”为核心,再将这两个桥页递交给搜索引擎,这样能大大提高排名。  

  同时,如果我们要递交到2个不同的搜索引擎(对关键词的算法不同),那么对每一个关键词(上例中的“海尔”和“TCL”)就应该有不同版本的“桥页”分别针对2个引擎。  

桥页一般代码如下:

<html>
<head>
<meta name=”description” content=”SEO”>
<meta name=”keywords” content=”SEO”>
<title>商品001</title>
<meta http-equiv=”refresh” content=”0″;
url=”www.crazylemon.net”>
</head>
<body>
</body>
</html>

这个页面打开后会在0秒(由content=”0″定义时间)内转向到www.crazylemon.net

  • Share/Bookmark

Tags: , , , , , , ,

雅虎和谷歌都宣布robots.txt文件支持通配符

以下是雅虎Search Blog发表的官方声明和robots.txt通配符解决方案:
Yahoo! Search Crawler (Yahoo! Slurp) – Supporting wildcards in robots.txt

I was going through my notes from Danny Sullivan’s Open Feedback sessions that occur during the ?Meet the Crawlers? panel at Search Engine Strategies. One of the items on my list was a request for enhanced syntax in robots.txt to make it easier for webmasters to manage how search crawlers, including Slurp, access your content.

For those who may not be as familiar with search index terminology, webmasters use the robots.txt file to direct robots that visit their site, including search engine crawlers, which files should be crawled and which shouldn’t be. You can read about our support for robots directives in the help for Yahoo! Slurp.

Well, we can scratch that one off the list, since we have just updated Yahoo! Slurp to recognize two additional symbols in the robots.txt directives ? ‘*’ and ‘$’. The semantics of these is what is as widely understood for robots.txt files.

‘*’ – matches a sequence of characters

You can now use ‘*’ in robots directives for Yahoo! Slurp to wildcard match a sequence of characters in your URL. You can use this symbol in any part of the URL string you provide in the robots directive. For example,

User-Agent: Yahoo! Slurp
Allow: /public*/  #允许所有以public开头的目录被索引
Disallow: /*_print*.html
Disallow: /*?sessionid #这句的意思是拒绝一切包含sessionid参数的页面被搜索引擎索引。

The robots directives above will:

allow all directories that begin with ‘public’, such as ‘/public_html/’ or ‘/public_graphs/’ to be crawled
disallow any files or directories which contain ‘_print’, such as ‘/card_print.html’ or ‘/store_print/product.html’ to be crawled
disallow any files with ‘?sessionid’ in their URL string, such as ‘/cart.php?sessionid=342bca31? to be crawled
Note that a trailing ‘*’ is redundant since that is existing matching behavior for Slurp. So, the following two directives are equivalent:

User-Agent: Yahoo! Slurp
Disallow: /private*
Disallow: /private

‘$’ ? anchors at the end of the URL string

You can now also use ‘$’ in robots directives for Slurp to anchor the match to the end of the URL string. Without this symbol, Yahoo! Slurp would match all URLs against the directives, treating the directives as a prefix. For example:

User-Agent: Yahoo! Slurp
Disallow: /*.gif$
Allow: /*?$

The robots directives above will

Disallow all files ending in ‘.gif’ in your entire site. Note that without the ‘$’, this would disallow all files containing ‘.gif’ in their file path
Allow all files ending in ‘?’ to be included. This would not automatically allow files that just contain ‘?’ somewhere in the URL string
As you can see, this symbol only makes sense at the end of the string. Hence, when we see it, we assume that your directive terminates there and any characters after that symbol are ignored.

Oh, by the way, if you thought we didn’t support the ‘Allow’ tag, as you can see from these examples, we do.

If you have any questions about the new syntax or any particular cases you are concerned about, please write in at the Site Explorer forums or read up our area.

Next time you see me at SES, you should ask me what else is on my list!

Priyank Garg
Product Manager, Yahoo! Search

可以用google管理员工具测试,一般第一次提交很快就会抓取robots.txt,然后更新就慢了点

  • Share/Bookmark

Tags: , , , , , , , , , , , , , ,

搜索引擎排名算法最重要的七因素评析

影响搜索引擎排名算法最重要的7个因素如下:

24% 域名的权威性和信誉 22% 页面的外链数量数量和质量 20% 外部链接的锚文字 15% 页面上关键字使用情况 7% 流量和点击率 6% 网络社交关系指标 5% 域名注册和主机数据

评析:

        域名的权威性:这和域名的时间、历史、历来表现有关;新站、更改频繁的网站和垃圾站、作弊网站这一项得分接近于0.

        页面的外链数量和质量:注意这里是页面,而不是域名;很多人做外链,做的都是域名而不是页面;质量主要是稳定性。

        外部链接的锚文字:外部链接是什么文字指向你的;这样来说,图片链接就没有关键字了。

        页面关键字使用:主要是关键字密度;相关关键词和长尾关键词配合情况;

  • Share/Bookmark

Tags: , ,

被搜索封杀或者降低排名几个解决办法

首先应该确定你的网站是完全被封,还是只是排名下降。

直接搜索一下域名或URL

用site:指令查一下

用网页上某一句独特的话(比如版权声明之类的在其他站点肯定不会出现的句子)搜索一下

如果你确认你的网站所有网页都已经从搜索引擎数据库里消失,那么有可能是服务器死机,也有可能robots.txt文件有问题,或者被检测出严重作弊行为。

如果你的网页还在数据库中,但排名下降,那么有可能是你网站有一些可疑的迹象而被惩罚,也有可能是搜索引擎算法改变。

这里所说的排名下降指的是大幅下降,如果只是从第一页掉到第二页,这纯属正常。如果从第一页掉到第二十页,那么你应该查一下。

服务器是否一切正常

最近有没有宕机?服务器设置是否正常?当搜索引擎蜘蛛来抓取的时候,服务器返回的是不是200状态码?如果服务器有问题,应该只是一个暂时的现象。

robots.txt文件是否正确

robots.txt文件用来阻挡搜索引擎蜘蛛抓取某些目录或某些文件,虽然这个功能很有用,但是很容易出错。

如果你的robots.txt文件设置有问题,搜索引擎蜘蛛就没办法抓取你的网站了。正常设置和有错的设置可能差别非常微小,要多次检查,确保无误。

网站是否过度优化

前面谈了很多具体的优化技巧和手段,比如关键词选择,标题标签的写作,关键词位置密度,网站结构等等。但如果你把所有这些技术都用上,那离出问题就不远了。

过度优化现在往往是排名被惩罚的重要原因。这里有个度的问题,做到哪样是适当优化,哪种程度是过度优化,只有靠经验来掌握了。如果你在优化的时候会安慰自己”这应该没事吧”,就说明恐怕快有事了。

可疑的页面转向

有不少页面会放上一些JavaScript转项或者meta refresh转向,这些都有可能被认为是可疑的手法。302转向也可能造成问题。

是否有大量交叉链接

有不少站长会同时掌握很多网站,并且在这些网站之间互相交叉链接,这是很有可能导致问题的。

一个人拥有四五个网站,可以理解,但如果四五十个网站,每个网站都不大,质量也不高,还都互相链接起来,这就可疑了。

是否链接向其他有作弊嫌疑的网站

检查导出链接,是不是只链接向相关网站?是不是只链接向高质量网站?你链接的网站有没有被封或被惩罚的?如果有,你的网站被封或被惩罚的日子就不远了。

有没有复制内容网页

虽然复制内容不会导致网站被封,但如果你的域名权威度不高,可能导致排名下降。

其他作弊手段

仔细检查有没有用隐藏网页?有没有发大量垃圾链接?

在检查这些的时候,不能骗自己,在网站上用了哪些手段,只有站长自己最清楚,外人很难一眼看出来。

  • Share/Bookmark

Tags: , , , , ,

robots.txt使用方法

如何放置Robots.txt文件

robots.txt自身是一个文本文件。它必须位于域名的根目录中并 被命名为”robots.txt”。位于子目录中的 robots.txt 文件无效,因为漫游器只在域名的根目录中查找此文件。例如,http://www.example.com/robots.txt 是有效位置,http://www.example.com/mysite/robots.txt 则不是。

这里举一个
robots.txt的例子:

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~name/

使用 robots.txt 文件拦截或删除整个网站

要从搜索引擎中删除您的网站,并防止所有漫游器在以后抓取您的网站,请将以下 robots.txt 文件放入您服务器的根目录:

User-agent: *
Disallow: /

要只从 Google 中删除您的网站,并只是防止 Googlebot 将来抓取您的网站,请将以下 robots.txt 文件放入您服务器的根目录:

User-agent: Googlebot
Disallow: /

每个端口都应有自己的 robots.txt 文件。尤其是您通过 http 和 https 托管内容的时候,这些协议都需要有各自的 robots.txt 文件。例如,要让 Googlebot 只为所有的 http 网页而不为 https 网页编制索引,应使用下面的 robots.txt 文件。

对于 http 协议 (http://yourserver.com/robots.txt):

User-agent: *
Allow: /

对于 https 协议 (https://yourserver.com/robots.txt):

User-agent: *
Disallow: /

允许所有的漫游器访问您的网页

User-agent: *
Disallow:

(另一种方法: 建立一个空的 “/robots.txt” 文件, 或者不使用robot.txt。)

使用 robots.txt 文件拦截或删除网页

您可以使用 robots.txt 文件来阻止 Googlebot 抓取您网站上的网页。 例如,如果您正在手动创建 robots.txt 文件以阻止 Googlebot 抓取某一特定目录下(例如,private)的所有网页,可使用以下 robots.txt 条目:

User-agent: Googlebot
Disallow: /private

要阻止 Googlebot 抓取特定文件类型(例如,.gif)的所有文件,可使用以下 robots.txt 条目:

User-agent: Googlebot
Disallow: /*.gif$

要阻止 Googlebot 抓取所有包含 ? 的网址(具体地说,这种网址以您的域名开头,后接任意字符串,然后是问号,而后又是任意字符串),可使用以下条目:

User-agent: Googlebot
Disallow: /*?

尽管我们不抓取被 robots.txt 拦截的网页内容或为其编制索引,但如果我们在网络上的其他网页中发现这些内容,我们仍然会抓取其网址并编制索引。因此,网页网址及其他公开的信息,例如指 向该网站的链接中的定位文字,有可能会出现在 Google 搜索结果中。不过,您网页上的内容不会被抓取、编制索引和显示。

  • Share/Bookmark

Tags: , , , , , , , , , ,