SEO 入门指南-Ch1:搜索引擎如何工作

[ seo ]

SEO 入门指南-Ch1:搜索引擎如何工作

搜索引擎有两个主要的功能:爬取数据并构建索引,返回给搜索的用户一个经过相关性排序的网站列表。

原文链接

1. 爬取并创建索引

你可以把互联网想象成是位于一个大城市里的复杂的地铁网络。

地铁上的每一站都是一个独一无二的文档(通常是一个网页,有时候是一个 pdf、jpg 或者其他类型的文件)。 搜索引擎需要一条路径经过城市里所有的车站,所以它在决定路径的时候会用最直接可用的方式——链接。

正是互联网提供的链接网络结构将所有的页面绑定在一起。

通过链接,搜索引擎的自动化机器人(爬虫)才能接触到网上海量的互相关联的文档。

一旦找到这些页面,搜索引擎按照一定的方式解码它们,并且将其中有价值的部分存储到一个巨大的数据库中, 当以后处理某个查询的时候再使用。搜索引擎需要管理浩如烟海的页面,并且在不到一秒的时间里准确地访问特定的页面。 为了达成这一不朽的任务,搜索引擎公司建立的数据中心覆盖了全世界。

这些性能惊人的存储设施管理成千上万的机器,在短时间内处理大量信息。 当某个用户在引擎上完成一次搜索,他当然希望马上能得到结果,即使是1到2秒的延迟也足够让人感到沮丧。 搜索引擎得非常卖力地工作来尽可能快地提供结果。

2. 提供答案

搜索引擎是回答机器。当用户在线上触发一次搜索,搜索引擎搜查它塞满数十亿文档的资料库,并完成两件事。 首先,返回和查询相关或者有用的结果;第二,根据提供该信息的网站热门度排序。而 SEO 正是为了影响相关性和热度。

2.1 搜索引擎怎么决定相关性和热门度

对于搜索引擎来说,相关性意味着寻找一个具有正确词汇的页面。 在早期,搜索引擎并不会做得比这显得有些简陋的一步更多,也造成了搜索结果相对局限。 经过这些年,聪明的工程师设计出更优的方式来匹配用户的查询。 今天,数以百计的因素因素影响相关性,我们会在这篇指南里讨论最重要的部分。

搜索引擎普遍都会假设:一个站点、网页或者文档,它越是热门,就包含越高的价值。

热度和相关性都不是可以人工决定的。取而代之的是一套数学公式(算法)来区别小麦和米糠,然后根据热度来排序。

这些算法通常包含上百个变量。在搜索营销领域,我们称它们为 排名因子 。 Moz 在这个专题上精心制作了一份资料搜索引擎排序因子

3. 我如何才能通过 SEO 获益(搜索引擎营销商靠什么成功)

搜索引擎复杂的算法几乎是不可理解的。事实上的确如此,搜索引擎本身几乎不会提供诸如: 如何达到更好的 SEO 效果,如何获取更多流量的建议。他们提供给我们的优化参考和最佳实践如下:

3.1 SEO 信息来自 Google 站长指南

Google 建议遵循以下几点可以在它们的搜索引擎中提高排名:

  1. 从根本上为用户设计页面,而不是为了搜索引擎。不要欺骗你的用户,或者对用户和搜 素引擎呈现不同的内容(俗称 “伪装”)。
  2. 让你的站点结构清晰并且使用文本链接。每个页面应该可以通过至少一个静态的文本链 接可以访问。
  3. 使你的站点有用,并且内容丰富,内容需要清楚准确。确保你的 <title> 标签还有 ALT 属性的值具有描述性和准确性。
  4. 使用关键字来构建一个具有描述性,并易于理解的 URL。使用独一无二的 url 来指向 每个独一无二的文档。使用 301 重定向 或者 ref="canonical" 属性来指向重复的内容。

3.2 SEO 信息来自 Bing 站长指南

微软 Bing 的工程师推荐遵循以下几点可以在他们的搜索引擎中提高排名:

  1. 确保一个简单,带有关键字的 URL 结构是必要的。
  2. 确保内容没有被埋藏在富媒体(Adobe Flash Player, JS, Ajax)之内,并且确保他们没有 对爬虫隐藏链接。
  3. 创建多关键字的内容,以匹配用户搜索的关键字。定期更新网站,保证内容新鲜度。
  4. 不要把你想要加入索引的文本内容置于图片之内。例如:如果你想要你的公司名称 和地址加入到搜索引擎的索引,确保它们不是放在了 logo 图片里。

3.3 采纳搜索营销商的建议

我们可以完全采纳他们免费提供的这些建议。互联网搜索已经存在超过 15 年,搜索营销商已经找出方法来总结搜索引擎如何排序。 SEO 从业人员和营销人员使用这些历史数据来帮助他们的站点和客户达到更好的排名。

可喜的是,虽然公开的可见性很低,但搜索引擎支持这些做法。搜索营销的研讨会,诸如:

吸引了主流搜索引擎的工程师和代表。搜索引擎厂商代表们也会时不时地在博客,论坛,讨论组里辅助站长们。

4. 实验时间

对于站长,没有比直接使用搜索引擎更好的工具来实施实验,测试假设,得出结论。 正是通过这个不断迭代-有时候痛苦的过程,很多搜索引擎相关的知识才会落地。 通常实验都会有点像这样:

  1. 注册一个不包含任何关键字的域名 (e.g., yoogewgally).
  2. 在这个站点上新建几个页面,所有的页面都是同样荒谬的术语。
  3. 让页面尽可能接近相同,然后一段时间内更改一个变量,比如替换文本内容,格式, 使用关键字,修改链接结构等。
  4. 在其他已经被很好收录的域名上增加链接,指向这个域名。
  5. 记录搜索引擎中这些页面的排名。
  6. 现在尝试做一些细小的修改,并且观察在搜索结果的影响,然后决定哪个因素可能导致 排名结果起伏。
  7. 记录产生效果的结果,然后在别的域名上用其他术语重新测试。如果多次测试一都得到 相同的结论,你就有机会发现一条搜索引擎使用的规则。

5. 一个我们完成的实验

在实验中,我们假设页面上出现得更早(位于上部)的链接比位于下方的链接具有更高的权重。 我们通过新建一个无意义的域名,它包含一个首页,首页上有三个指向其他域名的链接。 链接过去的页面也都是一些同样的,无意义的词汇。当搜索引擎收录这些页面之后,我们发现出现得更早的链接排在最前面。

这个流程对于帮助搜索营销商具有意义,但并不唯一。

除了这类测试,搜索营销商还可以通过专利申请来获取关于搜索引擎如何工作的竞争情报。 也许,其中最著名的案例是 1990 年在斯坦福大学宿舍里的 Page Rank 算法衍生出来的 Google 搜索引擎。 该算法被标识为 “链接数据库中的节点排名方法” 已经成功收录专利,编号 6285999。 最初的论文《解析大规模链接互联网搜索引擎》 已经成为可观的研究主题。但是不用担心,你不用为了实践 SEO 回头补救微积分知识。

通过专利分析,实验,在线测试等等手段,作为一个联盟的搜索营销商们已经能够理解搜索引擎的工作方式和帮助网站和页面获取高排名和流量。

本指南接下来的将为你澄清这些概念。

<<<EOF

Disqus is loading...