站长论坛 站长下载
您所在的位置: 站长中国 > 新闻资讯 > 搜索门户 > 搜索优化 >  正文

搜索引擎的缓存机制
来源:  作者: 时间:2007年09月20日00:26:26  评论(0条) 字体:[ ]
#e# 以前曾经提到过搜索引擎的缓存策略, 根据搜索引擎搜索的关键词的统计分布, 可以优化设计搜索引擎的缓存策略. 就普通的缓存策略上讲, 缓存是因为在一定的时间段内的搜索的关键词集中在一定的范围内, 并且这些搜索相对稳定. 例如每天搜索"美女"的人总有10万,20万, 而结果在这段时间相对稳定, 因此没有必要每次去检索索引文件, 而将上一个人搜索的结果直接返回便可以了.
搜索引擎缓存策略也同搜索引擎的算法密切相连, 除了搜索缓存, 索引缓存也是一个好方法. 独立或者分布一些权重较高的文档也是一种提高效率的方法. 例如我们有1000万的网页的权重(可以简单的理解为pagerank)比较高, 那么这些网页的排序相比另外一些权重较低的网页相对较为稳定, 就不妨独立出来进行相对独立的索引缓存.

关于缓存的分布, 一般的小型搜索引擎不会用到, 但是如果每天处理上亿次的搜索, 缓存的分布就应当有一定的分布规划, 例如根据提交的关键词构成hash table, 然后对应于不同的搜索服务器, 实现缓存的分布.

让我们看看实际例子吧, 我们拿百度, google, yisou, 中搜, tag.bokee.com 进行简单的测试:

因为测试, 要搜索一些在过去7天没有人搜索过的关键词, 或者组合词. 为了保证没有人搜索过, 我选择在各个搜索引擎里搜索"a s d f v g h" , 这是我在键盘上随机打出的一些组合, 相信这世界上在7天没有人相同搜索, 这样保证我的第一次的搜索是 fresh search, 就是一定需要搜索引擎去检索索引文件, 而不是通过缓存策略.

以下是结果:
百度: 0.279秒
google: 0.24 秒
一搜: 0.24 秒
中搜: 0.001秒(无结果!!!!)
博客搜索: 0.041 秒

下面是第二次搜索的结果:
百度: 0.001秒
google: 0.05 秒
一搜: 0.09 秒
中搜: 0.002秒(无结果!!!!)
博客搜索: 0.019 秒



经过简单的测试, 可以看出缓存机制只有在Baidu和google搜索引擎里都有, 但是各自效率不一样, 如下是简单的比例:

百度: 100
google: 5
一搜: 没有明显的缓存
中搜: 没有明显的缓存
博客搜索: 没有明显的缓存

而在缓存效率上百度要远远大于google, 这点大概是因为google的gfs本身的分布效率已经相当不错, 因此进行缓存也不会有数量级的提升.

而百度, 根据测试可能是集中方式的数据存储, 但是根据搜索进行hash分布, 因此才会在缓存上有显著的提升. (这个属于猜测)
上一页12 下一页

责任编辑:水色皇朝
上一篇:关键字和关键字优化
下一篇:搜索引擎优化SPAM的清理规则
收藏本文 打印 打印本文  推荐本文 告诉好友 投稿 投稿邮箱

站长排行

新闻

学院

专栏

盈利

全国哀悼日网友自发QQ隐身上线 向死难
淘宝网卖家公然叫卖“艳照门”照片集
国内各IT企业办公环境揭秘(多图)
驳《百度Hi面世对腾讯有利》
Google绿色专家质疑黑色背景网页节省资
由“红心china”引起的一场无聊的“QQ
阿里妈妈广告卖主全攻略
除了感动还是感动 - 最全统计地震捐款
站长创业源动力 主流站长站赏析
推荐阅读:80年小子的创业道理
[揭密网络黄链]中国留学生买凶专破日本
贴吧发帖机使用教程(绝对原创)
超强弹出窗口代码,什么都挡不住
JSP语法(6)
FLASH视觉特效实例之地震效果
关于数据分页(转自www.codeproject.co
ASP实现文件直接下载
Photoshop制作光感超酷效果水晶球
windows 2008中文版iis7+asp+php+Acces
Photoshop非主流:颓废型索风格轻松打
ECSHOP模板制作参考文档
悬挂阿里妈妈会否被百度惩罚
阿里妈妈是否是中小站长的救世主?
最强网店ECShop发新版 众多酷炫功能给
ECSHOP模板下载
土豆网,优酷网,爆米花等视频网站采集
网上商店系统巅峰对决 ECShop vs ShopE
DedeCms模板安装/制作概述
编程中国全站采集规则
http://www.mt86.com全站采集规则
性福联盟 一个不尊重站长的联盟
大脚:日赚100元—揭露最新firefox欺骗
大脚:垃圾站超级赚钱法之二—突破“站
大脚:垃圾站超级赚钱法之——前言
迅雷联盟、快车联盟收入对比
经理人必看的十个管理网站
Google Adsense的秘密 第二版
西联汇款兑付城市查询
不用SEO取得成功的10个步骤
风险投资公司vc联系方式名录大全(一)
站长学院  网页设计 建站教程 图形图象 网络编程

phpMyAdmin $_R
phpMyAdmin $_R
windows 2008中
windows 2008中

安德夫木马偷偷下载病毒 可窃
如何提高关键字排名
活用"nofollow"标签
论坛运营全攻略_小长网站系列
网站推广之0ip到上千ip的捷径
小说站的推广-Seo实战和网站推
网站推广、路漫漫而修远兮(七

新闻线索

如果你有站长界人事变动、重组并购、变革技术出现,以及产品投诉等重要新闻线索,请告诉我们,我们会给予特别关注。
0631-3653338
站长中国编辑部
站长中国24小时新闻热线: 13156089008