凡安工作室

设为首页 | 加入收藏 | 繁體中文 | 客户留言

网站优化 -> 百度(Baidu)优化推广

网站制作流程
  
百度Google文档搜索应用与比较
 发布时间:2008-2-1 14:27:59  发布人:admin

减小字体 增大字体

互联网上除一般网页外,还如PDF,DOC,RTF,xls,PPT(S)等的文档文件,虽然这些文件不象HTM文件那样多,但这些文件通常会包含一些别处没有的重要资料,因此具有独特的价值和吸引力!所以对网络中这部分资源的挖掘和利用也是搜索引擎的一个重要功能.对网络的这部分资源的挖掘和分析的水平也成了衡量一个搜索引擎完整与否,成熟与否的重要指标.多文档搜索是高级搜索的重要内容,与其他高级搜索功能一起,构成高级搜索功能体系.
我们就一些搜索案例的比较来给大家展示一些网络文档搜索的技巧,并对主要提供文档搜索的搜索引擎百度和google做一比较,这些比较和方法也许会对你进一步准确获得你想要的信息有帮助!

主要比较文档数量,语法使用的灵活性,准确性,多语法混合使用等等

数据
Query
参比引擎

百度
Google

filetype:doc搜索引擎
1050
743

filetype:doc计算语言学
546
214

filetype:doc计算机检索
17700
6080

filetype:ppt课件
13900
1480

filetype:ppt软件开发模型

filetype:ppt软件模型

560
697

919000
697

filetype:pdfxml高级编程
55
116但是匹配的质量很差,由各自不同的分次特点决定的。

filetype:pdf服务器安全
17800
6240

filetype:xls报名
9940
1890

filetype:xls名单
32300
3000


表1文档数量比较

性能
功能
参比引擎

百度
Google

灵活性
支持三种方式查询
1filetype:格式关键词
2关键词filetype:格式
3在高级搜索里选择
支持三种方式查询
1filetype:格式关键词
2关键词filetype:格式
3在高级搜索里选择

准确性整体上讲根网页搜索的效果差不多,由于各自分词的特点不同,所以对中文语义的理解上就会出现差异,所以在结果的数量并不是全部,但是对大多数关键词来说,百度的结果还是比较符合搜索目标的,而个别google的搜索结果就不太能令人满意。这也是由于google的强行前台分词造成的,结果数量多,并不精准。对于文档搜索来说准确恰当才是最重要的,数量只是其次。

多语法混用
一般的逻辑搜索: -|均能很好的支持
filetype:doc演讲稿吴敬琏
filetype:doc演讲稿-教师
filetype:doc演讲稿|演讲

其他高级搜索指令:
吴敬琏filetype:docsite:pku.edu.cn
历史filetype:docinurl:org
经济filetype:docinurl:title目前网络上很少有中文文件夹所以这样的检索也是没有意义的。

其他支持
1支持对所有文档类型的搜索,filetype:all
2支持把原来文档转换成html格式文档浏览
3不支持对更多文档类型的扩展,但是可以在mp3搜索中选择flash类型搜索,但是百度支持在网页搜索中输入“mp3:刘德华”“flash:小兵”来搜索歌曲
1不支持对所有文档类型的搜索,
2支持把原来文档转换成html格式文档浏览
3支持对更多文档类型的扩展,如swf/xml目前google还不支持更多

表2其他参数比较

一搜也提供文档搜索,目前支持的文件类型不多,文档的数量也不够(或者可检出的数量不够),而且使用习惯与其他的不同(google,altavista,alltheweb等)所以不列入比较范围。
总体评价,百度多文档搜索无论从搜索的质量和数量都是要与google相当,甚至超出google,说明,中文搜索引擎在应用的深层次挖掘上已经不再落后于外来服务商。
我们有理由相信百度会提供更多更好的功能!

[] [返回上一页] [打 印]
上一篇网络技术:百度主题推广代码完全解析
∷相关网络技术评论∷    (评论内容只代表网友观点,与本站立场无关!) [更多评论…]
关于我们 - 常见问题 - 联系方式 - 在线留言 - 友情连接 - 网站地图  
Copyright © 2002-2008 Lovean.Com. All Rights Reserved .
粤ICP备05049713号 电子邮箱:it@lovean.com