- 浏览: 99706 次
- 性别:
- 来自: 北京
最新评论
-
roki:
参考《搜索引擎零距离》这本书
垂直搜索中的爬虫是怎么样爬取所需的信息的? -
anhaoy:
这种东西就不要写了。。。 搜索结果里面排那么靠前,却没有什么用 ...
Lucene相关度排序的调整 -
jeafyezheng:
luckaway 写道谢谢分享。在liunx处理知道吗?lin ...
执行Java程序 -
superscorpio:
看看。
搜索引擎学习资源收集 -
john2007:
引用
医药界钟情互联网 电子商务成趋势 - 搜索引擎
文章列表
Lucene的搜索结果默认按相关度排序,这个相关度排序是基于内部的Score和DocID,Score又基于 关键词的内部评分和做索引时的boost。默认Score高的排前面,如果Score一样,再按索引顺序,先索引的排前面。那么如果我要先索引 的排后面怎么办呢?只要构造一个SortField[]就可以实现我们要的功能// 评分降序,评分一样时后索引的排前面 new SortField[] { SortField.FIELD_SCORE, new SortField(null, SortField.DOC, true) } // 评分升序,评分一样时后索引的排前面,呵呵,此为最不 ...
- 2007-03-29 13:08
- 浏览 2443
- 评论(0)
今天突然想看一下nba火箭队的比赛,于是baidu了一下"pplive",居然排在第一的是天空软件下载,而不是pplive的首页,感觉有点不理解。于是分别用google,有道,搜狗(去除推广)分别搜了一下,都能把pplive的主页排在第一,我想baidu的所谓失误肯定不是技术原因,更不是合理的偏差。后来查了一下,原来天空软件早已被baidu收购,排在第一就不难理解了。联系到百度其他由于排名不合理的官司,竞价排名这种追逐利润的方式(我认为对网民最大的伤害是,很多网民在不知情的情况下点击了广告),无语!真是网络时代,无所不用其极。
- 2007-03-29 12:26
- 浏览 736
- 评论(0)
最近在研究本体在搜索引擎中的引用,会搜集一些相关资料已经我的个人研究新的挂在网上,做备忘和交流用。
- 2007-03-19 13:40
- 浏览 669
- 评论(0)
均衡膳食 均衡营养……应该把主要注意力放在孩子一日三餐上,培养孩子不偏食、不挑食的习惯,通过均衡的膳 食获得均衡的营养,这在卫生部批准的《中国居民膳食指南》中,已经深入浅出地给人们引导了。在膳食 ...
- 2007-03-18 11:12
- 浏览 1307
- 评论(0)
修改Similarity(相似度计算)<o:p></o:p>DefaultSimilarity基本上可以满足一般的搜索要求。但是在有些应用中,你可以定制你自己的Similarity来服务你自己的应用需求。例如:有些人认为没有必要让文档短的文章得分更高一点 (参考 a "fair" similarity).<o:p></o:p>修改Similarity需要同时对索引和搜索都进行修改,必须在搜索或者排序之间修改Similarity。 要定制你自己的Similarity,也就是你不想直接使用DefaultSimilarity,你只要在 ...
- 2007-03-17 10:21
- 浏览 3590
- 评论(0)
Lucene 中的相似度排序主要是在org.apache.lucene.search 包下的 Similarity类中定义的,其排序算法如下: <o:p> </o:p>score(q,d) =Σ ( tf(t in d) * idf(t)^2 * getBoost(t in q) * getBoost(t.field in d) * lengthNorm(t.field in d) ) * coord(q,d) * queryNorm(sumOfSqaredWeights)t in q<o:p> </o:p>sumOfSqaredWeig ...
- 2007-03-16 13:56
- 浏览 2434
- 评论(0)
长期坐在电脑前或者处于暖气环境下,人们往往会感到眼睛发涩、视力模糊,这都是眼睛干涩症的症状。 德国医学家近日告诫,人们应当重视这一疾病,否则长期患病则容易对眼睛造成伤害、甚至失明。 德国眼医协会的医学 ...
- 2007-03-15 12:33
- 浏览 2599
- 评论(0)
BooleanQuery boolQuery = new BooleanQuery();<o:p></o:p> add方法: true ,false à 必须有 false , true -> 必须无 false , false ->可有可无
- 2007-03-14 15:03
- 浏览 824
- 评论(0)
自定义:<o:p></o:p>Field f = new Field(“fieldName”, “fieldValue”, boolean store, boolean index, boolean token);备注:当只查询单个域时,使用setBoost()方法不改变结果评分,但可以对一个域中每个查询term设置boost
- 2007-03-14 15:02
- 浏览 685
- 评论(0)
200W以下的数据量全部加载到内存最简单的方式是修改Lucene(1.9版本)源码 org.apache.lucene.index.IndexReader文件的第127行 将 return open(FSDirectory.getDirectory(path, false), true); 修改为 return open(new RAMDirectory(FSDirectory.getDirectory(path, false)), true); 将133行的 return open(FSDirectory.getDirectory(path, false), true); 修改为 retu ...
- 2007-03-14 15:01
- 浏览 930
- 评论(0)
小明和小强都是张老师的学生,张老师的生日是M月N日,2人都知道张老师的生日是下列10组中的一天,张老师把M值告诉了小明,把N值告诉了小强,张老师问他们知道他的生日是那一天吗?3月4日 3月5日 3月8日6月4日 6月7日9月1日 9月5日12月1日 12月2日 12月8日小明说:如果我不知道的话,小强肯定也不知道小强说:本来我也不知道,但是现在我知道了小明说:哦,那我也知道了请根据以上对话推断出张老师的生日是哪一天题解:数目:10月:3,6,9,12日:4,5,8,4,7,1,5,1,2,8排除: 日:7,2 5 月:6,12答案: 9月1日
- 2007-03-07 13:59
- 浏览 549
- 评论(0)
Python学习(一) 主要是学习《Dive into Python》 一、下载安装 最新版本:<st1:chsdate month="12" islunardate="False" day="30" year="1899" w:st="on" isrocdate="False">2.3.2</st1:chsdate> Windows 下载 Python-2.3.2.exe,运行安装其它平台 下载 Python-<st1:chsdate ...
- 2007-03-01 13:14
- 浏览 1799
- 评论(0)
NekoHTML学习笔记<o:p></o:p> J. Andrew Clark用Java写了一系列的工具(Java APIs),NekoHTML是其中之一。 NekoHTML是一个简单地HTML扫描器和标签补偿器(tag balancer) ,使得程序能解析HTML文档并用标准的XML接口来访问其中的信息。这个解析器能投扫描HTML文件并“修正”许多作者(人或机器)在编写HTML文档过程中常犯的错误。NekoHTML能增补缺失的父元素、自动用结束标签关闭相应的元素,以及不匹配的内嵌元素标签。NekoHTML的开发使用了Xerces Native Interface ...
- 2007-03-01 13:13
- 浏览 4124
- 评论(0)
apache/commons/httpclient学习笔记(一)<o:p></o:p> 虽然用telnet这样的程序都可把页面取回来,但是在与web服务器的交互中,如果涉及cookie或https或ssl等内容,一般功能相对完备的http客户端还是非常必要的。IE或NetScape等浏览器确实不错,可是如果为实现持续互动而在程序调用浏览器,我个人认为其中的工作量还是不小的,这还没考虑版权问题。最好的办法,就是能有一个开源的包,能实现http客户端的功能,供我们开发的程序调用。httpclient就是这么一个包,我相信可能有比它的实现更好的,但目前我只关注这个。:)< ...
- 2007-03-01 13:12
- 浏览 1035
- 评论(0)
bash编程学习笔记(1)<o:p></o:p> 好象现在不流行用shell编写脚本了,这些笔记可能显得有些过时,放在这儿供自己参考吧。 同时,尽可能把一些细节列出来,供大家当参考手册来查吧。<o:p></o:p> 可以理解为用shell这种脚本语言进行编程,编写好的程序放在文件里,用bash 来解释执行这个程序。 下面概要介绍一下shell编程。<o:p></o:p> 编写shell脚本程序的要求:<o:p></o:p>建立脚本<o:p></o:p> 程序第 ...
- 2007-03-01 13:11
- 浏览 1072
- 评论(0)