`
jeafyezheng
  • 浏览: 99706 次
  • 性别: Icon_minigender_1
  • 来自: 北京
最近访客 更多访客>>
文章分类
社区版块
存档分类
最新评论
文章列表
Lucene的搜索结果默认按相关度排序,这个相关度排序是基于内部的Score和DocID,Score又基于 关键词的内部评分和做索引时的boost。默认Score高的排前面,如果Score一样,再按索引顺序,先索引的排前面。那么如果我要先索引 的排后面怎么办呢?只要构造一个SortField[]就可以实现我们要的功能// 评分降序,评分一样时后索引的排前面    new SortField[] { SortField.FIELD_SCORE, new SortField(null, SortField.DOC, true) }       // 评分升序,评分一样时后索引的排前面,呵呵,此为最不 ...
今天突然想看一下nba火箭队的比赛,于是baidu了一下"pplive",居然排在第一的是天空软件下载,而不是pplive的首页,感觉有点不理解。于是分别用google,有道,搜狗(去除推广)分别搜了一下,都能把pplive的主页排在第一,我想baidu的所谓失误肯定不是技术原因,更不是合理的偏差。后来查了一下,原来天空软件早已被baidu收购,排在第一就不难理解了。联系到百度其他由于排名不合理的官司,竞价排名这种追逐利润的方式(我认为对网民最大的伤害是,很多网民在不知情的情况下点击了广告),无语!真是网络时代,无所不用其极。
最近在研究本体在搜索引擎中的引用,会搜集一些相关资料已经我的个人研究新的挂在网上,做备忘和交流用。
均衡膳食 均衡营养……应该把主要注意力放在孩子一日三餐上,培养孩子不偏食、不挑食的习惯,通过均衡的膳 食获得均衡的营养,这在卫生部批准的《中国居民膳食指南》中,已经深入浅出地给人们引导了。在膳食 ...
修改Similarity(相似度计算)<o:p></o:p>DefaultSimilarity基本上可以满足一般的搜索要求。但是在有些应用中,你可以定制你自己的Similarity来服务你自己的应用需求。例如:有些人认为没有必要让文档短的文章得分更高一点 (参考 a "fair" similarity).<o:p></o:p>修改Similarity需要同时对索引和搜索都进行修改,必须在搜索或者排序之间修改Similarity。 要定制你自己的Similarity,也就是你不想直接使用DefaultSimilarity,你只要在 ...
Lucene 中的相似度排序主要是在org.apache.lucene.search 包下的 Similarity类中定义的,其排序算法如下: <o:p> </o:p>score(q,d) =Σ ( tf(t in d) * idf(t)^2 * getBoost(t in q) * getBoost(t.field in d) * lengthNorm(t.field in d) )      * coord(q,d) * queryNorm(sumOfSqaredWeights)t in q<o:p> </o:p>sumOfSqaredWeig ...
 长期坐在电脑前或者处于暖气环境下,人们往往会感到眼睛发涩、视力模糊,这都是眼睛干涩症的症状。 德国医学家近日告诫,人们应当重视这一疾病,否则长期患病则容易对眼睛造成伤害、甚至失明。 德国眼医协会的医学 ...
BooleanQuery boolQuery = new BooleanQuery();<o:p></o:p> add方法:        true ,false  à 必须有        false , true    -> 必须无        false , false    ->可有可无  
自定义:<o:p></o:p>Field f = new Field(“fieldName”, “fieldValue”, boolean store, boolean index, boolean token);备注:当只查询单个域时,使用setBoost()方法不改变结果评分,但可以对一个域中每个查询term设置boost 
200W以下的数据量全部加载到内存最简单的方式是修改Lucene(1.9版本)源码 org.apache.lucene.index.IndexReader文件的第127行 将 return open(FSDirectory.getDirectory(path, false), true); 修改为 return open(new RAMDirectory(FSDirectory.getDirectory(path, false)), true); 将133行的  return open(FSDirectory.getDirectory(path, false), true); 修改为 retu ...
小明和小强都是张老师的学生,张老师的生日是M月N日,2人都知道张老师的生日是下列10组中的一天,张老师把M值告诉了小明,把N值告诉了小强,张老师问他们知道他的生日是那一天吗?3月4日 3月5日 3月8日6月4日 6月7日9月1日 9月5日12月1日 12月2日 12月8日小明说:如果我不知道的话,小强肯定也不知道小强说:本来我也不知道,但是现在我知道了小明说:哦,那我也知道了请根据以上对话推断出张老师的生日是哪一天题解:数目:10月:3,6,9,12日:4,5,8,4,7,1,5,1,2,8排除:    日:7,2         5    月:6,12答案: 9月1日
Python学习(一)  主要是学习《Dive into Python》 一、下载安装 最新版本:<st1:chsdate month="12" islunardate="False" day="30" year="1899" w:st="on" isrocdate="False">2.3.2</st1:chsdate> Windows   下载 Python-2.3.2.exe,运行安装其它平台   下载 Python-<st1:chsdate ...
NekoHTML学习笔记<o:p></o:p>  J. Andrew Clark用Java写了一系列的工具(Java APIs),NekoHTML是其中之一。   NekoHTML是一个简单地HTML扫描器和标签补偿器(tag balancer) ,使得程序能解析HTML文档并用标准的XML接口来访问其中的信息。这个解析器能投扫描HTML文件并“修正”许多作者(人或机器)在编写HTML文档过程中常犯的错误。NekoHTML能增补缺失的父元素、自动用结束标签关闭相应的元素,以及不匹配的内嵌元素标签。NekoHTML的开发使用了Xerces Native Interface ...
apache/commons/httpclient学习笔记(一)<o:p></o:p>  虽然用telnet这样的程序都可把页面取回来,但是在与web服务器的交互中,如果涉及cookie或https或ssl等内容,一般功能相对完备的http客户端还是非常必要的。IE或NetScape等浏览器确实不错,可是如果为实现持续互动而在程序调用浏览器,我个人认为其中的工作量还是不小的,这还没考虑版权问题。最好的办法,就是能有一个开源的包,能实现http客户端的功能,供我们开发的程序调用。httpclient就是这么一个包,我相信可能有比它的实现更好的,但目前我只关注这个。:)< ...
bash编程学习笔记(1)<o:p></o:p>  好象现在不流行用shell编写脚本了,这些笔记可能显得有些过时,放在这儿供自己参考吧。   同时,尽可能把一些细节列出来,供大家当参考手册来查吧。<o:p></o:p>  可以理解为用shell这种脚本语言进行编程,编写好的程序放在文件里,用bash 来解释执行这个程序。   下面概要介绍一下shell编程。<o:p></o:p>  编写shell脚本程序的要求:<o:p></o:p>建立脚本<o:p></o:p>   程序第 ...
Global site tag (gtag.js) - Google Analytics