`
jeafyezheng
  • 浏览: 99432 次
  • 性别: Icon_minigender_1
  • 来自: 北京
最近访客 更多访客>>
文章分类
社区版块
存档分类
最新评论

网上研习信息检索

阅读更多

<o:p> </o:p>

<o:p> </o:p>

网上研习信息检索<o:p></o:p>

陈鸿标  博士 (199911)hbchen@in<st1:chmetcnv hasspace="False" negative="False" numbertype="1" sourcevalue="2" unitname="in" w:st="on" tcsc="0">2in</st1:chmetcnv>.com

<o:p> </o:p>

你要的我统统都给你! 题记<o:p></o:p>

<o:p> </o:p>

在选择研究方向、确定研究课题时,了解其现状和发展趋势是至关重要的。交流渠道的滞塞和信息源的匮乏是一个国家或地区科技水平落后于世界的主要原因。 因特网的普及,为我们开辟了一条通向世界的天堑通途。

因特网上的信息丰富到让人感到意外! 最让学人欣喜若狂的是,它可以提供在传统图书馆和书店里找不到宝贵资料。笔者的研究方向是信息检索。在选定博士论文题目时,曾得大益于因特网,从中取得的资料大大多于在国内搜罗所得,而且得来更简捷容易。可以毫不夸张地说,没有因特网,就没有笔者的论文选题。

网上资源虽然丰富,但并非唾手可得。这就好比地球上的宝藏需要人带着工具去勘探开发。网上有许多这样的寻宝工具——网络搜索引擎。只要输入若干描述查找目标的关键词,就可以得到相关的超级链接地址。但是,有时所得的链接太多,难以一一细看。以信息检索的资料为例。InfoSeek (www.infoseek.com) 的搜索引擎,输入“Information Retrieval”进行搜索,得到的相关链接达几十万之多!要在如此众多的资源中找到所需的信息,仍如大海捞针般困难。如果有事先编排好的资源簿就好了!这就好比寻宝人得到了一张藏宝图。对着这张“藏宝图”,按图索骥,就可以把宝藏收归己有。<o:p></o:p>

因特网上真有这样的“藏宝图”。笔者也希望本文能为信息检索研究者,特别是汉语信息检索技术的研究者们提供一张尽量详尽的网上资源地图,以减轻“捞针”之苦。<o:p></o:p>

<o:p> </o:p>

<!---->I. <!---->从一张“藏宝图”开始

<o:p> </o:p>

http://web.syr.edu/~diekemar/ir.html,美国人Diekemar有一张甚为详细的信息检索研究资料的“藏宝图”。Diekemar把他收集的资源链接分成以下十类:

<!---->1.         <!---->bibliographies (文献目录)

<!---->2.         <!---->conferences and workshops (年会、讨论会)

<!---->3.         <!---->courses (网上课程)

<!---->4.         <!---->dissertations (学位论文)

<!---->5.         <!---->FAQs and list archives(常见问题答疑和邮件群资料存档)

<!---->6.         <!---->journals(学术刊物)

<!---->7.         <!---->organizations and special interest groups(机构和兴趣小组)

<!---->8.         <!---->papers and books(论文和书籍)

<!---->9.         <!---->projects and labs(研究项目和实验室)

<!---->10.     <!---->resources (其它IR资源)

<o:p> </o:p>

在这些大类下,分别有具体的资源链接及其简要说明,是笔者见到的最为齐全的收集。

下面,让我们从它开始,一起去探秘吧。

<o:p> </o:p>

<o:p> </o:p>

<!---->II.      <!---->参加网上信息检索课程

<o:p> </o:p>

对于新手,入门的最佳办法是听老师讲课。这样的课程在因特网上不但有,而且可以免费参加。

下列课程中,课程14是英语的,课程5主要是德语,但它最为方便和完整,因为整个教材和讲稿已经用Postcript<!---->[i]<!---->格式制作成一个或多个文件。可以把它们下载到自己的机器上慢慢研习。

刚刚接触信息检索的初学者可以先看课程1。那是IR的简单介绍。然后学习课程2。课程34可做参考。而懂德语的则可参加课程5

课程1http://pi0959.kub.nl:2080/Paai/Onderw/Barcpaai/barcpaai.html

荷兰Brabant大学讲师J.J. Paijmans http://pi0959.kub.nl:2080/Paai/engels.html)给大学一年级的新生开的信息检索课。比较浅。

课程2http://pi0959.kub.nl:2080/Paai/Onderw/Ir/ir.html

也是Paijmans 开的课,对象是大学高年级学生。从130号到5月,每星期一课。他采用Norbert Fuhr的教材(见课程4)。讲稿用超文本的形式,其中有许多有用的资源链接。对IR的各种模式有比较详细的介绍。

课程3http://www.cs.bilkent.edu.tr/~david/cs533/cs533.html  

主讲老师是土耳其Bilkent 大学的David Davenport http: //www.cs.bilkent.edu.tr/~david/ david.html )。重点放在信息的组织上。可惜的是上面只有他在大学所开课程的介绍,没有实质的课程内容可供浏览。

课程 4http://ei.cs.vt.edu/~cs5604/

这里有Virginia Polytechnic Institute and State University 的教师Ed Fox1994年至1996年的授课讲稿。他开的课程名称是: Information Storage and Retrieval。讲稿全部是超文本格式。其中有一份很好的IR术语表

课程5http://ls6.informatik.uni-dortmund.de/ir/teaching/

这是德国Dortmund大学的网上课程网页。这里的信息专业的课程资料非常齐全,自成系统。总共有下面几门课:

<!---->1.         <!---->MMIS :   Multimedia Information Systems

<!---->2.         <!---->IR :         Information Retrieval

<!---->3.         <!---->IS 95/96: Information Systems WS 95/96 

<!---->4.         <!---->IS 97/98: Information Systems WS 97/98

这些课程的材料全部是Postcript格式的文件。

<o:p> </o:p>

<o:p> </o:p>

<!---->III.    <!---->了解最新动态

<o:p> </o:p>

信息检索的研究在国外非常热闹,用如火如荼来形容一点也不过分,因而网上召开的学术年会(Conference)和研习会(Workshop)也很多。如果想了解信息检索的最新动态,那么,一定要到下面这些地方看看:

<!---->Ÿ           <!---->SIGIR85-96 : http://www.ubilab.ubs.ch/sigir96/welcome.html

这是美国计算机学会信息检索特别兴趣小组的网址(the Special Interest Group on Information Retrieval of the Association for Computing Machinery)。该小组每年碰一次头,共同研讨信息检索的研究和发展。到1996年为止,已经举办了19届。1991年及以后各届年会的论文都可以免费下载,文件是PDF(Portable Document Format)<!---->[ii]<!----> 

<!---->Ÿ           <!---->TREC http://www-nlpir.nist.gov/TREC/
TREC
The Text REtrieval Conference)由美国国家标准和技术协会(the National Institute of Standards and Technology)和国防部高级研究计划署( the Defense Advanced Research Projects Agency )联合举办。两个机构每年碰一次头,展示各自的研究进展,互相切磋。有各届论文集可供下载。

<!---->Ÿ           <!---->MUC http://cs.nyu.edu/cs/faculty/grishman/muc6.html
199511月召开的MUC Message Understanding Conferences)已经是第五届。其宗旨是评价当今信息提取技术的水平,促进机器理解信息技术的发展。由美国国防部高级研究计划署资助。

<!---->Ÿ           <!---->IR, Logic & Uncertainty http://www.dcs.gla.ac.uk/logic95/
顾名思义,这个研习会主要探讨用基于逻辑的模式处理信息不确定性这一难题。19959月举行了第15期,由苏格兰学者Mounia Lalmas主持。

<!---->Ÿ           <!---->Cross-Linguistic IR http://www.rxrc.xerox.com/research/mltt/DMHead/CLIR/
多语信息检索有广阔的前景。因而这个于19968月在瑞士举行的跨语言信息检索研讨会倍受关注。这个论题在我国有特别高的研究价值。当前因特网上英语资讯多于汉语资讯,多语检索技术可以使我国用户更方便快捷地找到所需信息,也可以让外国用户享用汉语资讯。

<o:p> </o:p>

对于以上的会议,研究者们应特别留意。在每次开会前,他们会发布会议的主题和日程安排。其论文选题指南往往能反映当前的研究热点和趋势。

<o:p> </o:p>

<!---->IV.  <!---->查阅文献资料

<o:p> </o:p>

学术研讨会收集的论文数量毕竟有限。大量的文献以其他的途径发表,例如,学术期刊。现在,许多期刊建立了自己的网站,但他们一般不会把最新一期刊物的全部内容放在网上供人免费下载,往往只将其目录登载出来。有的则会把以前的内容挂在网上,供人下载。有关信息检索的专业刊物主要有以下几家:

<!---->Ÿ           <!---->D-Lib http://www.dlib.org/
月刊。登载电子图书馆研究方面的消息、评论、简报等。

<!---->Ÿ           <!---->IP&M gopher://ukoln.bath.ac.uk:7070/11/BUBL_Main_Menu/E/E2/E2EI06
Information Processing and Management
(信息处理和管理)

<!---->Ÿ           <!---->JASISgopher://ukoln.bath.ac.uk:7070/11/BUBL_Main_Menu/E/E2/E2EJ02
Journal of the American Society for Information Science
(美国信息科学协会会刊)

<!---->Ÿ           <!---->JDOC gopher://ukoln.bath.ac.uk:7070/11/BUBL_Main_Menu/E/E2/E2EJ05
Journal of Documentation
(文献工作)

<!---->Ÿ           <!---->Wired http://www.hotwired.com/frontdoor/
《连线》杂志。

<o:p> </o:p>

杂志虽好,但其文献丰富程度远远比不上一些专门收集电子文献的资料库。有两个网上图书馆是笔者最喜欢的所在:

<o:p> </o:p>

<!---->Ÿ           <!---->NCSTRL(Networked Computer Science Technical Report Library): http://www.ncstrl.org/

这个资料中心由具有博士学位授予权的大学或者研究机构组成。实际上,资料中心的服务器并不存放文献资料。它只是把各成员的机器连接了起来,形成一个网络。该中心有下面几个特点:

<!---->1.         <!---->检索方便。每篇文献都有摘要供全文搜索。除了输入关键词检索外,还支持题目、作者、时间等方式的检索。检索结果以成员机构为单位分组排列。所有符合查询条件的文献题目和作者姓名都在一个页面中显示。这样有利于保存和打印检索结果。

<!---->2.         <!---->资料丰富。用关键词“Information Retrieval”检索,结果多达十几页。其他论题如自然语言处理(NLP)的资料也非常丰富。

<!---->3.         <!---->格式多样、查看方便。可供下载的文件格式有PostcriptPDF和纯文本格式。有的文件是经过压缩的,虽然它的后缀名也是.ps。打开这些文件时要先解压缩。另一个要注意的是,有的文献是用扫描仪扫成图片,再用软件转成一种叫Postcript Level 2的格式。这种文件只能用Postcript打印机打印,不能用Ghost View打开。文献除了可以下载外,还可以在线浏览,很是方便。

<!---->Ÿ           <!---->Computation and Language E-print Archive http://xxx.lanl.gov/cmp-lg/
这个电子资料库主要收集计算语言学、自然语言处理、语音处理等相关领域的文献。也有检索功能,文件格式比NCSTRL的还要多。它有个特点,就是把收到的文章按月排列,因此最新资料可一目了然。

<o:p> </o:p>

除了大型资料库外,一些个人网页上也有很好的资料,如自己的学位论文、手稿、未发表的文章,甚至整本书:

<o:p> </o:p>

<!---->Ÿ           <!---->Information Retrieval By Plausible Inferences ”:http://ocelot.cat.syr.edu/~farhad/dissertation.html
Farhad Oroumchian
http://ocelot.cat.syr.edu/~farhad/1995年的学位论文。

<!---->Ÿ           <!---->Nichtlineares Information Retrieval in der Juristischen Informationssuche ”:http://www.fask.uni-mainz.de/user/ krueger/dissweb/Diss-00.html
Frank Krueger
的毕业论文(德语)

<!---->Ÿ           <!---->Information Retrieval http://www.dcs.glasgow.ac.uk/Keith/Preface.html
信息检索领域很出名的一本专著。重点介绍用概率研究信息检索的方法。作者是C. J. van Rijsbergen。全文可免费下载。文件有Postcript和超文本两种格式。

<!---->Ÿ           <!---->"What Do People Want from Information Retrieval?"
非常值得一看。能帮助了解信息用户的需求,确定研究方向。作者是Croft

<!---->Ÿ           <!---->Huibershttp://www.cs.ruu.nl/people/theo/publ.html
这里有Utrecht 大学Theo Huibers 的大作。

<!---->Ÿ           <!---->Chris Plaunthttp://bliss.berkeley.edu/papers/
Chris Plaunt
http://bliss.berkeley.edu/)专著或合著。全部是信息检索方面的内容。

<!---->Ÿ           <!---->……等等

<o:p> </o:p>

<o:p> </o:p>

<!---->V.     <!---->查找文献目录

<o:p> </o:p>

网上电子资料库收集的文献当然不可能包括所有的文献资料。许多以前出版的论著由于各种原因,不能以数码形式出现在网上。要查找这些文献也有办法。在许多地方都有文献目录,详细列出一个或几个专题的相关论著:

<o:p> </o:p>

<!---->Ÿ           <!---->http://mansci1.uwaterloo.ca/~jjiang/biblio.html
这是Jay Jianghttp://mansci1.uwaterloo.ca/~jjiang/)整理的文献目录。主题包括文档结构和模式(document structure and text modeling)、信息检索模式(IR modeling)、信息提取模式(access methods)、分布式信息检索(distributed IR)和因特网等。

<!---->Ÿ           <!---->http://www-inf.enst.fr/~rungsawa/irrs.html
Arnon Rungsawanghttp://www-inf.enst.fr/~rungsawa/)提供。大约有255条,没有按主题排序。

<!---->Ÿ           <!---->http://www.seas.gwu.edu/student/chulee/bib.html
这份书单收集的书目涵盖面很广,包括: query processing, compression and signature, N-grams theory, probabilistic IR, data structure and indexing, experimental and performance, thesaurus, full text analysis, vector space, other retrieval strategies, pattern matching, applying distributed environment to IR, applying parallel environment to IR, IR applications, linguistics, and information extraction。由Chuleerat Jaruskulchaihttp://www.seas.gwu.edu/student/chulee/)提供和维护。

<!---->Ÿ           <!---->http://www.sils.umich.edu/~mjpinto/ILS609Page/Bibliography/IRBibliography.html
这个由Martha Pintohttp://www.si.umich.edu/~mjpinto/)提供的参考书目主要涉及以下领域: uses and users, relevance, design of IR systems, selection of information resources, information representations, file organization, question analysis and search strategy, dissemination and access, and digital libraries

<!---->Ÿ           <!---->http://joinus.comeng.chungnam.ac.kr/~dolphin/db/indices/a-tree/s/Salton:Gerard.html
著名的信息检索专家Gerard Salton 提供的有关数据库系统和逻辑编程方面的著作和出版物目录。

<!---->Ÿ           <!---->http://superbook.bellcore.com/~std/LSI.html
Latent Semantic Indexing (LSI)
是一种信息检索的新技术。通过统计手段,LSI可以把虽然不含查询字串但却相关的文档提取出来,和“概念检索”有相同之处。

<o:p> </o:p>

<!---->VI.  <!----> 寻觅良师益友—参加讨论组

<o:p> </o:p>

如果在上面这些地方都没有找到想要的资料,或者有别的疑难问题无法解决,那么,可以到邮件讨论组里寻求答案。那里有许多乐于助人的专家。

一群对相同论题感兴趣的网友,通过电子邮件互通信息、讨论问题,这样就形成了因特网上非常流行的邮件群讨论组(mailing list)。只要对某个论题感兴趣而且有电子邮件地址就可以参加该论题的讨论组。方法是,向接受申请加入的地址(subscription address)发一封电子邮件,邮件的主题(Subject)为空,正文一般是:"subscribe 某某讨论组" 。等收到回复后即可以向发表意见的地址(Submission address)投稿,也能收到组员传送的信息。

要特别注意的是,必须分清“申请地址”和“投稿地址”。 想加入或退出讨论组时,向“申请地址”发信。想提问或发表意见时,向“投稿地址”发信。

现在的邮件群讨论组一般由程序自动管理。管理程序除了接受申请和退出请求外,还有其它功能,如查阅存档,暂停服务等。要详细了解有哪些命令(commands)以及这些命令的用法,一般可向“申请地址”发一封求助信,正文写上"help"即可。正常情况下在几分钟之内可得到回复。如果是人工管理的讨论组,则可向管理人员写一封简短的申请信。

有关信息检索(Information Retrieval)的邮件讨论组有下面几个。这些讨论组似乎没有其他领域的讨论组活跃。这也许是因为信息检索的研究重在实践,无须太多争论的缘故吧。

<o:p> </o:p>

<!---->1)        <!---->讨论组名称:IIRS

简介:       以色列信息检索专业人员的兴趣小组。<o:p></o:p>

申请地址:    listserv@taunivm.tau.ac.il

投稿地址:    IIRS@taunivm.tau.ac.il

联系地址: RAFARBER@weizmann.weizmann.ac.il Miriam Farber<o:p></o:p>

加入:      SUBscribe IIRS  姓名<o:p></o:p>

退出:      SIGNOFF   IIRS <o:p></o:p>

<o:p> </o:p>

<!---->2)        <!---->讨论组名称:IR

简介:       CEPIS 成员的讨论组。<o:p></o:p>

申请地址:    mailbase@mailbase.ac.uk

投稿地址:    IR@mailbase.ac.uk

联系地址:  ir-request@mailbase.ac.uk<o:p></o:p>

加入:      join IR     <o:p></o:p>

退出:      UNSUBscribe IR <o:p></o:p>

<!---->3)        <!---->讨论组名称:IR-L                                                                                                          

简介:       最开放、活跃的讨论组。主要成员来自ACM SIGIR 。谈论话题涉及信息检索的方方面面,和人工智 能、数据库、图书馆科学和语言学有密切的联系。发送的信息是人工整理好的。每周发送一期。<o:p></o:p>

申请地址:    ncg@dla.ucop.edu

投稿地址:    ncg@dla.ucop.edu

联系地址:  ncg@dla.ucop.edu Nancy Gusack<o:p></o:p>

加入:      Nancy Gusack联系<o:p></o:p>

退出:      Nancy Gusack联系<o:p></o:p>

<!---->4)          <!---->讨论组名称:NIR-IT-L      

简介:

评论

相关推荐

Global site tag (gtag.js) - Google Analytics