信息检索复习(名词解释) 下载本文

(4)它不能对检索结果按与检索要求相关的程度排序输出。

(5)过分依赖检索语言的文字化、规范化,往往要求较复杂的表达式。(如对同义词的全面表述)

为缩短检索式和醒目起见,DIALOG检索系统中“AND”、“OR”、“NOT”算符可分别用“*”、“+”、“—”代替。

附:DIALOG国际联机检索系统简介

美国DIALOG系统是目前世界上最强大的国际联机检索系统,也是目前运作最成功的联机商业数据库系统之一,它拥有80多个国家约10万多个终端用户,主机系统位于美国加利福尼亚州。DIALOG拥有近600个联机数据库,其内容涉及40多个语种和占世界发行总量的60%的6万多种期刊。DIALOG是世界最著名的商用联机数据库系统之一,它的服务是收费服务。 2、截词技术

所谓截词(Truncation),是指检索者将检索词在他认为合适的地方截断;而截词检索,则是用截断的词的一个局部进行的检索 ,并认为凡是满足这个词局部中的所有字符的文献,都为命中的文献。 截词符根据检索系统的不同而不同,常用截词符有“?”、“﹡”、“¥”、“!”等。通常用“﹡”表示无限截断, “?”表示有限截断。

截断方式也有后截、中截、前截等

1)后截断

是最常用的截词检索技术。将截词符号放置在一个字符串的右方,以表示其右的有限(?)或无限个字符(﹡)不影响该字符串的检索。 如“Computer ﹡”,则词典中存储的前8个字符为Computer的所有词均满足条件,因而能检出含有Computers、 Computering、 Computerigation、 Computered等词的文献。

Computer? ?可检索出含有Computer、 Computers、 Computered等词的文献。

可见,截词检索具有隐含的OR运算特性。

后截词主要使用在以后4 个方面: ①词的单复数,如bag?、box?? ②年代,如199??(90年代),19??(20世纪)

③作者,如用Lancaster ﹡,可检索出所有姓Lancaster的作者。

④同根词,如用poltic ﹡检索出political、politicalize、 poltically、 poltician等同根词。 (2)前截断

例如:“﹡magnetic(有磁性的),可以检索出electro-magnetic(电磁的)、paramagnetic(顺磁的)、thermomagnetic(热磁的)等词汇。 (3)中截断 例如:

m?n。可以检索出含有词man、men的文献。 3、字段限定检索技术

文献数据库的每条记录通常都由多个代表不同信息内容的字段组成,几乎所有机检系统均设置了限定检索的功能,以满足用户检索某一特定字段信息的要求。

在DIALOG联机检索系统中,数据库提供的确可供检索的字段通常分为基本字段和辅助索引字段两大类。基本字段表示感谢文献内容特征,如题名、主题词、文摘等;辅助索引字段表示文献

外部特征,如著者、文献类型、语种、出版年代等。每个字段有一个字段代码,字段代码通常用两个大写字母表示。

如DIALOG联机检索系统中,字段限定符主要有:

? AU = 限查作者 CS = 限查作者机构 ? JN = 限查特定刊名 Ti = 限查题目字段 ? LA = 限查语种 AB = 限查文摘字段 ? PN = 限查特定专利号 DE = 限查主题词字段 ? PY = 限查特定年份 ID=限查关键词或自由词 4、词位限定检索技术 1)(W)算符与(nW)算符

(W)算符是“Word”或“With”的缩写,它表示在此算符两侧的检索词必须按输入时的前后顺序排列,而且所连接的词之间可以有一个空格,或一个标点符号或一个连接号外不得夹有任何其他单词或字母,且词序不得颠倒。(W)算符严密性较强,它基本等同于词组检索。

目前绝大部分搜索引擎都具有词组检索的功能,一般用 “ ”表示。 例如:SQL(W)SERVER 可以检索出

SQLSERVER或SQL SERVER

gone(2W)wind 可以检索出 gone with the wind (2) (N)算符和(nN)算符

(N)是Near的缩写,它表示:在算符两侧的检索词必须紧密相连,所连接的词间不允许插入任何其他单词或字母,但词序可以颠倒。

(nN)表示允许在连接的两个词之间夹插入至少n个单词,且这两个检索词的词序任意。 例如:Railway(2N)Bridge,可以表示 Railway Bridge, Bridge of Railway, Bridge of the Railway (3)(S)算符

在某些情况下,特别是对查全率有较高要求时,可放松词位置检索要求,改用同句检索。所谓同句检索是要求参加检索运算的两个词必须在同一自然句中出现,其先后顺序不受限制。同句检索的位置算符是(S)。S是sentence的缩写。

例如:electronic(S)optical ,可以检索出题名为Cutting and polishing optical and electronic materials的文献。 (4) (L)算符

(L)是link的缩写,它要求检索词在同一主题词字段中,并且具有词表规定的等级关系。因此,该算符只适用于有正式词表,且词表中的词具有从属关系的数据库。

如:railroads (L) traffic control ,表示 traffic control是railroads的下一级主题词。 (5)(F)算符

(F)是field的缩写,表示在此处符两侧的检索词必须同时出现在数据库记录的同一字段中,词序可变,字段类型不限。

从限制的严格性看,F、S、L、N、W依次渐严,而且都比AND严。在执行优先级上比NOT、

AND、OR优先。

计算机信息检索的一般步骤为:

1、根据检索课题,选择适用的数据库; 2、确定检索词; 3、编制检索式;

4、显示及判断检索结果; 5、修改检索策略。 6、索取原文

非控制词汇是极为灵活有效的检索词。对于自由文本检索和全文检索而言,关键词更是最重要的检索词。