(三)计算机检索阶段 1. 脱机批处理检索 2. 联机检索 3. 光盘检索 4. 网络检索
二、信息检索的概念与原理
信息检索(Information retrieval)是指将信息按照一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程和技术。信息检索是用户进行信息查询和获取的主要方式。
信息检索包括信息存储和信息检索两个部分 信息检索流程图 检索原理:检索提问标识与存储标引标识进行比较,两者一致或信息标引的标识包含着检索提问标识,则具有该标识的信息就从检索系统输出,输出的信息就是检索命中的信息。
三、信息检索的类型和方法
(一)信息检索类型
1. 按检索内容划分
(1)文献检索:以文献线索为检索对象的检索。检索系统一般为书目、索引、文摘等二次文献。
(2)数据检索:以数值形式表示检索内容的信息检索。
(3)事实检索:以文献中抽取的事实为检索内容的信息检索。
(4)全文检索:以原始文献中所含的全部信息作为检索内容的信息检索,即是以文献全文作为检索内容的信息检索。检索的内容可以是全文,也可以是部分内容,并可进行各种频率的统计和内容分析,它通常用自然语言表达检索课题。
(5)图像检索:以有关人、事、物的形象,包括图像和图文信息为检索内容的信息检索。
(6)多媒体检索:多媒体检索通常是以文字、图像、数据和声音为检索内容的信息检索。
2. 按信息检索手段划分 (1)手工信息检索 (2)计算机信息检索
(二)信息检索方法
1.工具法
是指利用各种检索工具或数据库查找文献信息的方法。
(1)顺查法:以研究课题的起始年代为起点,由远及近,逐年查找,直至最近期为止。 (2)倒查法:针对研究课题,从最近期向早期回溯,直至查获适量切题文献信息为止。 (3)抽查法:抽查法是一种利用检索工具进行重点抽查检索的方法。 2.引文追溯法
利用文献所附的参考文献进行追溯查找。
3.循环法
是工具法与引文追溯法相结合的一种检索方法。
四、信息检索工具
信息检索工具是用来存储、报道和检索文献线索的工具,具有存储和检索两个基本功能。
9
信息检索工具的类型按照不同的标准划分有不同的类型,最常用的一种划分方式就是按照著录内容划分,可以分为目录、题录、文摘三种。
第三节 现代信息检索策略
一、分析检索课题,明确检索需求
1. 分析课题学科属性、专业范围及相关内容 2. 分析检索课题的信息类型和时间要求 3. 明确用户自身的信息需求
二、选择检索系统
选择检索系统要考虑三方面的因素。一方面是检索课题的具体要求,包括所需要的学科、主题范围,对语种、年代、资源类型的要求,以及对查全、查准、查新方面的具体要求。另一方面,要考虑检索系统的类型和性能,包括其收录范围,报道内容及倾向、可获得性,存储年限、更新周期、所具有的检索功等方面。最后,要考虑检索者对检索系统的熟悉程度。综合上述几方面的考虑,选择匹配性最佳的检索系统。
三、确定检索途径
(一)以文献的外部特征为检索途径 1. 题名途径 2. 责任者途径 3. 号码途径
(二)以文献信息的内容特征为检索途径 1.分类检索途径 2.主题检索途径
四、选择检索词
检索词是表达文献信息需求的基本元素,也是计算机检索系统中进行匹配的基本单元。选择检索词一般要考虑以下基本原则:
(1)所选检索工具有叙词表或主题词表的,优先选用叙词或主题词作为最基本的检索词;
(2)要从词表规定的专业范围出发,选用各学科内具有检索价值的基本名词术语; (3)如选择的检索词无词表可查,或在词表中未反映,可选择自由词作为检索词; (4)选词要适应待检数据库的检索用词规则; (5)通常要选择常用的基本词汇进行匹配。
五、构造检索式
1.概念检索
检索标识是具体的检索词或词组,每个检索词表达一个概念 2.布尔逻辑算符组配检索
是将多个检索词进行逻辑组配形成的一种复合性检索要求。
(1)逻辑与
用符号? and? 或 ?*?表示,
其逻辑表达式为: A and B 或 A * B
10
其意义为检索记录中必须同时含有检索词A和B的文献,才算命中文献。
(2)逻辑或
用符号?or?或?+?表示,
其逻辑表达式为: A or B 或 A + B
其意义为检索记录中凡含有检索词A或检索词B,或同时含有检索词A和B的,均为命中文献。
(3)逻辑非
用符号?not?或?–?表示,
其逻辑表达式为: A not B 或 A – B
其意义为:检索记录中含有检索词A,但不能含有检索词B的文献,才算命中文献。
3.位臵逻辑算符
4.截词和屏蔽(模糊检索)
使用截词符(通配符):?,%,* ,$
截词主要是利用检索词的词干或不完整的词形进行检索。 5.比较运算符
=等于,> 大于,< 小于 ,>= 大于等于,<= 小于等于
6.优先运算符
( ) 、 ‘……’ 、?……?
7.检索字段限定符 CNKI中国知网:专业检索
某些外文数据库: TI=rice、AU=Li Hua
六、实施检索 七、调整检索策略
检索时,应及时分析检索结果是否与检索要求一致,如果不一致,则应对检索策略做相应的修改和调整,直至得到比较满意的结果。对检索结果的分析有如下三种情况:
1. 检索结果信息量过多
检索结果信息量过多的原因可能有:对所选的检索词的截词截得太短;未加字段限定或限定太过宽泛;使用了过多的相关词或上下位概念等。在这种情况下,就要考虑缩小检索范围,提高检索结果的查准率。
调整检索策略的方法如下:① 减少同义词与同族相关词。② 增加限制概念,采用逻辑?与?连接检索词。③ 使用字段限定,将检索词限定在某个或某些字段范围。④ 使用逻辑?非?算符,排除无关概念。⑤ 增加语种限制以及缩短检索期限。 调整位臵算符,由松变严。⑦ 将截词的词根变长或减少截词算符的使用。
2. 检索结果信息量过少
造成检索结果信息量少的原因有:选用了不规范的主题词或某些产品的俗称,商品名称作为检索词;同义词、相关词、近义词没有运用全;上位概念或下位概念没有完整运用;字段限定太多;逻辑?与?、?非?用得过多;检索概念专指度过高等。这种情况要考虑扩大检索范围,提高检索结果的查全率。
调整检索策略的方法如下: ① 选全同义词与相关词并用逻辑?或?将它们连接起来,增加网罗度。 ② 减少逻辑?与?和逻辑?非?的运算,丢掉一些次要的或者太专指的概念。
11
③ 去除某些字段限制。④ 增加上位概念。⑤ 重新选择更合适的数据库。⑥ 调整位臵算符,由严变松。⑦ 增加截词算符的使用。
3.检索结果中误检率过高
错误率过高的原因可能有:检索词本身的多义性;主题词分析错误;使用了不规范的缩写。
调整检索策略的方法如下:① 对叙词进行相关的限定,如学科限定。② 提高用户分析课题的能力,确定核心检索词。③ 尽量少使用全文字段检索。④ 正确使用缩写词。
通过对检索策略的不断优化,从而使我们最终得到满意的检索结果。
八、获取原始文献
获取全文的途径:首先是查找本单位购买的全文数据库;其次可利用那些提供流量计费下载的全文数据库网站获取;第三,向文献收藏单位联系馆际互借或文献传递;第四,可直接向作者索取;最后,都找不到的情况下,可向出版发行单位购买。
第四节 检索效果评价
检索效果评价主要是指信息检索的最终结果是否满足用户需求或满足程度如何。
一、检索效果评价指标
常用的评价指标有:查全率、查准率、漏检率、误检率、响应时间、用户负担和输出形式等,其中最常用的指标是查全率和查准率。
1. 查全率(Recall ratio)与漏检率(Omission ratio) 查全率是用来描述系统检出相关文献能力的一种尺度,是指检索出的相关信息量与信息系统中的相关信息总量之比,其计算公式为:
查全率(R )=
a×100% a?cc×100% a?c漏检率是指未被检出的相关信息量与信息系统中的相关信息总量之比,其计算公式为: 漏检率(O )=
2. 查准率(Precision ratio)与误检率(Fall-out ratio) 查准率是用来描述检索精确度的指标,是指检索出的相关信息量和检索出的信息总量之比,其计算公式为:
查准率(P )=
a×100% a?bb×100% a?b误检率是指检索出的非相关信息量和检索出的信息总量之比,其计算公式为: 误检率(F )=
二、影响检索效果的因素
(一)检索工具质量
存储文献是否齐全,索引系统是否完善,标引过程中失误率及标引深度(标引时分析文献所达到的深度),标引的全面程度等等,都对查全率和查准率有着很大的影响。
(二)标引语言与检索语言的一致性
12