信息检索复习(名词解释) 下载本文

以从名录中查找关于人物生平、机构组织和某一行政区划沿革等信息。名录是一种事实便览性的工具书,虽只提供有关机构、人物等的简要资料,但能起指引情报源的作用,对沟通信息、促进交流、加强协作提供了很大的方便。名录按收集信息的内容的不同,可分为人名录、地名录和机构名录。

1、人名录又称“名人录”,是介绍某一方面人物生卒年、学历经历、荣誉、著作等资料的检索工具。如:《世界名人录》。

人名录分为综合性、国别或地区性的、专业或职业性的三类 ,每类又有回溯性的(也称人名辞典)和当代人物两种。 2、地名录

是收录经审定的规范化的地方名称,并注明所属的国家、行政区划以及在地图集上的具体位置的工具书。主要提供各行政区域(国家、城市、省、县、乡、街道)、山川、河流、岛屿等的规范化名称、地理位置、人口、历史沿革、地产和矿产等资料。如:《中国行政区划大辞典》、《世界地名录》。 3、机构名录又叫机构指南

是汇集机构名、人名、地名等专名及与之相关的资料的一种工具书。一般提供公司或组织机构的名称、地址、电话号码、历史与现状、机构的主要业务与人事、主要负责人等情况,许多公司和厂商名录还要介绍其规模、资产、经营范围、产品、设备等情况。具有简明、新颖、确实等特点。如:《中国企事业名录大全》

第三节 文献检索工具简介

文献检索工具是用于报道、存贮和查找文献线索的工具,它通过对文献特征的描述,并按一定的科学方法排列、提供多种检索途径,使我们能从文献的汪洋大海里找到特定的文献。 检索工具必须具备四个条件:

第一,必须详细描述文献的外部特征和内容特征。 第二,每条描述记录都必须具有各种检索标识。(所谓检索标识是指描述文献外部特征和内容特征的专门用于信息检索的词、词组或代码,如主题词、分类号、著者姓名、文献序号等。) 第三,全部描述记录要科学地组织成一个有机的整体 第四,能够提供多种检索途径。 检索工具的类型:

? 按检索手段分,有手工检索工具、机械检索工具和计算机检索工具; ? 按出版形式分,有书本式、期刊式、卡片式、缩微式和机读式; ? 按收录范围分,有综合性、专业性、专题性和单一性; ? 按文种分,有中文、西文、日文、俄文等; ? 按著录方式分,有目录型、题录型和文摘型。

? 其中按著录方式划分体现了检索工具对文献内容揭示的深浅程度,体现了检索工具的性质,这是

检索工具最主要的划分方法。

一、 目录型检索工具

? 目录是以出版物(如一本图书、一种期刊等)为报道对象,揭示出版物外部特征的检索工具。所

以目录对文献的描述比较浅显,一般只描述文献的外部特征,有时也通过简单的内容提要介绍文献的内容,但它不涉及文献中的具体章节或具体文献。目录主要用于报道、登记出版物的出版发行情况,揭示其收藏情况,供人们选购、查阅和获取文献时使用。目录的著录项目通常包括出版物名称、责任者(著者、编者或译者)、出版项(出版者、出版地、出版时间、版次等)和稽核项(页数、开本、价格等)。

? 目录型检索工具主要有图书馆馆藏目录、联合目录、出版社目录、国家书目等。 二、 题录型检索工具

? 题录是以单篇文献作为报道单位,揭示文献外部特征的检索工具。由于它是以单篇文献为单位来

报道和存储文献的,所以对文献的揭示程度比目录要具体、深入。但题录与文摘相比,对文献内容的揭示又相对较浅,不过,它也因此具有加工容易、可以缩短报道的时差、文体简短、可以增加检索刊物的容量的优点。题录的著录项目一般包括题录号、文献题目、作者及其工作单位、出处、原文文种、主题词、文中所附图表数及参考文献数等。

? 《Index to Scientific & Technical Proceedings》是由美国科学信息研究所(ISI)出版的,是专

为检索会议录、会议出版物及其会议论文题录而编制的综合性检索刊物,内容涉及基础学科、工程技术及应用科学等领域,每年收录约4000次重要科学会议的论文。目前,全球正式出版的重要会议文献约有75%~90%被ISTP收录,是快速、全面了解会议文献的重要检索工具,并作为评价科研工作者学术水平的重要指标,它与SCI《科学引文索引》(Science Citation Index)、EI《工程索引》(The Engineering Index )、并称为“三大索引”。其正文按会议号的顺序排列,著录每个会议的名称、会议事项、会议录及其出版情况和该会论文的题录。

三、文摘型检索工具

? 文摘(abstract)是指对一份文献或一个文献单元的内容所做的简略、准确的描述,通常不包含

对原文的补充、解释和评论。文摘的报道对象与题录相同,但它对文献内容的揭示程度较题录更深入具体,它不仅描述文献的外部特征,还进一步描述文献的主题内容。对内容的介绍主要由其中的“文摘”部分完成。文摘是最常用的文献检索工具。

文摘的主要著录项目为:

? (1)文摘号、入藏号(abstract number ,reference number , accession number )。它是在文献处

理完以后,为每条文摘编的号码,起排序并帮助读者识别特写文摘的作用。它可以是简单的顺序号,也可以是含有某种情报内容的代码符号。

? (2)文献名称(document title)。即文献的题目(篇名),它是读者识别特定文献的重要标志之

一。文献名称一般是逐字照录,有时也可以删去某些引导性的词,或对含义不清及不完整的名称加以改写、补充。外文文献一般要同时著录译名和原名。有些英文检索工具对非拉丁文字的文献一般不著录原名,而著录原名的音译名。

? (3)著者(author)及其工作单位(affiliation)。是读者迅速鉴别文献的依据之一,著录著者姓

名可以用全称,也可以用简称。许多国家的人名表述是名在前,姓在后,一般姓用全称,名可以缩写。但大多数检索工具都采用姓在前、名在后的形式。英文检索工具对非拉丁文姓名用音译法著录。

(4)合同号(contract number)或拨款号( grant number)。如果该文献是在某项合同或拨款的支持下进行的,一般都要标明该项合同的编号或拨款文件的编号。科技报告都有这一项目。

(5)原文出处。指刊载原文的地方。原文如果是某种期刊中的论文,出处包括该刊的刊名、出版地、卷期号、出版日期和起讫页码;如果是图书或其中的一部分,出处就是书名、编著者、出版地、出版者、出版时间和起讫页码。科技报告的出处就是入藏号、订购号或原来的报告号。专利说明书的出处就是专利申请书或专利说明书的编号。原文出处的著录是读者顺利找到原文的重要线索。

(6)原文文别和译文来源。原文文别一般用某种语言的简称标明,放在文献出处之后,有的放在文献的译名之后。若所摘录的文献是一篇译文,应给出译文的来源(被译文献的出处),如“译自X刊X卷X期X页”。此项的用处是免得使读者去找他所不能阅读的东西。

(7)主题词或索引词。指用来描述该文献的主题内容的若干个词或词组。该项的用途很多,既可以帮助读者了解原文主题,也可以用以查找其他相关文献,或供计算机识别和进行逻辑组配检索。

(8)文摘正文。对文献内容所做的简略描述。可以有报道性文摘和指示性文摘之分。前者需概述原文的内容要点,特别是创新点,向读者提供原文中的定量信息(如距离、最大值、最小值、公式等)和定性信息(如发现、结果、新方法、新设备、结论等)。它是原文内容的浓缩,基本上能反映原文的技术内容、信息量大,字数也较多。后者则是为了把原文的主题范围、目的和方法概略地指示给读者的一种文摘,一般不包含具体的数据、方法、设备、结论等内容。它指示读者将在原文中发现什么,帮助读者判断原文是否与自己的需要相关以及是否需要阅读原文,字数也相对较少。 第四节 索引介绍

一个完整的检索工具包括四个部分: 1、说明部分 2、正文部分 3、辅助索引部分 4、附录部分

索引通常不提供文献内容本身,只指明文献的物理位置,是一种检索文献的系统指南,使读者能准确地找出文献或文献集合体中的特定信息。

? 最常用的索引有著者索引、主题索引、分类索引、题名索引。

主题索引是以主题词为标目,按照主题词的字顺排列组织的索引。按照组织主题词的原则和方法上的不同,

一、 著者索引

二 主题索引可分为四种:

1、标题索引 2、关键词索引 3、单元词索引 4、叙词索引

关键词索引

关键词索引是按关键词的字顺排列的索引。关键词是直接从原文的标题、摘要或全文中抽选出来的,具有实质意义的、未经规范化处理的自然语言词汇。被抽选出来的关键词都可以作为标引词在索引中进行轮排,作为检索词进行检索。由于关键词表达事物和概念比较直接,不受词表控制,能及时反映新事物、新概念,目前被广泛地应用于手工检索和计算机检索系统中。但关键词索引不显示词间关系,不能进行缩检和扩检,影响检索效率。不过,在计算机检索系统中,利用关键词之间的逻辑组配,在一定程度上解决了这个问题。计算机检索系统还采用编制禁用词表和关键词表等方法,以提高关键词抽取的准确性,并对词间关系进行控制,提高了检索效率。

三、 分类索引

分类索引以科学分类为基础,运用概念划分的方法将知识按一系列的标准和逻辑规则进行层层划分,形成一个严格有序的直线式的知识门类等级体系,用概括事物本质属性的概念作为类目名称,并给出相应的标记符号作为类号,按照分类号编排。分类的方法能较好地体现学科的系统性,反映事物之间的平行、隶属和派生关系,适合人们认识事物的习惯,有利于从学科或专业的角度进行族性检索。目前我国广泛

采用《中国图书馆分类法》。

不过《中国图书馆分类法》作为体系分类法是先组式检索语言,缺乏进行多概念灵活组配的能力,分类表类目是根据编制时的学科专业情况设置的,无法反映新学科和新技术的内容,且体系分类法是按学科性质建立的直线式序列结构,对全面检索跨学科跨专业的文献信息有一定难度。但它仍然是一种不可缺少的检索工具,特别是在网络检索工具中,使用分类方法浏览、搜索信息十分普遍。在一些专门领域,如专利、标准文献的检索中,都有特定的分类索引。 四、 题名索引

? 题名索引是以书名、刊名或篇名为标目,并按题名的字顺排列的一种索引。

? 如:有些期刊在每年最后一期后会附上全年刊登的文献的题名索引。其按字顺排列,在每个题名

后列出其所在的期号,甚至所在页码。

五 、其他索引

为适应某些专业的特殊需要或某些文献的特点,会根据需要编制一些专用索引。这类索引所用的索引词形式很专一,通常是某一专业领域的专用名词,如化学物质名称、动植物名称、药名、矿物名、地名、商品名、机构名等等,以及专用的符号代码,如元素符号、化合物分子式、专利号、报告号、标准号、合同号等。这些专用名称和符号代码表示文献的某一种特征,有一定的检索意义,特别是在相应的专业领域内,其检索价值尤为显著。

第五节 计算机信息检索基础理论 一、检索技术及其实现 1、布尔逻辑组配检索技术

布尔逻辑组配检索是现行计算机检索的基本技术,它利用布尔逻辑运算符表示两个检索词之间的逻辑关系,将检索提问转换成逻辑表达式。常用的运算符有: ①逻辑“与” —AND ②逻辑“或” — OR ③逻辑“非” — NOT 练习:

头孢菌素钠Ⅴ或磺胺甲恶唑治疗呼吸道感染的引起的副作用研究

检索式: (头孢菌素钠Ⅴ OR 磺胺甲恶唑) AND 呼吸道感染 AND 副作用 布尔检索的特点 优点:

(1)形式简洁,结构化强,语义表达力好。

(2)布尔运算关系有利于准确表达检索概念之间的逻辑关系 (3)由于布尔运算以比较方式在集合中进行,故软件易实现 缺点:

(1)它不承认文献内容所涉及的多个概念的重要性,即没有规定每个检索词的权重,一个概念要么与文献内容完全相关,要么不完全相关,这常与实际情况不一致。

(2)它把各个概念看成相互独立的,忽略了概念间的相互关系;它把概念与文献的关系简单化,忽略了概念与文献内容形式和结构的关系。

(3)它不能妥善区别和处理检索式中较多的概念标引的文献和用检索式中较少的概念标引的文献。如处理提问式: “A AND B AND C…AND Z”时,系统把含有若干个提问词和不含任何一提问词的文献认为一样差,同样加以排除;在处理提问式“A OR B OR C…OR Z”时,不能把含有所有提问词的文献看做比只含有一个提问词的文献更好一些。