信息检索复习(名词解释) 下载本文

给用户。这种检索模式非常适合于信息跟踪,便于及时了解有关主题领域的最新发展动态。

(2)回溯检索 RS (retrospective search)查找一段时期内有关特定主题信息的检索。

? 其特点是既可以查找过去一段时间的特定主题信息,也可以查找最近的特定主题信息。与

每个定题检索需要多次运行不同的是,每个回溯检索一般只运行一次,从已有的文献信息库中查找出某个时间内特定主题的信息,并提供给用户。 ? 目前,用户利用最多的是回溯检索,但定题检索发展也很快,科研课题进行中需要定题检索,

对企业来说,也非常需要利用定题检索获得和掌握市场的持续信息。

七、按检索途径的特点区分

(1) 常用法, 工具法,利用检索工具或系统中常设的检索入口查找文献信息的方法。如主题、分类、著者、题名等。其具体操作分为 顺查,倒查,抽查

顺查方式是根据有关课题的起始年代利用选定的检索工具由远及近的进行逐年查找。 倒查方式则相反。从最新时间查找起,直到满足检索要求为止。

抽查是针对有关学科的发展特点,抽查某些特定时期的文献信息。通常抓住学科专业发展兴旺的时期,此时的不仅文献发表的数量多,质量也高。

(2) 回溯法,引文法,利用文献末尾所附的参考文献或引文为检索入口,查找到越来越多的文献。但这种方法,查找到最后,查找到的文献与检索主题的相关性会越来越差。

(3)综合法,综合常用法和回溯法的检索方式。如先用一般检索途径,再利用原始文献后的参考文献作为检索入口,分阶段交替使用两种方法。 第一节 信息检索语言与检索途径 一、定义

? 信息检索语言(retrieval language)又称为情报语言、情报存储和检索语言、信息组织语言,是

用来描述文献特征,表达主题提问的一种专门的人工语言,是由给定领域中的一切可用来描述信息内容和信息需求的词汇或符号,及其使用规则构成的供标引和检索的工具。是沟通信息存储与检索两个过程,标引人员与检索人员的桥梁。

? 信息检索语言是检索系统的语言基础,主要作用是:表达描述信息内容和信息需求;用于

信息的组织和整序;用于对检索系统中索引标识或提问标识的规范和控制。

? 不同的检索系统由于所覆盖的学科领域不同,包含信息资源类型不同,通常采用不同的信息检索

语言(例如EI与CNKI所使用的分类语言);

? 同一个检索系统往往也同时采用多种检索语言,以形成多种检索途径和角度。(例如:中国知网

期刊文献与专利文献所使用的分类语言)

二、分类

1、根据结构原理划分 (1)分类语言 (2)主题语言

(3)分类主题一体化语言 (4)代码语言 (5)引文语言 (1)分类语言

? 分类语言主要可分为等级体系型分类语言和分面组配型分类语言两种。

? ①等级体系型分类语言:是一种最传统的分类语言,是一个直接体现知识分类和概念逻辑的标识

系统。所有类目按照学科专业的等级、层次划分,一一列举,构成一个由总体到个体,由一般到特殊,由全部到局部的分类标识体系。这种结构符合人们通常的研究思维习惯,能保证较高的查全率。

目前我国广泛采用《中国图书馆分类法》(简称《中图法》)进行分类,该分类法由5大部类、22个大类组成

? 2)主题语言:以主题词来表达信息主题概念的语言,它按事物对文献信息进行浓缩、描述和整

序,借用自然语言的语词,作为文献信息和检索提问的内容标示。 ? 特点:按特定的事物集中文献信息,有较强的直接性。

? 构成原理:利用自然语言中的名词术语,经过一定程度的规范化处理,作为表达文献和提问内

容的主题词;利用参照系统中的各种手段,显示主题标识之间的各种关系,并以此把主题词表中的众多主题词相互联系起来,构成多维的主题词体系;利用主题词的字顺序列,按事物的名称来排列和检索文献信息。

①标题语言:采用规范化了的自然语言,即经过标准化处理的名词术语作为标识,来表达文献所论述或涉及的事物--主题,并将全部标识按字顺排列。

? 例:一篇文章用“微型计算机”这个术语来叙述它的研究对象,另一篇文章用“微型电脑”这个术语

来叙述它的研究对象,第三篇文章用“微机”这个术语来叙述,虽然都表示同一概念,这时就不能直接用“微型电脑”或“微机”来作标题词了,这三篇文章都必须用“微型计算机”作标题词(根据词表决定)。因为这三个术语是等同概念,如果同时用三个术语来标引,便会导致文献被分散。当然,读者若从“微型电脑”或“微机”入手检索时,都可以在标题词表中看到“见:微型计算机”的参照指示。

②关键词语言

关键词语言(keyword):以关键词(从文献题名或文摘以及正文中抽取的,能够表达文献主题并具有实质意义的未经规范化处理的自然语言词汇)作为文献内容标识和检索依据的一种信息检索语言。

关键词与其他主题语言的区别在于:前者是没有经过规范处理的自然语言。属于非受控语言。后者是经过规范处理的自然语言,属于受控语言。

③元词语言:以元词(从文献中抽选出来的,从字面上不可分割的表达最基本的概念单元的词汇)作为主题标识,通过字面组配来表达主题概念的

? 例:“物理”、“贸易”就是元词

? “知识组织”就不是元词,而要拆分为:知识、组织

? 元词语言创立了检索时进行组配的后组方式 ,可以用较少的词汇表达几乎无限的主题,但由于

元词不象标题词那样采用词组或说明语搭配词语之间的组合关系,其仅为字面组配,因而利用元词检索时错搭配、假联系的现象在所难免,已被淘汰。

④叙词语言(descriptor):以表达文献主题内容的概念单元为基础,经过规范化处理,可以进行逻辑组配的一种主题语言,提高标引的专指性和检索的灵活性。

? 叙词是经过规范化处理的以基本概念为基础的表达文献信息和检索提问的主题的词和词组。叙词

语言对元词语言的单词组配原理,标题语言的词汇规范和参照系统,以及分类语言知识分类的方法进行了继承和发展。

? 叙词语言的基本原理是概念组配,与元词语言的字面组配有本质区别。前者是词语概念意义的拆

分和组合,其本质是语义层次上的组合,后者是词语字面的拆分和组合,其本质是字符层次上的组合。

? 如:“儿童病理学”用元词为“儿童”和“病理学”

? 叙词为“儿童”“消化系统病理”、“内分泌系统病理”、 “呼吸系统病理学 ? 叙词的组配,按照叙词意义之间的语义关系,存在如下几种类型: ? a.交叉组配:指两个或两个以上语义交叉的叙词之间的组配。 ? 例:“人工林”和“防护林”的组配表达“人工防护林”的主题

? b.限定组配:指将一个表示事物的叙词与表示事物属性、部分或方面的叙词进行组配。例如:“电

子计算机”和“存取速度”的组配表示“电子计算机的存取速度”

? c.组合组配:又叫并列组配,是指除上述两类叙词组配之外,任何两个或两个以上的叙词之间的

组配。例如:“计算机”、“应用”和“图书馆”的组配表达“计算机在图书馆中的应用” ? 叙词语言的特点是:

? 规范性强,叙词语言事先进行规范化处理,列于叙词表中,标引和检索都从叙词表中选词,保证

了标引和检索的一致性。

? 利用叙词的组配,可使用有限的叙词表达各种复杂的主题,尤其是最新出现的主题。

? 叙词语言从单元概念出发提示文献内容,有助于准确、全面地揭示文献的主题,提高标引深度和

专指度。

? 检索入口多,能满足多元检索的需要,检索范围改变也相当灵活,大提高了检全率。 ? 同时适用于手工检索和计算机检索系统。

? 叙词语言是我国目前使用最广泛的受控主题语言。 2、根据组配方式划分

? (1)先组式语言:表达信息主题概念的标识已事先用固定关系组配好,并编制在词表中,标引

人员在标引信息或用户在检索信息时,必须根据词表选用组配好的主题进行操作。如:体系分类法和标题词法。

? (2)后组式语言:表达信息主题概念的标识在编制词表时不曾预先规定组配关系。当标引信息

时,只能根据词表中选用单独的主题词来描述信息的主题概念;检索时,用户可以根据需要将不同的检索词组配在一起,用来表达复杂的主题概念。如:元词、叙词。

3、根据规范化程度划分

? (1)规范化语言 ? (2)自然语言

? (3)两者结合的发展趋势 4、根据描述的文献特征分

? (1)描述文献内容特征的检索语言

? 内容特征是指表征文献实质意义的特征,如主题词、关键词、分类号、内容摘要等。 ? 主题语言、分类语言、分类主题一体化语言 ? (2)描述文献外部特征的检索语言

外部特征是指文献上显而易见的,一般情况下不反映文献实质意义的那些特征,如书名(题名、篇名)、人名、各种符号标识(专利号、标准号、报告号等)、机构名、文献出处等。 代码语言、引文语言

三、检索途径及其选择

1、内容特征检索途径:内容特征是指表征文献实质意义的特征,如主题词、关键词、分类号、内容摘要等。

? (1)分类途径 ? (2)主题途径 ? (3)分类主题途径

2、外部特征检索途径:外部特征是指文献上显而易见的,一般情况下不反映文献实质意义的那些特征,如书名(题名、篇名)、人名、各种符号标识(专利号、标准号、报告号等)、机构名、文献出处等

? (1)责任者途径 ? (2)题名途径 ? (3)序号途径 ? (4)引文途径

第二节 事实数据信息的检索工具

一、字典、词典(辞典):字典是为字词提供音韵、意思解释、例句、用法等等的工具书。在西方,是没有字典的概念,全是中国独有的。 字典收字为主,亦会收词。词典或辞典收词为主,也会收字。为了配合社会发展需求,词典收词数量激增并发展出不同对象、不同行业及不同用途的词典。 例:《新华字典》、《现代汉语词典》《牛津英语词典》、《建筑大辞典》

西文词典一般都是按本国文字的字母顺序排列,查询时按字顺查找;日文字典大多按五十音顺排列,查找时按音顺查找;中文字典排列方法较多,有部首法、笔画笔顺法、汉语拼音法、四角号码法等。

二、百科全书:常被誉为“没有围墙的大学”

概要记述人类一切知识门类或某一知识门类的工具书 。百科全书在规模和内容上均超过其他类型的工具书,它集各类。百科全书的主要作用是供人们查检必要的知识和事实资料,其完备性在于它几乎包容了各种工具书的成分,囊括了各方面的知识。 百科全书可按收录范围分为综合性百科全书(如:《中国百科全书》、专业性百科全书(如:《化工百科全书》;还可按编辑规模分为:大百科全书(20卷以上)、小百科全书(10卷以下)、百科词典(单卷)。

编排方式有三种:按字顺编排、按分类编排和分类与字顺相结合编排。目前,按字顺编排条目已成为百科全书编排方式的主流,也有采用分类与字顺相结合的形式编排的。

百科全书一般都有各种索引,其中最主要的是主题索引,就是把条目的条头、释文的隐含主题和参见主题按字顺排列以供检索。

世界ABC三大百科全书:美国百科全书、不列颠百科全书、科利尔百科全书 美国百科全书》名为Encyclopedia Americana,简称EA,

《不列颠百科全书(Encyclopedia Britannica)》(又称《大英百科全书》,简称EB) 科利尔百科全书(Collier' Encyclopedia)简称EC

三、手册:

顾名思义是放置于手边可以方便地参考的一种工具书。是汇集某一学科或某一主题等需要经常查考的资料,供读者随时翻检的工具书。手册就是各行各业、不同地域、不同职业的人在进行某种行为时所需要的一种了解相关信息的材料。手册主要为人们提供某一学科或某一方面的基本知识,方便日常生活或学习。手册中所收的知识偏重于介绍基本情况和提供基本材料,如各种公式、规章、条例、事实、数据、图表等等。通常按类进行编排,便于查找。 如:《图书情报工作手册》、《数学手册》

四、年鉴:是一种按年编纂出版的参考工具书。以全面、系统、准确地记述上年度事物运动、发展状况为主要内容的资料性工具书。汇辑一年内的重要时事、文献和统计资料,按年度连续出版。年鉴内容丰富、新颖,叙述简明,编排得当,具有可靠性、统计性、新颖性、连续性、知识性、检索性等特点。其主要作用是向人们提供一年内全面、真实、系统的事实资料,便于了解事物现状和研究发展趋势。它所收集的材料主要来源于当年的政府公报、国家重要报刊的报道和统计部门的数据。因此,年鉴有较大的总结、统计意义和比较系统的连续参考作用。通过年鉴,可查找近年来国际国内时事,各部门各行业的进展及各学科各专业的研究动态;可查找政府颁布的重要法规文献和逐年可比的统计数据资料。

年鉴大体可分为综合性年鉴和专业性年鉴两大类,前者如百科年鉴、统计年鉴等;后者如经济年鉴、历史年鉴、文艺年鉴、出版年鉴等。

五、名录:名录是提供有关专名(人名、地名和机构名录等)简要工具书,内容涉及比较广泛。人们可