信息检索复习(名词解释) 下载本文

1、同句检索是要求参加检索运算的两个词必须在同一自然句中出现,其先后顺序不受限制。

2、查全率:是指检出的相关文献量与检索系统中相关文献总量的比率,是衡量信息检索系统检出相关文献能力的尺度,可用下面的公式表示:

查全率=(检出相关文献量/系统中相关文献总量)*100%

3、查准率:是指检出的相关文献量与检出文献总量的比率,是衡量信息检索系统精确度的尺度,可用以下公式表示:

查准率=(检出相关文献量/检出文献总量)*100%

4、漏检率:是指漏检相关文献量与在检索系统中相关文献总量的比率,是衡量信息检索系统漏检文献的尺度,可用下面的公式表示:

漏检率=(漏检相关文献量/系统中相关文献总量)*100%

5、跨库检索:可同时检索多个平台上的多种资源,输入一个检索式,便可以看到多个数据库的查询结果。 6、单库检索:在选定的单一数据库中进行检索。

7、经典论文优先:被引用数比较多,或者文章发表在档次比较高的杂志上等经典的、有价值的文献优先排在前面。

8、相关度优先:和查询的条件内容最相关的文献优先排在前面。 9、最新论文优先:发表时间比较新的文献优先排在前面。 10、精确匹配:检索结果中包含与检索词完全相同的词语 11、模糊匹配:检索结果包含检索词或检索词中的词素

12、顺查法是根据有关课题的起始年代利用选定的检索工具由远及近的进行逐年查找。 13、倒查法从最新时间查找起,直到满足检索要求为止。

14、抽查法是针对有关学科的发展特点,抽查某些特定时期的文献信息。 15、二次检索是指在前一次检索结果的范围内,继续进行检索。

16、定题检索 SDI (selective dissemination of information)查找有关特定主题最新信息的检索。 17、回溯检索 RS (retrospective search)查找一段时期内有关特定主题信息的检索。

数据库的基本复习:

数据收录文献范围,有哪些数据库?

二、信息检索的原因

1、信息检索是获取知识的途径 2、信息检索是科学研究的向导 3、信息检索是终身教育的基础 信息检索语言与检索途径

(1)分类语言(2)主题语言(3)分类主题一体化语言(4)代码语言(5)引文语言 1、内容特征检索途径

(1)分类途径(2)主题途径(3)分类主题途径 2、外部特征检索途径

(1)责任者途径(2)题名途径(3)序号途径(4)引文途径 第二节 事实数据信息的检索工具

一、字典、词典(辞典) 二、百科全书 三、手册 四、年鉴 五、名录 第三节 文献检索工具简介

一、目录型检索工具;题录型检索工具;文摘型检索工具 第四节 索引介绍

著者索引、 主题索引(关键词索引)、 分类索引、 题名索引、其他索引

一、《 Ei Village数据库》 Ei Compendex Web(EI 网络版)

INSPEC是《科学文摘》(Science Abstracts,简称SA)的电子版,

专利 (Patents): USPTO Patents 为美国专利和商标局的全文专利数据库。 Techstreet标准 (Techstreet Standards)世界上最大的工业标准集之一

Scirus是迄今为止因特网上最全面的科技专用搜索引擎

二、ISI Web of Knowledge平台信息资源组成

Web of Science (WOS) INSPEC

MEDLINE Derwent Innovations Index

3个引文数据库 2 个会议论文引文数据库 2个化学数Science Citation Index Expanded Social Science Citation Index Arts & Humanities Citation Index

ISTP(Index to Scientific & Technical Proceedings

ISSHP(Index to Social Science & Humanities Proceedings

Index Chemicus(IC)

Current Chemical Reactions (CCR)

据库ISI Chemistry

什么叫信息

在西方英文中 information一词有情报、资料、消息、报道之意,我国大陆曾译为情报或信息,后经国家有关部门核准,统一译成“信息”。在我国台湾、香港地区,该词被译为“资讯”。

教材定义:信息是被反映物的属性再现,信息的属性在于表现它物。也就是说,信息不是事物的本身,而是由事物发出的消息、情报、指令、数据、信号中所包含的内容,是对客观世界中各种事物发出的特征、变化及其相互联系的最新反映。一切事物包括自然界和人类社会都会产生信息。一个完整的信息过程,包括信息的传递、接收、贮存、加工和利用。 信息具有以下特征: (1)普遍性

(2)时效性:信息在一定的时间内是有效的信息,在此时间之外就是无效信息。而且任何信息从信源传播到信宿都需要经过一定的时间,都有其时滞性。

(3)传递性

(4)可转换性:信息是可以由一种形态转换成另一种形态。信息一般有4种形态:数据、文本、声音、图像。这4种形态可以相互转化,例如,照片被传送到计算机,就把图像转化成了数字。 (5)可再生性

(6)共享性:同一信源可以供给多个信宿,因此信息是可以共享的 ,且不因共享而减少

(7)可识别性 :信息是可以识别的,识别又可分为直接认别和间接识别,直接认别是指通过感官的识别,间接识别是指通过各种测试手段的识别。不同的信息源有不同的识别方法。 (8)可存储性:信息是可以通过各种方法存储的。

二、信息检索 1、定义

(1)从通信的角度认识信息检索:强调信息发布者和接受者之间的通信,是两者关系的变化和延伸。 (2)从信息检索过程的角度认识信息检索,这种观点认为,信息检索就是查找出含有用户所需信息的文献的过程。

(3)从信息处理的角度认识信息检索:信息检索的基本问题,是如何处理信息和信息的结构。这种认识偏重于信息管理领域,认为信息检索不仅限于传统文献的范围,图像、声音、数据等也都能反映信息,并把信息检索视为计算机科学技术的一个分支。 (4)从信息获取方式来认识信息检索分为:

直接检索:直接从信息源中获取信息,获取方式直接,但很难广、快、精、准地查到所需的全部信息 (5)从实际检索工作的角度出发,对信息检索这样表达:

? 广义:将信息按一定的方式组织和存储起来,并根据用户需要找出相关文献的过程。其中包括存

与取两个环节,存即信息存储,是对信息进行收集、标引、描述、及组织,并对其特征化表达集加以整序,形成信息检索工具或检索系统的过程。取即信息查找,是通过某种查询机制从检索工具或检索系统中查找出用户所需的特定信息或获取其线索的过程。 ? 狭义:仅仅指信息查找的过程。即取的环节。

间接检索:通过信息检索工具或检查系统获取所需的信息。(本课程主要学习)克服了直接检索的缺点,在掌握一定检索技巧前提下可以较全面、准确、快速地检索到相关信息。 信息存储与检索流程图 信息源 选择信息 信 息概念分析 存 储 词汇替换 系初步检索结果集 信息数据库 统检 索检索词与标引词匹配运 语获取所需信息 相关性判断与反馈 言算 构造检索式 信息 检 词汇替换 索 概念分析 信息需求

信息检索( information retrieval):信息用户为处理解决各种问题,运用检索工具或数据库等情况集合,从中查找、识别、获取相关的事实、数据、知识的活动及过程。

2检索语言又称为情报语言、情报存储和检索语言、信息组织语言,是信息存储与检索过程中用于描述信息特征和表达用户信息提问的一种人工语言,是实现人与检索系统对话的交流语言。

检索语言可划分为:分类语言、主题语言、分类主题语言、代码语言、引文语言等。 3检索工具

是用来报道、存储和查找信息的工具,通常是指以书本或卡片形式呈现、采用手工方式进行的设施,如检索期刊、书目索引和卡片目录等。 检索工具必须具备的条件:

(1)对所收录的信息资料的各种特征(包括外部特征和内容特征)要有详细的描述。

(2)每条描述记录都要标明可供检索用的标识,以便按某种方式将这些描述记录组织起来,为编织各种索引做准备。

(3)全部描述记录要科学地组织成一个有机的整体,使这些记录存放有序,方便存取。 (4)具有多种必要的检索手段以满足用户从多种角度查找信息的要求。 4、检索系统:

由一定的检索设备(如探针、选卡机、电子计算机等)和加工整理并存储在相应的载体(如穿孔卡片、磁带、磁盘等)上面的文档或数据库及其他必要设备共同构成的,具有存储和检索功能的信息服务设施。它往往由多个子系统或模块构成,需借助专门设备进行检索。

穿孔卡片检索系统、缩微品检索系统、光盘检索系统、计算机检索系统、网络信息检索系统

三、信息检索的发展

? 1、第一阶段:完全手工检索阶段

? 2、第二阶段:半机械检索系统-机电、光电检索系统的发展阶段 ? 3、第三阶段:计算机检索系统的发展阶段

? 4、第四阶段:基于Internet 的网络化检索系统阶段

二、 信息资源的分类:

1、信息源可分为自然信息源和社会信息源。

自然信息源广泛存在于自然界中,是物质运动和生物生存活动的结果。如山川、土地、气候、能源、动物、植物、微生物等,它们是人类生存最基本的自然环境和物质条件,是自然信息的发生源。社会信息源则存在于人类活动中,是社会的直接产物。无论是自然信息源还是社会信息源,其开发利用均在社会中进行,社会信息源是信息源的主体。

? 2、按信息资源所依附的载体划分

? (1)体裁信息资源:以人体为载体并能为他人识别的信息资源。按其表述方式又可分为口语信息

源和体语信息源。口语信息源是人类以口头方式表述但未被记录下来的口语信息,如:谈话、讲课、讲演、讨论、唱歌等。体语信息源是以人的体态为载体表述出来的信息资源,如:表情、手势、姿态等方式表述的体语信息。

? (2)实物信息资源:以实物为载体的信息资源。又分为自然实物信息源与人工实物信息源。如:

化石、产品、样品等。

? (3)文献信息资源:以文字、图形、符号、声频、视频等发生记录在各种载体上的知识和信息资

源。

? (4)网络信息资源:以网络为纽带连接起来的信息资源和以网络为主要交流、传递、存储的手段

与形式的信息资源。