《信息组织》知识点汇总
第一章 第一节、信息组织的必要性
1. 信息组织 :根据信息检索的需要,以文本及各种类型的信息资源为对象,通过对其内容特征等的分析、选择、
标引、处理,使其有序化并以适当方式加以提供的活动。
2. 信息组织的目的:是根据使用需要建立起信息资源收藏系统和检索工具,以便信息资源开发和利用。作为一种为
了检索利用的需要对信息资源进行有序化组织的活动,它是与信息检索活动密切联系的。 3. 信息检索:根据检索需要,从检索系统中检出相应信息资源的过程。
3.信息资源:通常指一切以记录形式存在的信息载体,只是比较而言,更侧重于对新型媒体形式的强调。(可以是图书、期刊、报纸、论文,也可以是网络上的电子资源) 4. 信息组织与信息检索有什么关系?
(1)信息组织是信息检索的基础和前提,只有对信息资源进行处理和有序化信息系统之后,才能准确有效查找相关信息资源;
(2)信息检索则是信息组织出发点与归宿,用户的检索需要是组织信息的主要依据。
第二节、信息组织的形式和检索途径 1.文献组织的基本排列方式:
一般有两种基本排列方式,其一为:(固定排列法) 和(按一定意义的次序排列。) (固定排列法,如档案、博物馆的收藏、光盘、录音带、缩微品。 按一定意义的次序排列,如图书、期刊等 )
2. 按照检索工具的对象和特点,可以分为(文献目录)、(索引)、(机读数据库)、(网络搜索引擎)四种类型。 3. 按照标识特征,检索工具可以分哪两种基本类型?
(1)以信息资源的外部特征(形式特征)为检索依据,提供以信息资源形式特征为标识检索途径。常见的信息资源形式特征有责任者名(即作者和与资源形成相关的人或机构,如译者、改编者、修订者等)、题名、机构名、标准书号、专利号、文献登录号(或顺序号)等。
(2)以信息资源的主题内容特征为检索依据,提供从资源内容进行检索的途径,主要有(分类法)、(主题法)。 4.按照系统中所用的标识是否进行控制,检索工具可以分为(受控检索系统)与(自然语言检索系统)。 5.按照系统中标识组配的特点,检索系统可以分为(先组式和后组式两种)。
6.检索工具还可以按照采用的形式,分为卡片式、书本式、缩微式、电子方式等。
第三节.信息组织的处理方式和研究内容
1. 检索语言:一种由表达信息资源主题概念及其相互关系的词汇及规则组成的人工语言系统,也称情报检索语言。 2.知识组织系统:知识组织系统通常指经过组织的知识结构表达的工具,它试图包含组织信息和促进知识管理的各种类型的词表,其范围从传统的地名表、同义表,到新型的知识组织工具。 3.信息处理的基本做法:(领会)
1)描述信息资源。以便识别与确认它,主要方法是著录、编写题录和资源形式特征的描述; 2)浓缩信息资源内容。主要方法是编写内容提要或文摘,供用户了解、选择和判断信息资源;
3)提供检索点。主要方法是确定特定资源的标索特征(或标识)与可检信息。信息资源的检索点有代表其内容特征和形式特征的各种标识,如题名、责任者、分类号、主题词或关键词等 4.信息组织活动的内容:(领会) 信息组织活动包括两个基本方面:
(1)信息组织的操作。指根据信息资源的内容和特征,对信息资源进行描述、标引、并将其组织进相应系统的过程。 (2)信息资源的组织规范。这是根据信息组织的需要,按照信息资源的特点预先确定的规则和方法系统,是进行信息组织操作的依据。
第二章 信息组织原理 第一节 对信息组织的要求
1、信息组织的主要目的是为了有效地检索和利用。一般认为下述因素是一个信息组织系统必须考虑的重要因素:(1)检全率(2)检准率(3)检索速度和系统的及时性(4)系统的易用性(5)检索的成本效益
1
1. 检全率:检全率亦称查全率、命中率,是指一次检索中检出的与提问相关的信息资源数量占系统中所有与提问相关的信息资源数量的比例,
检全率=检出的相关信息资源量/系统中相关信息资源总量子数×100%
2. 检准率;检准率亦称查准率、相关率,是指检出的相关信息资源的数量,占检出的全部信息资源数量的比例。
检准率=检出的相关信息资源数/检出的信息资源总数×100% 3. 简述对信息组织的要求。(领会)
(3)检索速度和系统的及时性。检索速度是指用户从实施检索到得到结果化费的时间,它是衡量系统检索速度与使用效果的重要参数。它与系统响应检索的能力、检全率、检准率、资源组织的全理性等因素有关。系统的及时性是指检索工具处理信息和提供信息所用时间较短,能快速纳入、处理和提供信息。
(4)系统易用性。是指标引人员使用检索系统描述、标引资源是否方便和易用;用户使用系统的简易性、方便性与获取信息的容易程度。系统易用性是系统性能的主要因素,决定系统设计改进和发展方向。
(5)检索的成本效益。是指检索系统的成本和效益之比。检索成本包括系统设备费、标引处理费、检索运行费;检索效益指检索系统创造经济效益和社会效益。好的检索系统是低成本高效益的系统。
4描述控制:描述记录一般概要记录下一资源各种基本特征的数据,可以以浓缩的方式集中反映资源的特征和内容。 (1)描述项目的控制:根据资源特点选择具有组织和揭示价值的资源特征作为描述的项目。描述项目应该充分反映信息资源的基本特征和数据。
(2)描述文字的控制:规定描述信息资源时所采用的文字,应当准确、精炼、统一、规范。
(3)描述级别的控制:规定对信息资源进行描述的详略程度。应根据不同的使用对象和需求、信息资源的特点、设备条件加以确定。
(4)描述格式的控制:包括各种描述项目的次序、描述的标识、描述项目的表达形式等。对此做统一规定的目的是方便不同类型信息系统之间的交流。
第二节 信息组织中的控制与规范 1. 句法控制的方法主要有哪些?
句法控制是根据信息资源标引和检索的需要,按照一定的组词造句规则,对检索词的组合方式做出的规定。常见的句法措施有确定引用次序、使用辅助符号和句式转换。
(1)引用次序,是指复合主题标引和检索时,各个主题因素的组合次序。在分类法中引用次序是指类目划分标准使用的先后次序或各主题分面在组配时的先后次序;在主题法中是指字顺检索系统中主标题与各级子标题组合的次序。 (2)辅助符号,是揭示主题概念之间的关系意义、进行检索操作的符号。常见的有:
关系符号:是一种用于揭示词语组配中形成的关系类型的符号,通过对组配中关系类型的表达,对标引词进行控制,说明组配性质并有一定的排序功能。
联系符号:是一种揭示同一文献主题之间联系强度的符号,可以防止主题词之间出现误组配。
职能符号:是一种表示主题标识在组配中的句法职能的符号,可以明确一个标识串(句子)中各主题因素的施动-受动作用,明确法含义,提高检准率。
(3)句式转换,是为了使检索句子各个有意义的词素能成为检索入口字,通过对语句中词语位置的变动来增加检索点。常见的有:
轮排转换,将检索语句中每个有意义的词依次排在检索入口,其他词在保持相对位置的情况下移动。 链式转换,以逐次折卸句子链环的方法,将每个有检索意义的的词语依次排在检索入口。
分析转换,在一个检索词句中,每次抽取少量的词组配成标题,依次把每个有检索意义的词排在检索位置上。 2. 词汇控制的范围是什么? (领会)
词汇控制:即根据标引和检索的需要,对自然语言中的的词汇进行优选、规范、揭示相关性的过程。 (2)词汇控制的主要措施包括:
同义控制:是对字面形式不同而含义相同的词进行控制,使检索系统中一个概念只有一个词语表达。包括对同义词、准同义词及部分专指词与泛指词进行的控制。同义控制常用的方法是在几个词中选取一个作为规范词,在规范词和非规范词之间建立用代参照,便于用户从非规范词找到规范词。同义控制的作用是可以克服一义多词的自然语言现象,把相同内容或特征的信息资源集中在一起。如:自行车 代 脚踏车 单车
词义控制:是对同形异义词和语义含糊的词进行控制,使词义明确,一个词语只表示一个概念,以控制一词多义现象。词义控制常用的方法是在词后加限义词,在词下增加含义注释和范围注释。 疲劳(生理);疲劳(心理)
2
词间关系控制:是揭示词汇之间的等级、等同、相关关系,使之成为语义相关的系统。在主题法中词间关系控制采用设置参照、倒置标题、主标题-副标题以及编制词汇索引系统,如词族索引、范畴索引、轮排索引等。分类语言主要通过类目体系显示词语间的从属、并列、相关关系,用类目参照显示语词概念的横向联系。 3.相关因素控制的主要内容(领会)
常用的相关控制包括引用关系、链接关系和用户需求等。
①引用关系:这是科学文献中通过相互引用建立的一种关系,通过它,可以根据相互引证关系,提示文献之间内容上的联系。
②链接关系:是基于超文本链接技术建立的对象之间的联系。 ③用户需求:信息组织是为用户服务的,因此用户的检索需求是信息组织的目标和判断信息组织使用效果的重要指标。
第三节 规范控制的依据 1. 概念之间的关系类型。
①同一关系:“自行车” 与 “脚踏车”、“电子计算机” 与 “电脑”。 ②包含关系:“哺乳动物” 与 “熊猫”、“图书馆” 与 “公共图书馆”。 ③交叉关系:“妇女” 与 “科学家”、“中等教育” 与 “业余教育”。 ④矛盾关系: “核国家” 与 “非核国家”。两者之和等于上位概念“国家”。 “脊椎动物” 与 “无脊椎动物”
⑤反对关系: 中医学 与 西医学 。两者之和小于上位概念“医学”。
“无产阶级” 与“资产阶级”、“有机肥料”与“无机肥料”
⑥并列关系:“人造棉”与 “锦纶”、“维纶”、“腈纶”
2. 知识分类:根据知识组织的不同对象和层次,现有的知识组织体系包括:科学分类体系、学科分类体系、事物分
类体系、行业分类体系等。(见P24-25页表) 3. 阐述文献保证原则和用户保证原则。
文献保证原则:亦称文献根据,指信息资源组织应根据信息资源类型、数量等因素进行相应控制。信息检索系统处理的对象是各种类型信息资源,因此要有效进行信息描述及主题内容的组织和提示,离不开对信息资源的内容、特征以及分布状况等的了解。信息资源的数量、特点,往往是影响检索语言详略程序、确定类目或标识设置的重要依据。 用户保证原则:指根据用户需要进行描述控制和词汇控制。检索系统是为用户服务的,各种控制和组织措施如不符合用户的检索要求和使用习惯,必然会影响其使用效果。因此对信息检索系统在进行规范控制时,应当有意识地从用户的使用需要出发。
4. 信息资源组织对分类的借鉴。
信息资源组织以知识分类为基础,可以较好的揭示各个领域知识之间的关系和规律性,及时反映各知识领域的进展。可以包括多种层次和方面,如:
①作为信息资源分类的基础,用于建立合理的信息组织的结构。 ②作为基础类目门类的设置依据。 ③作为主题系统中范畴处理的依据。 ④作为专门领域下具体类目的设置依据。
⑤作为类目之间关系、词间关系处理的依据等。
第三章 信息描述 第一节、信息描述的含义
1. 信息描述的信含义:亦称信息资源描述,是指根据信息组织和检索的需要,对信息资源的主题内容、形式特征、
物质形态等进行分析、选择、记录的活动。
2. 元数据:是关于数据的数据,或关于数据的结构化的数据。其作用主要包括:
①识别:确认并对要进行组织的信息资源进行个别化描述,使用户能识别该组织的资源对象。 ②定位:提供信息资源位置的信息,以便供用户访问时使用。
③检索,通过在描述数据中提供检索点,方便用户对资源的检索和利用。
④选择,通过记录信息资源的各种特征,供用户对信息资源的使用价值进行判断,并作出选择。 3. 信息描述的主要标准:
① ISBD是《国际标准书目著录》的英文缩写,由国际图联(IFLA)1969年制定的供各类信息资源描述用的国
3
际标准。
②《文献著录总则》我国于1983年7月发表的全国文献著录总则。
③DC:是都柏林元素集的简称,1995年3月在美国小镇都柏林创建的元数据描述方法,是对网络资源描述最著名、最有代表性的标准。
第二节 信息资源描述项目、标识和描述级次
1. 信息描述项目:亦称著录项目,是用以揭示文献内容和特征的记录事项。 2. 基本描述项目的内容:
我国国家标准《文献著录总则》规定基本描述项目分为9个大项目,依次为:题名和责任者项目;版本项;文献特殊细节项;出版发行项;载体形式项;丛编项;附注项;文献标准编号及有关记载项;提要项。 《都柏林核心集》分15个大项:
题名;创作者;主题;描述;出版者;参与者;日期;资源类型;格式;资源标识;来源;语言;关联;覆盖范围;权限管理。
3. 掌握文献著录格式,描述各项目内容:如下图: 图:文献著录格式
正题名:说明题名文字/第一责任者;其他责任者.—版次及其他版本形式/与本版有关的责任者.—出版发行地:出版者或发行者,出版发行日期(印制地:印刷者,印刷日期) 页数或卷(册)数:图;尺寸或开本+附件.—(丛书名/编者,国际标准连续出版物编号;丛编编号.附属丛编) 附注 国际标准书号(装订):价格 提要 Ⅰ.书名 Ⅱ. 责任者 Ⅲ.主题 Ⅳ.分类号 4. 著录详略级次(参见P41图3-3,图3-4,图3-5)
简要级次:仅记录主要项目的级次,一般为小型文献单位; 基本级次:记录主要项目的同时,记录部分选择项目。最常见
详细级次:记录主要项目和全部选择项目上。适合国家书或集中编目使用。
描述信息源:又称著录信息源、著录根据,指进行信息资源描述时描述信息的来源和出处。
第三节 检索点和规范文档
1. 检索点是指检索信息资源使用的题名、责任者、分类号、主题词等供检索使用的各种数据。 2. 标目的含义及作用。
标目即手检系统中的检索点,是记录中用来作为排检依据的资特征。 标目有两个作用:
① 作为排检的依据,确定一款目在检索系统中的位置,供检索查找。 ② 决定款目的性质,供组织相应检索工具使用。 3. 参照法的含义和类型。
参照法是指引用户从检索工具中的一个标目或款目去查找另一个标目或款目的方法,其作用是指引检索系统中检索对象之间的联系,说明检索系统的编制和使用方法。 分为:
①单纯参照,又称直接参照,从不用作标目的标识去查找用作标目的标识。
②相关参照,又称兼互参照,从一个使用的标目去参考另一条或几条相关标目的参考。 ③一般参照,又称普通参照,是提供关于一定编目事项的说明,介绍用户使用系统的方法。
4
4. 名称规范文档:是一种对描述记录中的名称标目进行规范控制的工具。其处理的范围,包括人名、机构团体名、著作题名等。 (P45)
5. 题名检索点的选择方法:(P43)
① 文献描述中著录的正题名一般直接选作标目。 ② 适当选择副题名和附注项中的合辑题名作标目。
③ 并列题名在我国中文手工检索工具中一般不选作标目。
④ 一文献的题名检索点一般不宜超过两个,但题名分析款目不受此限制,可根据需要设置。 6. 个人责任者检索点的选择方法: ①描述记录中第一责任者、两人合著中的第二个责任者名称均可以作标目。但3人以上合著时只以第一责任者名称作标目。
②如可能,文献责任者中记录的其他责任方式的责任者亦可选择作为标目。
③附注项著录的责任者,以及其他有关责任者,一般不作标目,但在必要时,著名学者或著名著作的责任者也可作标目。
④以书名命名的编写组不作检索点、临时性写作团体如无检索价值,也不做检索点。
⑤丛书综合款目的责任者选择与单书相同;分散著录时,单书作者可选为第一责任者。如果编者为出版社则不编制责任者综合款目。当分析出来的材料的责任者与原书责任者不同时,应选其为分析款目的责任者检索点。
⑥ 一文献责任者检索点的数量一般不超过4个为宜。
7.规范文档:是信息组织的一种需要,它是对元数据记录的标目进行控制、跟踪、维护工具。包括名称规范档、主题规范档等。 其中,名称规范控制是根据确定标目的需要,规定统一使用名称的活动,范围包括人名、团体名、题名等。
规范控制的作用是:
(1)有利于以统一的方式 加以记录。 (2)以规范、通用的形式加以记录。 (3)方便标引和检索。
(4)有助于实现国际书目共享。
第四节 计算机编码 1.MARC-Machine readable cataloging,机读编目 格式是根据文献特点和文献机构之间信息交换的需要建立的标准化的计算机可读形式。
MARC中一个编目记录的结构(四个部分)
2.分隔符:(P52页)
分隔符用于分隔不同数据集合,分为字段分隔符和记录分隔符两种。字段分隔符以“*”表示,用于标志字段结尾。记录分隔符用于标志记录的结束,以“#”表示。 3.计算机编码的作用。(P50) (1)用以显示。 (2)提供检索点。
(3)可以对数据进行一体化处理,促进资源共享。
5
第四章 信息描述工作 第一节 信息描述工作概述
1.信息描述工作:依据描述规则,对信息资源的特征进行分析、选择、记录的操作过程。 2. 元数据在检索系统中的作用:
? 向用户提供信息资源的目录学信息,供使用者确认信息资源,进行选择
? 元数据的各种特征也是进行组织和检索的依据,是建立检索工具的基础和前提 3. 信息描述工作的方式(类型) 分类依据
工作方式(类型)
描述的资源对象 文献编目、档案编目、博物馆藏品编目、网络资源编目
操作的设备条件 手工编目、机读编目、联机编目
处理方式 原始编目、复制编目
编目过程的组织形式 集中编目、共享编目
4.在版编目:是集中编目的形式之一,是指在文献出版过程中进行编目,使编目数据得以与文献一起提供,方便文献机构使用。
5. 大规模的信息资源描述网络——书目机构(Bibliographic Utility)的出现。这些机构将联机环境、网络环境与信息描述的形式结合,同时结合采用集中编目和协作编目的方式,为有关文献单位提供书目资源和服务。
? OCLC(Online Computer Library Center),为全美国和国外进行书目服务的机构
? RLIN(Research Library Information Network),该网络开始于1967年,是一个为美国研究图书馆服务的系统 ? UTLAS(University of Toronto Library Automation System),该系统最早为多伦多大学图书馆的自动化系统,目
前已扩大成兼为其他图书馆服务的系统 ? 中国高等教育文献保障体系(CALIS),管理中心设置在北京大学图书馆,是我国高等学校信息资源的联机编
目网络。
6. 元数据工作的规范要求如下:(P58)
? 准确:对信息资源的描述应真实反映其内容特征。
? 规范:信息资源的描述应严格遵守相应的描述规范,并在可能时依据相关的规范文档或控制词表。 ? 完备:描述项目应比较完备,使得可以从信息资源的各种特征出发进行检索操作。 7. 信息描述工作程序
(1)查重:就是确定某一信息资源是否已经收入系统。
作用:避免不必要的重复劳动,保证对信息资源描述和处理的一致性。
(2)描述:描述操作通常应根据描述规范进行,规范化是信息资源描述的发展方向。
(3)标引:分析信息资源的内容属性(特征)及相关的外表属性,并用特定的语言表达分析出的属性或特征,从而赋予其检索标识的过程。在此处主要指分类标引、主题标引。
(4)复核:包括检查描述项目是否完备,准确;分类标引、主题标引的结果是否符合系统的要求等。 8. Connexion元数据的创建方式: ① 对已有的记录修改完善。
② 克隆(clone)相关记录,进行修改。 ③ 创建新元数据记录。
第二节 信息描述方法
1. 《文献著录总则》对题名的分类。(P67 ,各种题名书上的例子要知道)
6
(1)正题名:单纯题名、交替题名、合订题名。
(2)并列题名:又称平行题名,对照题名,指见于书名页,与正题名语种不同的题名。 (3)副题名:为解释或从属于正题名的另一题名,应记录于题名之后,以“:”为标识。 (4)说明题名文字。
2. 责任者的类型和责任方式。
责任者说明由责任者和责任方式组成。责任者指对信息资源的生产负有责任的个人或团体。个人责任者可以是一人或多人,集体责任者可以则指机构团体、会议活动等。 责任方式表示责任者对文献所作的贡献类型。传统文献通常有著、编、改编、执笔、口述、译、注、点校、作词、作曲、绘等多种形式。 3. 载体形态项、的含义和类型。
载体形态项是一个记录文献物质形态特征的项目。包括:数量、图、尺寸或开本、附件等。
文献特殊细节项是为某些特殊类型文献特征的著录设置的项目。如:连续出版物的卷、期、起讫、地图比例尺、投影法等,主要用于记录个别重要文献特征。 4. 关联项的类型.(P71)
关联。主要用于表达一信息资源与其他信息资源的联系。有七种类型: (1)部分、全部关联。(2)版本关联。(3)格式转换关联。(4)参照关联。(5)替代关联。(6)附属关联。 (7)一致关联。
5.检索排检项的类型。
检索排检项通过对检索点的提示,供手工检索系统编制使用。通常包括四个方面:文献题名、责任者名、主题词、分类号。
6. 传统《文献著录总则》与《都柏林核心集》的特点和异同。 同:(1)完备的描述项目
(2)都对描述的等级、标识以及规范的使用作出相应的规定 (3)都具有比较强的扩充性、兼容性 异:(1)针对传统文献描述和识别的需要设置
(2)对传统资源特征的描述项目的设置详尽,针对网络资源的描述项目相对比较概括 (3)各描述项目有明确规定的次序和等级 (4)对描述的表达有严格要求
(5)采用人工标识,适合专业文献单位使用,是一个以文献专业人员为处理主体的描述规范。
第五章 分类法 第一节 分类法概述
1.分类:是指依据事物的属性或特征加以区分和类聚,并将区分的结果按照一定的次序进行组织的活动。分类是人类思维的基本形式,是认识世界的基本方法。
2. 信息资源分类:根据信息资源的内容属性和其他特征,将资源分门别类地、系统地组织和揭示的方法。 3. 信息资源分类一般具有以下特征:
(1)按照信息资源内容特征的相互关系加以组织,使得信息资源成为一个根据其远近亲疏组织而成的具有等级性、次第性的系统。
(2)一般是从一定的角度出发组织信息资源的(按学科集中,按主题分散)。 (3)以一定标记符号作为排序工具。
(4)一般通过类目索引提供从字顺角度查找类目的途径。 4. 对信息资源进行分类的作用意义 (1)进行资源组织。(2)建立分类检索工具。(3)分类统计。(4)兼容工具。
5. 分类法是一种从主题内容角度组织和揭示信息资源的方法,是分类方法在信息资源组织中的应用。 6. 分类法的类型以及各类型的典型代表
信息资源分类法按照其编制方式,通常可以区分为: ① 等级列举式分类法。
美国的《杜威十进分类法》(Dewey Decimal Classification,简称《杜威法》或DDC)
《美国国会图书馆图书分类法》(Library of Congress Classification,简称《国会法》或LCC) 我国的《中国图书馆分类法》(简称《中图法》)等。
7
② 分面组配式分类法。
《冒号分类法》(Colon Classification,简称CC)
《布立斯书目分类法(二版)》 (Bliss Bibliographic Classification,简称BC2) ③ 列举组配式分类法。
《国际十进分类法》(Universal Decimal Classification,简称UDC) 俄国的《图书馆书目分类法》 7. 等级列举式分类法的特点、不足。 特点:
①从一定的角度出发有层次地揭示信息资源,类目展开比较系统; ②分类结构显示直观,易于把握、便于使用;
③标记简明,号码单纯,适于分类排架,也可以用于组织分类检索工具。 不足:
①揭示专门主题能力差,往往无法满足确切分类的需要,不能充分揭示现代文献中大量存在的细小专深主题; ②类表具有一定的凝固性,不便于根据需要随时改变、调整检索途径,不能进行多角度检索; ③无法根据现代科学的发展自动生成新类,难以与科学的发展保持同步; ④大型列举类表一般类目详尽、篇幅较大,对类表管理的要求较高。 8. 分面分类法的特点、不足。 特点:
①标引专指度较高,可以通过基本概念的组配,充分揭示信息资源中的复合主题;
②标记表达性强,可以表达出主题成分所属的分面,便于根据不同需要,调整组配次序,进行多元检索; ③对科学发展的适应性强,可以通过组配方式,表达新产生的复杂主题,有利于与科学的发展保持同步; ④类表的篇幅较小,便于管理、修订等。 不足:
①分面类表的类目体系是隐含的,直观性不如等级列举式分类法; ②检索工具中的类目是根据组配建立的,类目分布往往不够均衡; ③标引难度较高,要求分类人员有较高的专业素养;
④分面标记的成分一般比较复杂,号码冗长,不适宜用于组织文献排架,主要用于组织检索工具。 9. 列举组配式分类法的特定、不足。 特点:
①以列举式类表为基础,具有一定的直观性
②广泛采用组配方法,基本上可以达到分面类表同等标引水平。 不足:
①列举式类表的管理修订工作,需要较大的工作量
②类目之间的组配要求使用多种辅助符号,标记复杂、冗长 第二节 分类法结构剖析 1. 分类法的结构组成。
8
2. 类目体系的含义和组成。
3. 分类号:亦称标记符号,是分类法中用于标识类目的代号。 4.分类号的要求:
(1)简明性(2)表达性(3)容纳性(4)助记性 5. 复分表的作用和类型。
作用:① 缩小类表的篇幅 ;② 加强类表的伸缩性; ③ 增强类表的规律性。
种类:① 通用复分表:又称共同区分表,是一种供主表各大类的有关类目共同使用的表,通常在类表的前部或后部集中编列。② 专类复分表:只限于在某一基本大类或专门领域使用的复分表,一般设置于相应的大类之下。 6. 号码的种类。
(1)单纯号码:指由一种具有固定次序的符号系统构成的号码。常用的有数字和字母两种。
(2)混合号码:指由两种或两种以上具有固定次序的符号系统构成的号码。通常由数字、字母结合使用。 7. 编号制度。
(1)顺序标记制。美国《国会法》
9
(2)层累标记制。我国的《中图法》
(3)顺序—层累标记制。我国的《科图法》、英国的《概略分类体系》 (4)分面标记制。《冒号分类法》 8. 标记技术。
(1)八分法。又称扩九法。(2)双位制。(3)借号法(4)预留空号法(5)对应编号法(6)字母标记法。 9. 类目索引的类型
第三节 类目体系的建立
1.类目:又称为类,通常是指一组具有某一共同属性的事物对象的集合。是分类体系的基本构成单元。 2.同位类的含义:从同一个上位类区分出来的一组处于同等地位的子类,称为同位类。
一、名词解释
2.等级列举式分类法:将所有的类目组织成一个等级系统,并且采用尽量列举的方式编制的分类法。 3.分面组配式分类法:一种依据分析兼综合的原则编制的分类法类型,以简单概念组成复合类目的方式。 4.同位类:从同一个上位类区分出来的一组处于同等地位的子类。
5.层累标记制:按照类目划分的等级配置相应位数号码,号码不仅可以反映类目次序,并可以根据标记的位数判断出类目的等级。
6.八分法:在采用层累数字标记的情况下,当同位类超过10个,不足18个时,前9位以0-8表示,8后面的标记用两位数字表示一次划分,用于解决同位类的号码配置问题。 7.类目索引 :为了克服类目查找的困难编制的一种辅助工具
8.交替类目:在为一个知识门类设置使用类目的同时,于相应门类下设置的供选择使用的类目。这类类目本身不用来分类,起引向使用类目的作用。
1.分类标引:依据一定的分类语言,对信息资源的内容特征进行分析、判断、选择,赋予分类标识的过程。 2.书次号:表示同类书先后次序的号码。
3.种次号:按照同类书分编先后,以每一种书为计数单位顺序编制的号码。 4.著者号码表:依据著者名称的音或形,按一定的取号方式编制的表。
1. 主题法:是指直接以表达主题内容的语词作检索标识、以字顺为主要检索突进的标引和检索信息资源的方法。 2.叙词法:从自然语言中精选出来的、经过严格处理的语词作为文献主题标识,通过概念组配方式表达文献主题的主题法类型。
3. 叙词表:按其功能,它是一种将标引人员或用户使用的自然语言转换成规范化的系统语言的术语控制工具;按照其结构,叙词表是一种概括特定知识领域并由词义相关、语义相关的术语组成的可以不断补充的规范化词典。 4.轮排索引:将词表中的叙词按词素的字顺排列,使含有同一词素的叙词集中显示于一处的词汇表。 5.先组词:直接以复合概念的语词形式收入词表的词。
1.文本检索:一种不进行标引,直接利用计算机的功能,通过自然语言中的语词或语词组配形式,对信息资源的文本数据进行匹配检索的方式。
10
2.后控词表:一种在检索阶段进行控制的词表,在检索阶段通过同义控制和相关词推荐等方式提供帮助。 3. Ontology:是指共享的,概念化的,明确的,形式化的表述。
1. 主题标引:依据一定的主题词表或主题标引规则,赋予信息资源语词标识的过程。
2. 限定组配:以表示事物的叙词和表示事物特称、属性或方面的叙词进行组配,表示一个专指的子概念,通常以符号“—”或“,”为组配标志。
二、填空题
1.主题法按照选词方式,可以分为(标题法)、(元词法)、(叙词法)、(关键词法);按照其使用时组配的先后,可以分为(先组式主题法)和(后组式主题法);按照其使用时是否进行控制,可以分为(受控主题法)和(非控主题法)。 2.在字顺表中,叙词款目或非叙词款目一般由(款目词项)、(标记项)、(注释项)、(参照项)等组成。 3.等级关系还包括(属种)、(整部)、(集合与个体)三种关系。
4.对一词多义的现象进行控制,一般采用(加限义词)或(加注)方法予以解决。 1.信息资源分类法按其编制方式,通常分为(等级列举式)、(分面组配式)、(列举组配式)三种类型。 2.阮冈纳赞将引用次序确定为:(本体)——(物质)——(动力)——(空间)——(时间)。 3.类目之间的关系包括(从属)、(并列)、(交替)、(相关)等。 4.一种良好的分类标记一般应当符合(简明性)、(表达性)、(容纳性)、(助记性)的要求。 1.(DDC)、(UDC)、(LCC)号称世界三大分类法。
2.中图法的复分表包括(通用复分表)和(专类复分表)两种。 1.在中图法中,组配标引包括(使用复分表)、(仿分)、(类间组配)三类。 2.一个完整的分类索书号包括(分类号)、(书次号)、(辅助区分号)三种成分的号码。 1.(《汉表》)是我国第一部大型综合性叙词表;(LCSH)是世界上使用最广的主题法;(MeSH)是医学领域广泛使用的专业叙词表。 2.《汉表》的辅助索引包括(范畴索引)、(词族索引)、(轮排索引)、(英汉对照索引)四种。 3.(《中国分类主题词表》)是在《中图法》类目与《汉表》主题词对应的基础上,将分类法与主题法、先组与后组融为一体的一种文献标引和检索的工具。
1.按照对信息资源内容的揭示特点,分类标引和主题标引的标引方式通常可分为(整体标引)、(全面标引)、(对口标引)、(综合标引)、(分类标引)五种。
三、简答题
1. 一部完整的分类法应有哪几部分组成?
按照分类法各部分的功能,可以将分类法分为类目体系、标记符号、说明和注释及类目索引四个部分。 2. 分类标记的要求、种类和标记制度类型有哪些?
(1)分类标记号码的要求是:简明性,即号码要简短明确、顺序性强、易读易记、排检方便,实用性强;号码达到简明性要求的主要方法是:使用有固定次序的单一符号系统可使号码便于排检,选择基数较大的符号系统可使号码简短,均衡配置号码,适度降低类目划分层次,采用全面或局部放弃号码的表达性(即等级等);表达性,即号码能反映类目的排列次序和结构特点;容纳性,是符号系统能满足根据需要对类目体系进行增补变动及时配给相应号码的能力;助记性,即类表中同一含义的主题配置相同的号码,便于记忆;
(2)分类法标记符号的种类主要有单纯号码和混合号码两种。单纯号码是只用一种具有固定次序的符号系统,通常有单纯数字或单纯字母两种;混合号码是指使用两种或两种以上具有固定次序的符号系统构成的号码,一般由数字和字母结合编号。
(3)标记制度的类型一般有顺序标记制、层累标记制、顺序-层累标记制和分面标记制等类型; 顺序标记制按照类目在分类体系中的次序配置号码,类号不揭示类目等级或其他关系,只表示类目的次序的编号方法;层累标记制按照类目划分等级配置相应位数号码,类号可以反映类目次序和等级的标记方法;
顺序-层累标记制:是将层累制与顺序制结合起来的一种标记制度,它吸取层累制与顺序制的优点,使符号具有一定的简明性、容纳性和表达性;分面标记制以特定的符号或组配方式表示各个主题因素所属的分面,使号码不仅能够揭指类目的次序和等级,而且能够显类目的分面结构。
3. 引用次序在分类体系建立中有什么作用?分类法对横向关系的处理采用了哪些方式? (1)引用次序在分类体系建立的作用是:
1)决定着类目体系的展开方式与类目体系的结构,可以直接影响分类体系的性能;2)引用次序决定选择何种标准建
11
立体系及其先后次序,因而决定着按什么方式集中信息资源;3)决定着为用户提供何种检索途径,它与分类法的适用性有着密切关系。
因此,应优先选择某一学科、事物的主要属性或具有检索意义的属性作为分类标准。 (2)分类法对横向关系的处理的主要方法是:
1)设置交替类目,使之充分揭示类目之间的联系,保持学科的完整性,又能相对集中同一学科的资源。这种方法解决了类目体系单线序列和事物多向从属的矛盾,可以体现多重从属的事物的联系,便于工作于从不同角度查找类目,使分类法具有按实际需要选项择使用的灵活性;
2)建立参照,指明类目之间除从属、并列交替之外其他联系,参照方法使内容之间有密切联系并被分散的类目揭示出来,加强这些类目之间的联系;
3)设置选择类目,即在主题内容按不同方式处理时,指明可供选项技的不同处理办法供选择使用,这种方法有助于根据需要灵活以灵活方式组织相关资源,增加分类体秒的灵活性;
4)设置选择性类表,即根据不同用户的需要,为一主题或学科领域同时编制不同的类表供选择使用,这种方法有助于增加类目体系的灵活性和适用性;
5)规定类目的归属,即根据需要规定某些主题内容的处理规律或原则,有利于以统一的方法组织信息资源。 4. 文献分类法类目之间有哪些关系,它们的表现有哪些?
(1)类目之间的关系主要有:从属关系,即类目体系中一个类与其直接区分出来的子类之间的关系;并列关系,是类目体系中同位类之间构成的关系;交替关系,是指交替类目与相应的使用类目之间形成的关系;相关关系,是指类目之间除从属、并列、交替等关系之外其他联系;
(2)上述关系在类目体系中体现为:从属、并列关系是类目体系的主要关系,揭示类目之间的纵向联系,类目从属关系以上位类、下位类表现出来,类目并列关系以同位类表现出来;类目交替关系、类目相关关系是类目体系主要关系的补充,揭示了类目之间的横向联系;在类目体系中,交替关系以交替类目与使用类目体现出同一关系主题内容的资源的可选择性;相关关系以类目参照体现类目之间的交叉等联系。
5. 网络分类工具与传统分类法有哪些不同?在类目组织和揭示形式上有哪些变化? (1)网络分类工具与传统分类法的不同表现在:
1)揭示角度不同。网络分类法改变了传统分类法以学科为中心建立体系的方法,以主题为中心或者以主题结合学科的方式组织体系;
2)类目设置的特点不同。网络分类法改变了传统分类法以资源和用户情况设置类目、重视类目设置的逻辑性、系统性的方式,在类目设置中体现网络资源形式的类目,简化了类目等级,类目设置的概括性、实用性强;
3)类目体系展开的形式不同。网络分类法改变了传统分类法主要采用线性序列的类目体系,采用超文本链接横向揭示资源,类目体系采用多维结构,多角度设置类目、展开体系,用网状结构代替了传统的线性结构; 4)同位类排列不同。网络分类法改变了传统分类法按类目关系排列同位类的方法,按字顺排列类目;
5)适用特点不同。网络分类法与传统分类法相比,更重视类目体系的普遍普适用性,重视普通用户的信息需求,以普通人的日常生活需求为中心展开类目体系;在资源选择、类目排列、类名选择上体现终端、用户的使用需要,在多维结构、横向关系揭示上体现方便用户需求的易用性。
(2)在类目组织和揭示形式上,网络分类法的主要变化是:
1)网络分类法改进主题之间多维关系的揭示,采用超文本链接使类目之间的多维联系以网状结构显示出来; 2)从多个角度组织信息资源,利用链接,从不同属性、角度设置类目,使用户可以从不同角度查找同一事物; 3)采用多表列类(轮排),网络分类法改变了传统分类法固定引用次序的方式,有选择地同时建立多个不同引用次序的类目体系,可以提供多个检索入口,使分类体系具有不同的功能;
4)设置镜象类目,对某些重点类目或热点类目突出反映,使分类法具有较强的适用性和灵活性;
5)动态组织分类体系,包括动态设置类目和动态揭示类间关系,使由某些原因临时显得重要的类目提前设类或根据动态情况对某些热点关系类间的显示,提高了类目的动态性、灵活性和实用性;
6)用于联结不同的检索系统。使用超文本技术,可以可以通过类目与相关系统中的相应术语的链接,实现类目索引、标题表、叙词表、自然语言系统及其他分类系统等之间兼容互换,这种联结可以增加各种系统的联系,增加检索入口,提高分类系统的使用效率,主题词和类目的对应还可以为分类自动标引提供基本工具;
7)联结说明与规则系统,通过链接,把分类体系与相关的说明文字联结,为分类标引提供方便的标引工具。 1.简述DDC在分类法发展中的贡献及其管理上的成功经验。 DDC在分类法发展中的贡献及其管理上的成功经验是:
12
类目体系完整,覆盖全部知识、文献;类目详尽,等级分明,便于理解使用;首创以简明的号码标记类目的方法,便于图书排架、目录组织和检索;首次采用数字层累标记制,通用性好,易排易检,易于扩充、组配,具有较强的助记性、等级性;首创了类目相关索引,提供了从字顺角度查找类目的途径,便利分类表的使用;首次使用了复分与仿分方法;成立了长设机构,不断修订更新,保持分类法的长久生命力。 2.简要论述冒号分类法的分面理论要点及特点。
(1)CC分面理论的核心内容,是阮冈纳赞提出的概概念分析兼综合原则,以及他的分面分析分面标记方法;
(2)分析兼综合的基本思想是:任何复杂的主题都可以分解为基本的主题单元,而简单的主题单元又可以组配成任何复杂的主题;因此分类法的类目可以用基本的主题单元表示,按一定序列组织并配置号码,分类时,先分析析文献主题成分,然后利用已分面的主题概念组配表达文献主题; (3)为了类目体系和标引有一定的规律和层次,阮冈纳赞又提出了五种基本范畴即本体(personality)、物质(matter)、动力(energy)、空间(space)、时间(time),五种基本范畴代表一般主题的五个基本分面,并分别用“,”、“;”、“:”、“ ? ”、“ ‘ ”表示这五种基本范畴;
(4)为了表达各主题之间的关系,CC提出了相的概念,相是一个基本类派生出来部分,相关系则表示主题之间联结形成的关系,CC把相关系分为五种:一般、倾向、比较、差异和影响关系。每一种关系又可细分为:主题相关、面内相关、类列内相关的关系。其中主题相关指两个基本类的关系;面内相关指同一面中两个点的关系;类列内相关指同一类列中两个类列点的关系。相的连接符号为:首相用“&”表示第一相与第二相的连接符号,再分别用15个小写字母来表示各种相的关系。 1. 对分类标引有哪些要求?
为了保证标引质量,对分类标引的基本要求是:准确即归类要正确,归入的学科专业无误;要确切,标引的类号专指度最高、最能代表其内容;充分即信息源中有价值主题的揭示要充分;一致即同一主题内容的资源的标引结果应一致;适用即标引要适应系统的特点和用户的检索需要。 2. 分类标引工作程序应分哪些步骤?
为了确保标引工作质量,分类标引工作程序应严格按如下步骤进行:
1)查重,在资源描述时要核查是否为已处理过的信息资源,以避免重复劳动,提高效率; 2)主题分析,对要处理的资源内容特征进行分析,确定其主题概念;
3)转换主题概念即归类,根据主题分析确定的主题概念,将要处理的资源归入所使用分类法的相应类目; 4)确定标识即给号,根据确定的类目给要处理的资源标引相应的类号; 5)审核,由专人对每种文献的标引结果逐项进行审查。 3.分类标引的基本规则有哪些? (1)按学科属性原则
分类标引必须首先以其内容的学科或专业属性为主要标准,只有在不适于以学科属性为区分标准时, 才考虑以其它方面的性质(如体裁、地域、时代、语文等)作为分类标准; (2)专指性原则
文献分类标引必须符合专指的要求。即将文献分入恰如其分的类,而不能分入范围大于或小于文献实际内容的类目;要区分总论与专论,不要将专论性的文献归入总论类;还要区分是阐述一般原理的,还是阐述具体问题的,不要把研究具体问题的文献归入阐述一般原理的类; (3)实用性原则
文献分类标引必须使文献尽其用,即要根据读者的需要将文献分入最大用途的类; (5)系统性与逻辑性原则
文献分类标引必须体现分类法的系统性、等级性和次
第性。凡能归入某一类的文献,必带有其上位类的属性。也就是说,凡能归入某一类的文献,一定也能归入其上位类; (6)不能单凭题名或篇名的含苞欲放义归类,因为不少题名仅有象征意义,不能确切反映文献内容。 4.简述多主题信息资源的一般标引规则。
(1)多主题信息资源是指同时论述两个或两个以上事物对象的信息资源,主要有并列关系、从属关系、联结主题等类型;
(2)多主题信息资源的一般标引规则是:
1)并列主题是指一个资源同时论述两个或两个以上独立的主题,如果论述两个独立主题并有直接的上位类,则归入上位类,否则则按重点论述的主题或在前的主题归类,同时为另一主题作附加分类;同时论述三个或三个以上的并列
13
主题,可以归入其上位类或概括性类目;
2)从属关系多主题资源,是指一个资源同时论述一个大主题一个小主题且大主题可以包含小主题,一般按大主题归类,但是论述重点是小主题的,可按小主题归类;
3)联结关系的多主题是指一个资源论述两个或两个以上具有应用、比较、影响、因果等关系的主题。归类时,应用关系的主题,一般按应用到的主题归类,但综合论述一主题多方面应用的,仍按该主题归类;比较关系的多主题资源,一般按作者重点论述的主题归类;因果及影响关系的多主题资源,一般按受影响的主题或结果的主题归类。 1. 主题法的特点是什么?主题法有哪些基本类型?
(1)主题法的主要特征是:直接以语词作为检索标识, 以字顺作为主要的检索途径;以特定的事物、问题、现象、主题为中心集中信息资源;通过参照系统等方式揭示主题词之间的关系; (2)主题法的类型主要有标题法、元词法、叙词法、关键词法等
2. 叙词表一般由哪些(宏观结构)部分组成?叙词表组成基本要求是什么?
(1)叙词表一般由字顺显示部分和系统显示部分组成前者主要有字顺表、专有叙词表、双或多语种对照索引,后者主要由范畴索引、词族索引、轮排索引、分类主题一体化词表等部分组成;
(2)好的叙词表的基本要求是:功能完备,各组成部分功能结合,使词表具有各种必要的功能;功能互补,词表各组成部分功能有效,性能互补,在整体功能上效果良好;结构简明,各组成部分没有或少有重复词表结构整体性好,既结构简明,又功能完备;编制和管理方便;易于掌握,易于使用。
3.简要说明叙词语言的词汇控制方法。 叙词语言的词汇控制方法主要有:
(1)词汇选择。词汇选择的原则是客观性、可预见性、实用性、单义性、成族性、专指性和科学性等;词汇选择的类型是以名词为主,必要时也收录少量形容词。叙词可以分为普通名词和专有名词两种。对于专有名词或专有叙词可单独编制专有叙词表。 叙词表中收录词组的原则是:保留学科领域中使用频率较高的词组;凡经分解后,分解后的单词有一方没有独立检索意义,或改变它在词组中的原义,或组配结果可能有歧义的,应该在叙词表中收录词组;有检索价值的专有名词,一般可直接使用。 (2)词形控制与词义控制。
1)词形控制是指根据主题标引与检索的需要对语词的形式及构成成分作出的规定,以方便语词的排检。主要内容有:规定语词形体,一般以通行的字体为准;规定外来语和数字的用法,一般选规范的译名,如果外文的名词术语更通用,也可以直接选用原文;规定标点符号的用法,一般只在必要时使用()、——、? 等符号,另有规定的除外;规定词序,一般使用自然词序,不用倒置词序;规定外文的词形,主要是规定单复数、名词形式等;规定词长,使语词保持在规定的长度以内。
2)同义控制,是指在语义相同而词形不同的语词之间,只能优选其中的一个作为正式的叙词,其余的可作为非叙词收入叙词表,作为查找入口。同义控制的内容包括同义词之间的控制和准同义词之间的控制。一般同义词之间的控制主法是选取较通用的一个作为正式叙词;学名与俗称、新称与旧称、全称与简称、不同译名、产品型号与代号等词汇的控制,一般选择学名、新称、全称、规范译名、产品型号等作为正式叙词;词组与对应的组配形式之间,一般选取对应的组配形式;准同义词之间的控制主要有近义词的优选,即选通用的词作为叙词; 反义词之间的优选一般选表示正面含义的词为叙词;太专指词并入泛指词。
3)词义控制主要是对一义多词现象进行控制,使其具有明确性和单义性。 主要内容有:加限义词;加含义注释、用法注释或历史注释。
(3)词间关系控制,是对叙词与非叙词词间关系的显示与规范,它是使叙叙词系统化的重要手段。叙词语言使用了参照系统、范畴索引、词族索引、轮排索引、词族图等多种方式显示词间关系,从而形成完整的语义网络。语词之间主要有三种关系:等同关系、等级关系、相关关系。在《汉语主题词表》中,等同关系用“用”(Y)“代”(D)两币符号表示,等级关系用“属”(S)、“分”(F)、“族”(Z)三种符号表示,相关关系用“参”(C)表示。
4.为什么说叙词法是多种信息标引与检索语言的综合?
(1)叙词法是一种在综合多种检索语言技术方法基础上发展起来的新型词汇控制系统,它总结了各种标引和检索的经验,综合了多种检索语言的优点,结合新兴的计算机技术来构造它的结构和方法体系;它的参照系统最为完备,索引形式多样,还编制了各种分类主题目一体化的对应词表,使之成为结构完备、功能丰富的检索语言;
(2)叙词法吸取了元词法的组配技术,把元词法的字面组配和反记法发展为概念组配与倒排档;它也吸取了体系分
14
类法的学科分类和等级结构的方法,编制了范畴索引、词汇索引和词汇分类表;同时它广泛吸取了先组式标题和参照方法、关键词法的轮排技术、分面分类法的分面技术等,使之成为最具优势的检索语言。
5.分别简析标题法与叙词法的特点。
(1)标题法的主要优点是:用受控的自然语言作标识,直观地表达主题概念,直接地标引文献;以字顺序列组织标识,提供直接的主题检索途径;主要用参照系统间接显示标题所表达的主题概念之间的关系,形成语义网络;按事物集中文献,不是按学科集中;提供先组式的主题标识,标识含义比较明确,选用标识比较容易;标引所用的标题不必都是标题表中列举的现成标题,必要时可以自拟标题。
标题法的不足是:采用列举方式,往往会带来词汇量大,专指度低,修订难度大;大量采用先组式标题,只能从规定的组配次序入手查找,无法进行多途径检索、多因素检索。 (2)叙词法的优点:
1)结构完备,词汇控制严格;采用概念组配,避免了字面组配带来的一些误差,保证了组配语义的准确性;设置了完善的参照系统,同时使用多种方法显示概念间的关系,有利于提高查全率与查准率;
2)组配准确,标引能力强,能准确、专指地标引和揭示各种主题内容;灵活的叙词组配,使叙词语言有较强的表达能力,能专指、及时地表达复杂、新颖的主题;
3)检索效率高,允许多因素检索、多途径检索,使检索具有灵活性;
4)对检索系统的适应能力强, 能同时使用于标识单元方式与文献单元方式的检索系统,能较好地适应机检系统和手检系统的需要。
叙词法的缺点是:由于词汇控制严格,词表编制和管理的要求高,编制和管理成本高;文献标引需要在概念分析的基础上进行,增加了标引的难度。
6.简析概念组配与字面组配的区别。
(1)两者的本质不同,前者重在拆义,后者在于拆词。它是利用构词法进行词的分拆与组合。概念组配本质是在概念分析的基础上进行概念的综合;
(2)两者的词汇单元不同。单元词是不能再分的词汇单元,而叙词则以表达事物的基本概念为基础的。
1.简述LCSH的结构特点和自由浮动标题的类型。
(1)LCSH的结构特点是:整体结构由主表、副表、和使用说明组成,主表是它的主体,包括导言和字顺表,副表和使用说明另收入《主题编目手册(标题部分)》中;LCSH的款目结构由标题目与非标题、分类号、注释、参照项组成;
(2)LCSH的自由浮动标题四种类型:一是通用自由浮动复分表,由形式子标题和论旨子标题两种,由一般子标题复分使用,使用范围在各子标题下注明;二是特定范畴自由浮动复分表,只适用特定范畴的标题如人物、种族、团体、地名等复分使用;三是类型示范标题表,在某类标题中有代表性的标题下列出示范标题供同类标题仿照使用;四是多款目标题,某些标题有多个类似的子标题,并以举例方式规定其复分办法。
2.评价MeSH的特点。
(1)MeSH的优点是:词表是在医学文献标引的基础上编制的,符合医学文献标引的需要;树形结构表级别深,有利于从分类角度查词;设置了多种参照,全面建立语义关系,提高了检索效率;注释种类多样,说明详尽,有利于提高标引质量,也便于回溯性检索。
(2)MeSH的不足之处是:作为一部从标题法脱胎而来的叙词表,仍带有不少标题表的特点,产生了形式上不一致,简明性不够的缺点;副主题的使用除了在部分主标题下列出之外,同时还采用副标题组配的形式,且使用范围常有变化,增加了标引的难度。
1.比较主题标引与分类标引的异同。
相同:揭示的对象相同;依据的数据来源相同;操作程序相同;基本处理方法相同
不同: (1)主题分析的角度不同。 (2)转换途径不同。 (3)标识不同。 (4)揭示的特点不同。 2.什么是主题分析?主题分析的基本方法?
答:根据标引和检索需要,对信息资源的内容和特征进行分析,析出主题概念的过程。方法:分析主题类型和分
15
析主题结构。
3.什么是分解转换?在分解转换时,应该注意哪些问题?
答:指分析出来的主题概念没有现成的主题词可供直接标引,需将该主题概念分解成若干个简单主题概念,然后再分别用相应的主题词进行转换。转换过程中应注意:(1)避免字面分拆(2)从专指到泛指的次序查找;(3)善于根据概念的含义分析出专指的分解形式。
4. 主题标引的概念转换有哪些基本的方式和规则?
(1)主题概念的转换有两种方式,一种是直接转换,即直接用叙词表的一个叙词来表达,一种是分解转换,即需要用叙词表中的几个叙词组配表达,着涉及到对主题概念的分解转换的问题;
(2)主题概念分解转换的规则是:必须进行概念分,避免字面分拆;必须根据概念内涵析出最专指的分解形式。
5. 简述组配标引的组配规则
主题标引的组配规则是:主题标引的组配必须是概念组配;在几个相互组配的主题词之间,其概念必须有交叉或限定的逻辑关系,不能采取单纯的字面拼合组配或随意组配;应优先选用在概念上具有交叉关系的交叉组配方式,在不能采取交叉组配方式时,才考虑采用限定组配方式;必须选用与文献主题关系最密切、最邻近的主题词,不能选用泛指的主题词进行越级组配;对并列多主题文献进行分组标引;组配必须概念清楚、确切,只能具有一个含义,若组配的结果具有多个含义时,应考虑改用上位或近义的主题词标引,或者是增补新的专指主题词标引;组配次序,应依据国家标准中主题分面组配公式,即:“主体因素(A)通用因素(B)位置因素(C)时间因素(D)文献类型因素(E)”确定其次序,多个主体因素的主题可依逻辑顺序确定其次序,在难以确定逻辑顺序时,可采用自然语言顺序。
6. 简述标引选词的专指性与优先顺序的规则。
标引选词的专指性与优先顺序的规则是:首先选取与文献内容主题概念相对应的、最专指的词标引;词表中没有专指词时,可选用与其最直接相关的、最邻近的主题词进行组配标引(参见组配规则);在词表中没有恰当的主题词组配,可考虑选用一个最直接的上位主题词进行上位标引或近义的题词进行靠词标引;如果以上都不合适时,可以采用增词标引。
1. 用于标引和检索的自然语言有哪些类型?各类自然语言主要应用于哪些方面?
(1)用于自然语言标引与检索的类型有:关键词法、文本检索、 自由标引、 自然语言入口词检索和自动标引等; (2)各类自然语言主要应用于:关键词语言主要用于编制关键词索引,关键词索引编制思想是将关键词不加规范化或只作极少量的规范化处理,按字顺排,提供检索途径的方法;文本检索主要用于自然语言检索,即不对文献进行任何标引,直接依据自然语言中的语词实施匹配查找的系统。常见的文本检索技术有布尔检索、截词检索、精确检索、限定范围检索、调整检索包括容错检索、过滤检索、概念检索、自然语句检索等方面、相关检索等。
2. 后控词表有何特点?它有哪些主要的编制方式?
(1)后控词表的特点是:1)后控性,即在后控词表中,标引与检索用词是自然语言,控制词是人工语言,这与先控语言里控制词的情形相反;2)成长性或动态性,是指后控词表词汇的不断更新、结构显示的不断深化。起初,所控制的词量有限,随着自然语言发展与变化,就需定期对新增的自然语言进行控制,对其结构的显示也逐步细化与深化。后控词表被称为不断增长的词表;3)灵活性。由于受控词表主要用于对自然语言检索标识的控制,不用于标引,其分类体系就可灵活变动,显示方式也可灵活多样,且逐步丰富;4)易用性,具有面向文献和用户的特点,利用后控词表进行自然语言检索,可自由地扩大、缩小检索范围,提高检索效率,减轻检索者智力负担;5)低成本性,是指编制与维护后控词表的费用低于先控词表;6)词间关系不同与传统词表,在后控词表中,等同关系的显示,实际上不是用代关系,而是一种互见关系;7)入口词丰富,词汇控制不如先控词表严格。
(2)后控词表编制方式有:1)积累式。指通过对检索用词的不断积累,由人工整理成词汇表的方式。随着积累词汇的丰富,后控词表不使用效果会越来越好。2)抽词式。指将自由标引、自动抽词标引或通过从词典,工具书抽取的自然语言词汇,经过整理而成的后控词表。3)嫁接式。将自然检索标识与某种先控词汇表(类表或主题词表)相对应而形成的后控词表。它是以原先控表作基本框架,建立自然语言检索标识与原控制词的参照关系,其自然语言词汇作为“用”项加以显示;4)替代品式。是以某种叙词表作为后控词表的代用品使用。该方式因叙词表对使用中的自然语言检索标识不进行规范,其使用效果大打折扣;5)混合式。采用以上某几种方式的结合形式形成的后控词表。其中,对自然语言检索标识的覆盖度(网罗度)、结构控制度、(语义关系揭示的充分程度)、检索途径多样化程度是
16
衡量一部后控词表质量的重要指标。
3. 自然语言与受控语言为何要结合起来?二者结合的发展趋势如何?
(1)自然语言与受控语言结合的原因是由两种语言的优势与不足决定的,自然语言信息的主要优点是:专指度高,处理速度快,可以提供更多的检索点,系统费用低,词汇及时更新,面向用户能力高;它的主要缺陷是:语词与概念不一一对应,存在着大量一词多义、一义多词及词义含糊现象,影响检索效率;检索点多,会检出大量无关文献,影响检准率;对词间关系不控制,不便进行扩检、缩检;词汇量大,必然会给词汇的加工、管理带来困难;自然语言不具有文献资源的组织功能,不能进行图书排架工作。而同时,受控语言具有自然语言没有的优点:通过词汇控制,使得检索结果更准确,提高检准率和检全率;通过词间关系控制,可以在计算机检索系统中显示 示的关系结构,方便用户的扩检与缩检,以满足不同的检索需求;压缩词量,使得词汇所占空间或篇幅较小,便于进行各种处理;某些种类的受控语言,如分类语言,还具有对信息资源集合本身进行系统组织的功能和理的功能;然而受控语言却有自然语言没有的缺陷:标引速度慢,对标引人员的要求高,难以满足使用文献量大的信息组织部门的需要;受控词表编制与维护的成本高;更新速度不如自然语言等。 (2)自然语言和受控语言结合的方式有:
1)两者并存,建立平行的系统,即在检索系统中同时使用文本检索、自由词标引、受控标引等多种检索方式,向用户提供分类号、叙词、关键词等检索途径,供用户选用;
2)建立杂交的系统,同时在一个检索系统中采用控制词汇和自由词进行标引和检索;
3)使用后控词表,即在组织检索系统时采用自然语言,在检索阶段对检索词实施控制(后控); 4)自动赋词标引,利用计算机编制的机内词表在标引阶段对标引词进行控制。
17