基于数据字典的数据库索引技术研究

发布时间:2024-04-25 14:56:02   来源:文档文库   
字号:
第48卷第3期 2015年3月 通信技术 Communications Technology Vo1.48 No.3 Mat.2015 doi:10.3969/j.issn.1002-0802.2015.03.011 基于数据字典的数据库索引技术研究 宋晨阳,寇 鹏,滕晓晓 (上海通用识别技术研究所,上海201112) 要:数据字典是指对数据的数据项、数据结构、数据流、数据存储、处理过程等进行定义和描述。 数据字典是数据库的中心,对每个用户非常重要,是信息系统进行数据分析阶段的主要工具。结合 数据字典设计原理,提出多种类型的数据字典规则,结合不同数据处理的需求,合理组合不同类型的 数据字典可以在很大程度上提升信息处理过程中的检索效率,通过对索引策略和多数据字典对应关 系的限制,增强数据库系统的健壮性,提高信息安全的强度。 关键词:数据字典信息索引 数据处理信息安全 文章编号:1002-0802(2015)03-0302-04 中图分类号:TP311.13 文献标志码:A Database Index Technology based on Data Dictionary SONG Chen—yang,KOU Peng,TENG Xiao—xiao (Shanghai General Recognion Technolog nsute,Shanghai 201  2,China) Abstract:Data dictionary defines and descrbes data item,data structure,data fow,data storage and pro- cessing.As the center of database,data dictionary is of great importance to each user,and also selves as the main tool of information systems for data analysis.In combination with the design principle of data dic— tionary,the polytype data dictionar rules with different data processing requirements are proposed,and the rational combination of polytype data dictionar can greatly improve the retrieval efciency in informa— tion processing.By restcting the retrieval strategy and correspondance of muhidata dictionary,the robust— ness of database system could be enhanced and the intensity of information securty also be improved. Key words:data dictionary;inforation index;data processing;inforation securty 0 引 言 如今,针对海量数据的检索查询主要依赖于数 据库技术,通过数据库索引可以极大提高数据查询 基础概念介绍 1.1数据字典 数据字典是数据库中存储级的,也是访问数据 库的接口…。数据字典是构建数据库过程中不可 缺少的组成部分,能够对数据库进行有效管理,对优 化数据库结构有重要作用。数据字典能够在数据库 设计阶段、实现阶段、运行阶段起着重要作用,能够 检索的速度。利用构造唯一性索引能够保证数据表 中特定数据的检索唯一性,显著减少查询中分组和 排序的时间。然而创建索引以及对所索引的维护往 往耗费大量的存储空间和时问。为了降低因数据量 的急剧增加引起的检索效率的下降,本文提出基于 多种数据字典建立检索策略的方法,从而可以提高 在不同阶段管理各种数据库信息。数据字典是各类 数据描述的集合,能进行详细的数据收集和数据分 析。通常包含5个部分:数据项、数据结构、数据流、 检索效率,减少不必要的系统开销,从而对数据库检 索提供了一种思路。 数据存储以及处理过程。 收稿日期:2014—09—28;修回日期:2015一Ol一30 Received date:2014—09—28;Revised date:2015一O1—30 
第48卷 宋晨阳,寇鹏,滕晓晓:基于数据字典的数据库索引技术研究 第3期 数据项:数据项是数据的最小组成单位,若干个 数据项可以组成一个数据结构。数据项的描述 如下: 数据项m.{数据项名称,数据项说明,数据类型, 数据项长度,数据项取值范围,数据项取值含义,数 据项之间的逻辑关系} ],其中“数据项取值范围”、 “数据项之间的逻辑关系”是限制数据项的约束条 件,是检验数据功能的依据。 数据结构:数据结构主要表现了数据之间的逻 辑关系。数据结构既能够由几个数据项构成,也能 够由几个数据结构构成,也可以由数据项和数据结 构共同构成。数据结构的描述如下: 数据结构={数据结构名称,数据结构说明,数 据结构组成}。 数据流:数据流描述了数据结构在数据库系统 内传输的轨迹。数据流的描述如下: 数据流描述={数据流名称,数据流说明,数据 流源,数据流去向,数据流组成,数据流平均流量,数 据流峰值流量}。 数据存储:数据存储描述了数据结构保存的位 置。数据存储的描述如下: 数据存储描述={数据存储名称,数据存储说 明,数据存储编号,数据存储组成,数据存储方式}。 处理过程:处理过程描述了数据字典中对数据 进行处理的过程性说明,处理过程的描述如下: 处理过程描述={处理过程名称,处理过程说 明,处理过程输入,处理过程输出,处理过程说明}。 1.2数据库索引 索引建立了数据表中某一列或者多列数据项值 排序的结构,通过索引能够对数据库中的信息进行 快速查询 j。索引是对数据库表中一个或多个列 的值进行排序的结构。如果想按特定职员的姓来查 找他或她,则与在表中搜索所有的行相比,索引有助 于更快地获取信息。数据库的索引类似于书籍的 索引。 索引可以加快数据库的检索速度。索引降低了 数据库插入、修改、删除等维护任务的速度,索引创 建在表上,不能创建在视图上。索引既可以直接创 建,也可以间接创建。利用索引进行检索,能够使查 询的过程更加高效快速,提高数据库系统的性能。 多数据字典设计 全文检索不单是一种快速的字串匹配系统,要 获得良好的检索效果,必须灵活使用和参考数据字 典。数据字典的灵活运用可以提高检索效率与准确 性。本文提出建立如下类型的数据字典,通过在不 同检索条件组合可以有效满足信息检索条件。 2.1分词字典 中文按词索引和检索依赖于以字典为基础的分 词算法。分词字典由词汇组成,分词字典的每个词 汇具有语法属性,以提高分词的准确性。生僻词没 有加到分词字典的必要,通过其他检索方式也能 检索。 2.2附加分词字典 附加分词字典是分词字典的补充。分词字典是 主要包含一些通用的分词方式,但不包含一些专业 词汇和特殊词汇。通过建立新的附加分词字典,并 在创建数据库时指定引用该附加分词字典,系统进 行分词时将分词字典以及附加分词字典的词汇同时 纳入考虑范畴。 2.3排除字典 排除字典,主要由一些没有实际意义的高频词 构成的,如英文文献中的冠词“the”、介词“to”、连词 or”等词,中文中的“的”、“但”、“而”等词。从语义 来看,这些词没有实际检索意义,但属于高频出现 词,经常会占用大量检索资源。通过索引过程使用 排除字典,能够去除掉很多没有意义的高频词,降低 数据库的空间占用资源、提高检索效率。 排除字典主要包含标点符号、高频副词等。排 除字典在创建数据库时引用。当需要过滤更多的无 意义词时,可通过创建附加排除字典来实现,在 2.4节中有所体现。一个词是否适合作为排除词, 要与该数据库的领域相结合,如在数据库领域的文 献中,数据库可以视为排除词,因为在每一篇文献中 几乎都会出现该词,没有实际检索意义。 2.4附加排除字典 排除字典是通用领域的数据字典,不包含特殊 领域的无检索意义的词汇。附加排除字典是排除字 典的补充。通过建立新的附加排除字典,并在创建 数据库时指定引用该附加排除字典。附加排除字典 般包含了某个专业领域的高频词,通过利用附加 排除字典,可以有效排除某一领域范围内大量高频 词的重复检索,提升查询速度。 
通信技术 2015在 2.5稀疏字典 在一些情况下,用户希望不进行全文检索就可 以从自动抽取一些词语形成检索关键词,即根据需 求索引关键词。稀疏字典就起到了存储这些关键词 汇的作用。在检索过程中通过利用稀疏字典,可以 有效降低检索维度,降低全文检索过程中比对时间。 2.6主题字典 主题字典是一种基于语义的字典,由词本身和 词之间的关系构成,可以代表某领域的相关语义概 念。主题字典支持13种词间关系。包括族首词、上 位词、下位词、等同词、替代词(用代词)、相关词、缩 略词、被缩略词、组合概念、历史注释、范围注释、外 文等同词、后组配概念。 主题字典主要在检索时起到后控制作用、在标 引时起到自动或辅助挑选索引词的作用,能够有效 提高查全率和查准率,并且能够完成多语言检索和 智能化检索。 数据字典索引策略 在数据库中,建立索引可以提升检索效率,但是 创建索引和维护索引要耗费时间,索引需要占物理 空间。因此,需要建立不同的索引策略。主要有如 下4种 :根据中文字检索的策略、根据中文词检索 的策略、根据自定义关键词检索的策略,以及二元组 索引策略。在具体应用中,索引策略的选择主要由 数据类型的特点、检索的实际需求和系统资源限制 等决定。 按字索引:按字索引策略往往用于小规模数据 库和非现代汉语数据库。其主要优点是:不用借助 自动分词技术,实现起来相对简单容易。可以对文 言文进行索引。查全率较高,可以避免自动分词产 生的错误 按词索引:按词索引是大部分中文数据库的首选 策略。其优点主要体现在:一、查准率相对较高。二、 检索速度较快。根据测试结果,应用于大型数据库, 按词索引比按字索引的查询速度快5~l0倍。三、空 间膨胀率低。某个词通常包含有多个字,因此按词索 引可以大大降低索引量,配合使用停用字典 ],按词 索引文件比按字索引的空间膨胀率低50%~100%。 按词索引是智能化检索的前提。因为辅助字典 是基于词,所以只有按词索引才能实现智能化检索。 按关键词索引:关键词索引是基于抽词索引技 术,在按词索引的前提下,只抽取特定的一些词进行 索引。将关键词构成一部稀疏字典,基于稀疏字典 进行索引。专用领域的文献通常按关键词索引。 二元组索引:该策略是在按词索引的前提下对 高频词进行二元组合,亦或是在按字索引时对高频 字进行二元组合。若二元组包含分词字典或者附加 分词字典,则称作按词二元组;若不包含分词字典或 附加分词字典,则称作按字二元组。二元组索引是 对按词索引和按字索引的扩展。 通过以上分析,不同的索引策略需要不同的索 引字典。表1分析了所得索引策略和多种数据字典 的对应关系。 表1索引策略和数据字典对应 Table 1 Correspondance of index stratagy and data dictionary 4 结 语 本文主要研究了基于数据字典数据库索引策 略。主要介绍了数据字典、信息索引的有关概念。 分析比较了不同索引策略的优缺点,提出了多种不 同类型的数据字典,每种数据字典都能够在特定检 索条件下发挥一定的优势。文中详细分析了不同索 引策略的适用范围,并将小同索引策略与多种数据 字典形成对应关系,这样可以在提升检索效率的同 时,减少数据库索引的资源消耗,对于数据库检索有 定的借鉴意义。数据字典是数据库中的重要组成 部分,会存储大量的用户信息、用户的权限信息、数 据权限信息以及表的约束条件,对于数据信息的不 当索引往往引起一些安全隐患,导致敏感数据的泄 露,采用基于数据字典的数据库索引,在增加索引效 率的同时,可以提升数据库的安全性。 数据库是结构复杂的信息检索系统,存储的信 息包含很多实体数据的同时,还含有一些有用的非 
1J 1j 1J 第48卷 宋晨阳,寇鹏,滕晓晓:基于数据字典的数据库索引技术研究 第3期 实体数据。如实体数据之问的联系、实体数据项的 类型、长度、密码、结构等。这些非实体数据从某种 意义上来讲是数据库的情报系统,假如没有这些数 据或这些数据受到损坏,那么整个数据库系统将陷 入瘫痪。为了使数据库的设计、运维、扩展更加标准 化,同时保证数据库的安全性、有效性、完整性和可 恢复性,利用数据字典来保存这些信息,并且采用优 化合理的索引策略,可以最大限度提升数据库检索 效率,保证数据库的安全运行。 参考文献: 郭胜辉,孙玉芳.基于数据字典库的信息系统的设 计[J].计算机学报,2000(04):26—29. GUO Sheng-hui,SUN Yu-fang.The Information System Design based on the Dictionary Database『J 1.Chinese ounM of Computers,2000(0):26—29. 李岚.基于角色的数据库安全访问控制的应用[J].通 信技术,2008,41(10):57—60. U Lan.Applicaton of Role—based Database Secure Ac— cess Contol[J].Communicatons Technology,2008,41 (10):57—60. 张文江,何政伟,吴爽.基于安全数据字典的数据集成 技术研究[J].计算机T程与设计,2013(05):2—15. ZHANG Wen—jang,HE Zheng-Wei,WU shuang.Re— search on secunity data dictionary based data intergrating echnique[J]. Computr Engneerng and Desi 2013(05):12—15. [4] Hock Chuan Chan,Knok Kee Wei.A Sysem for Quer Comp—Rehenson[J].Iormaton and Sofwae Technol ogy,1997,(03):141—149. [5] S G Lee,L J Henschen,J Chun.Identi ̄ing Relevant Consains or Semac Que Optmiaton[J].Ir— maron and Soware Technolog2000(13):102—118. 作者简介: 宋晨阳(1987一),男,硕士,工程师,主要研究方向为信 息安全; SONG Chen-yang(1987一),male,M.Sci.,engneer,ma- ofng n iormaon secury. 鹏(1987一),男,硕士,工程师,主要研究方向为信 息安全; KOU eeng(1987-),mae,M.Sci.,engineer,majng n inoration securty. 滕晓晓(1986一),女,硕士,工程师,主要研究方向为信 息安全。 TENG Xiao—xiao(1986一),female,M.Sci.,engneer, maorng n informaon secury. 

本文来源:https://www.2haoxitong.net/k/doc/93a7aaa501d8ce2f0066f5335a8102d276a26184.html

《基于数据字典的数据库索引技术研究.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式