首字母I

2023-04-24 09:41:43

前面介绍的几种查找的算法都是基于数据有序的基础上进行的。但是在实际的应用中,很多数据集可能有惊人的数据量,面对这些海量的数据,要保证记录全部按照当中的某个关键字有序,其时间代价是非常昂贵的,所以这种数据通常都是按先后顺序存储的。索引就是把一个关键字与它对应的记录相关联的过程。一个索引有若干个索引项构成,每个索引项至少应包括关键字和对应的记录在存储器中的位置等信息。在索引表中的每个索引项对应多条记录,则称为稀疏索引,若每个索引项唯一对应一条记录,则称为稠密索引。索引按照结构可以分为线性索引、树形索引和多级索引。所谓的线性索引就是将索引项集合组织为线性结构,也称为索引表。稠密索引是指在线性索引表中,将数据集中的每个记录对应一个索引项。并且索引项一定是按照关键码有序的排列。索引项有序也就意味着,在查找关键字时,可以用到折半、插值、斐波那契等有序的查找算法。稠密索引的改进的地方在于:它简化了庞大的原数据集,使原本不能装入内存的庞大的数据集,能一次性的装入内存,并且能够在内存中实现关键字码的排序,并且每一个索引项能够指向磁盘中它代表的原数据记录。能利用高级的查找算法,这显然是稠密索引的优点,但是如果数据集非常的大,那么索引表也是非常的大,对于内存有限的计算机来说,不得不把索引表也放到磁盘中,这样就大大的降低了效率。稠密索引因为索引项与数据集的记录个数相同,所以空间代价很大。为了减少索引项的个数,对数据集进行分块,使其分块有序,然后在对每一块建立一个索引项,从而减少索引项的个数。分块有序,就是把数据集的记录分成了若干块,这些块需要满足的条件是:(1)最大关键码,它存储了每一块中的最大关键字,这样的好处是可以使得在它之后的下一块中的最小关键字也能比这一块最大的关键字要大。当然这个索引关键字码可以是任何能够唯一标识一个块的任何数据。设有N个记录,被分成了M块,每块有T条记录。显然N=MXT。在索引表和块中的平均查找长度分别是LB和LW。上面的分析中,在块间使用的也是顺序查找,因为块间是有序的,所以可以使用折半查找等快速的算法来提高效率。这样就能很好的实现,大的数据块存储在磁盘上,索引表存储于内存中了。这种模型是不需要对原始数据集进行排序操作的,因为块与块之间是可以不连续的存放的。在原始数据产生前确定分多少块,以及每个块的存储位置(块间位置不连续,块内位置连续),这时每个块内的存储数据的范围也要确定,当新的数据到来的时候,就能确定要把这个数据放到哪个块中。我想设计一个分块索引来查找数据,大体估算有3600个数据,所以根据能使算法效率最高的分块数目等于每一块的记录数目。设置60个块,每个块有60个记录。60个块就对应磁盘上的60个文件夹目录用来存储数据,这60个块的块间位置不连续。同时假设这3600个记录的关键字大小范围是1-3000,那么第一块就存储1-50的记录。来一个新纪录,如果关键字在1-50之间,就直接把它追加到第一块中。同时如果这个记录的关键字值大于索引表中的最大关键码,就对索引表中的最大关键字码更新。

索引“首字母I的视频”

共27条数据 页次:1/3页 首页 1 2 3 尾页

免责申明:本网站内容收集于互联网,粤语e族不承担任何由于内容的合法性及健康性所引起的争议和法律责任.欢迎大家对网站内容侵犯版权等不合法和不健康行为进行监督和举报.

Copyright © 2009-2017粤语e族www.yueyuez.com版权所有 All Rights Reserved

Email:www#yueyuez.com(请将#换为@)

更多文章

友情链接