登陆注册
7554300000025

第25章 量子聚类EDQC算法

量子力学研究对象的普遍性使它在科研中发挥着越来越大的作用,众多领域的科学研究都要用到量子力学,计算机领域更是期待着量子计算机的出现。所以说,研究量子知识在数据挖掘技术方面的应用是意义重大的。量子力学研究的是粒子在hilbert空间中的分布,由波函数描述粒子的分布状态,由势能函数决定粒子的分布。因此,受到物理学中量子特性的启发,出现了一个基于相关点的pott自旋和统计机理的量子聚类模型,解决了众多聚类方法无法解决的问题。在应用量子特性的聚类算法中,经典的量子聚类方法是david horn和assaf cgottlieb提出的量子聚类算法(qc),该算法采用梯度下降的方法,通过一定的学习速率求解势能最小值,从而找到聚类中心,再用一个固定的度量标准对样本聚类,是对尺度空间聚类和支撑矢量积聚类固有思想的一种扩充。此外,2007年,李志华等人改进了量子聚类算法(qc),提出edqc算法,该算法改进了qc算法在迭代过程等方面的缺点。本书针对qc算法在样本预处理、度量距离和迭代过程方面的不足,利用指数形式的距离函数,通过改进聚类步骤,提出了基于指数形式度量距离的量子聚类算法(EDQC),使聚类结果更准确,且对多类样本不需预处理,实验证明指数形式的距离函数使EDQC算法在样本预处理方面比qc和edqc算法更好。

数据聚类方法通常是基于几何或概率考虑的,而基于数据空间中点位置的无监督学习分类问题的定义通常是病态的。因此,基于其他领域研究的经验在构造新的启发式算法时或许颇为有用。这里我们给出了一个基于量子力学工具的模型。

我们从尺度空间算法开始,先介绍parzen窗的概念。Parzen是非参数估计的一种,非参数估计是密度函数的形式未知,也不作假设,利用训练数据直接对概率密度进行估计,又称作模型无关方法。

edqc算法使用基于数据概率分布的parzen窗估计。使用高斯核函数,该高斯核函数是由概率分布为(14.2)式的d维欧几里得空间中的N个数据点中产生的,再到全面的标准化,该表达式为一个全面的标准化形式:

其中,xi是数据点。看来将函数的最大值与聚类中心关联在一起是自然的。

相同种类的高斯是另一种方法,支撑矢量机聚类的基础,将抽象的hilbert空间中的向量和N个数据点xi相关联。

这里我们仍然考虑hilbert空间,但与核方法不同的是,在核方法中,hilbert空间是隐式的,而我们使用的是作为hilbert空间基本框架的Schrdinger等式。所以说,EDQC算法和QC算法强调的是Schrdinger势能,该势能的最小值将决定聚类中心。并且这个势能是Schrdinger等式的一部分,y是它的一个解。

14.1二维数据空间的例子

14.1.1Crab数据

为了显示新方法的优良性能,本书讨论了crab数据集合。该数据集合定义在一个五维的参数空间上。当根据相关矩阵的第二和第三个主成分来分析时,可以将200个样点较好地分到四类中。因此将这个问题当成我们的第一个测试实例。我们给出了数据以及参数宽度为的parzen概率分Y(x)图中。我们观察到一个最大值;不同符号标记四类数据。显而易见,根据文献中的方法,这个宽度还不是足够小到能推出正确的聚类。因此我们推断必需的信息已经够用了。然而,需要用量子聚类方法得出结果。

势能在数据区域外以平方速度增长。这是等式(14.3)中:

的普通特性,E设置了可以发现势能结构的相关尺度。如果减小宽度,可得到更多的结构。因此,对于s=1/2,会出现多于两个的最小值。尽管如此,它们的位置较高而且只包含较少的几个数据点。

14.1.2iris数据

第二个例子采用Iris数据集。该数据集是一个标准的测试集合,可以从uci知识库得到。这里,在由前两个主成分定义的二维空间中,应用EDQC算法中聚类,显示了s=0.25的情况,给出了一个基本较好的分类结果。将150个样点分别分到了它们本应属于的三个类别中。

14.2 指数形式的距离公式

在聚类算法中通过度量距离指派数据点时,多数采用欧氏距离去度量,X={x1,x2,…,xn}是数据集,xik,xjk表示k维空间中的向量。

14.3EDQC算法描述

利用上面得到的指数形式的距离度量公式可将数据点指派到相应的聚类中心中。在聚类过程中,应先求出数据点势能的大小,再用其确定聚类中心,然后完成数据点的指派,因此,EDQC算法分成六步完成。量子聚类算法EDQC描述如下:

第一步初始化d,k是聚类个数,d是度量距离。

第二步计算样本的势能V。

第三步在样本的{Vn}中由小到大选出k个势能点,相应的数据点xi((1≤i≤k))做为k个聚类中心。

第四步选取一个未聚类的样本,计算它与k个聚类中心的距离,d(i,c),(1≤c≤k)表示第i个数据点到第c个聚类中心的距离,找出min(d(i,c)),说明第i个数据点划分到相应的第c类中,并从样本集X中删除这个样本。

第五步若X不为空,则转第四步。

第六步如果X为空,算法结束。

由以上算法产生k个聚类,聚类中心用nk(1≤i≤k)表示。EDQC算法在指派数据点时,不需像qc算法的迭代过程,且采用了指数形式的距离公式,因此减少了运行时间,降低了数据预处理方面的要求,而且提高了聚类准确度。

14.4s参数的确定

在crab数据实验中,当s减少到1/2时,V(x)的最小值变得更深并且产生了两个新的最小值。然而,第二个实验并不是较显着,因为它们具有较高的值。因而,如果我们根据数据点在V(x)表面的地形位置将它们分到不同的类,那么s=1/2和会得到大致相同的聚类指派。当s进一步减小时,y中的最大值越来越多,而V中的最小值也越来越多。

算法中参数s表示要探测的距离。因此,我们期望找到与临近信息同等重要的聚类。所以,可以持续变化s,以寻求聚类解的稳定性,或主动限制s取得较高的值,一旦基本上没有类被波及就停止搜索。

14.5EDQC算法实验分析

14.5.1PCA预处理

由于聚类处理的数据量是海量的,而且形式是多样的,所以在做分析时,为了能得到更好的效果,需要做一些预处理。在预处理中,PCA预处理是比较有代表性的处理之一。

由于各种测量到的数据通常是以矩阵的形式记录、表达和存储的,实际中的很多数据信息往往是重叠与冗余的。从线性代数的观点来看,就是说这些数据矩阵中存在相关的行或列。因此需要对其进行处理和提炼,抽取出有意义、独立的变量。一般来说,我们希望能用一个或少数几个综合指标来代替原来的分数表做统计分析,而且希望新的综合指标能够尽可能地保留原有信息,并具有最大的方差。主成分分析(Principal Component Analysis,简称PCA)是一种常用的基于变量协方差矩阵对信息进行处理、压缩和抽提的有效方法。

Pca的目的是压缩变量个数,用较少的变量去解释原始数据中的大部分变量,剔除冗余信息。即将许多相关性很高的变量转化成个数较少、能解释大部分原始数据方差且彼此互相独立的几个新变量,也就是所谓的主成分。这样就可以消除原始变量间存在的共线性,克服由此造成的运算不稳定、矩阵病态等问题,压缩变量个数,剔除冗余信息,使模型能够更好地反映真实情况。

PCA分析在很多领域中都有广泛的应用(模式识别、化学组分的定量分析、多元物系的组分数目确定、动力学反应机理的确定等)。

PCA分析原理是根据方差最大化原理,用一组新的、线性无关且相互正交的向量来表征原来数据矩阵的行(列)。这组新向量(主成分)是原始数据向量的线性组合。通过对原始数据的平移、尺度伸缩(减均值除方差)和坐标旋转(特征分解),得到新的坐标系(特征向量)后,用原始数据在新坐标系下的投影(点积)来替代原始变量。

PCA分析能找到表现原始数据中最重要的变量的组合,通过表示最大的方差,能直观有效地反映出样本之间的关系,能从最大的几个主成分的得分来近似反映原始的数据阵的信息。

14.5.2EDQC算法实验分析

为了验证EDQC量子聚类算法的有效性和可行性,本书在iris样本集合上做了聚类实验,该数据集是一个标准的测试集合,可以从uci知识库得到。它包含150个样本,可分成3类四维样本,每类样本数是50个,其中一类和其他两类线性可分,另外两类线性不可分,实验用edqc和qc两个算法分别对样本做聚类实验。为了能够更好地比较聚类效果,本书利用了聚类准确度这个概念,它是被正确聚类的数据点与样本数的比值。

选择qc算法时,若不对样本进行预处理,在d取值非常小时,才能分成三类,但错分的数据点相当多。若对样本进行svd和normc预处理,在d=0.6时,能将样本分成三类。如果对样本进行PCA预处理,在两个主成分定义的二维空间中,数据点被聚成两类,将线性可分的聚成一类,将线行不可分的聚成一类,左侧的点是线性可分的一类,右侧的点是线性不可分的一类。

本书中,在采用EDQC算法时,若在过程中用欧氏距离度量,数据集则需预处理,否则会有大量的数据点将被错分。如果采用指数形式的距离公式度量数据点,则数据集不需任何的预处理,就能划分成三类,且错分的数据点比较少。

从上表可知,qc算法需对样本做svd和normc预处理且在d=0.6时,聚类准确度为82%,但在第二类和第三类的错分点比较多,这两类是线性不可分的。EDQC算法在对数据点不做任何处理时,聚类准确度便达到了90.6%,得到了满意的结果。

14.6EDQC算法在更高维空间的应用

在高维空间的问题上,本书采用了qc算法的结论。在iris问题中,采用前两个主成分分量就得到了较好的聚类结果,但是在crab问题中,描述正确的分类必须是第2、3个分量。然而,一旦意识到这一点,放入第一个主成分分量也不会带来不好的结果,这需要在由前三个主成分分量张成的三维空间上运行。在高维空间中,用较好的计算网格计算V(x)是艰巨的任务。为了减小复杂度,这个方法不仅可以对最小值所处的位置给出一个近似的估计,而且能将复杂度减少到N2而与维数无关。

本章针对qc算法的缺点,提出了基于指数形式度量距离的量子聚类算法EDQC,描述了它的运行原理、步骤和方法,并用实验分析了此算法。该算法在聚类过程中,利用势能公式得出所需的k个势能最低点,并且直接使用改进的指数形式的距离公式度量数据点与k个聚类中心的距离。实验表明采用EDQC算法聚类,iris数据集不需预处理便能聚成三类,且在聚类准确度上比qc更高。

同类推荐
  • 玩转手机

    玩转手机

    本书主要包括:手机的发展历史、手机知识、手机的选购与巧用、手机与网络、手机短信等内容。
  • 中文版3dsMax2010实例与操作

    中文版3dsMax2010实例与操作

    本书结合3dsMax2010的实际用途,按照系统、实用、易学、易用的原则,通过大量案例介绍了3dsMax2010的各项功能,内容涵盖3dsMax入门、创建和编辑二维图形、创建基本三维模型、使用修改器、网格建模、多边形建模、面片建模、复合建模、材质和贴图、灯光和摄影机、渲染、动画制作、粒子系统、空间扭曲和动力学等。
  • 中国3D打印的未来

    中国3D打印的未来

    自2012年以来,有关3D打印的报道屡见报端,这一新型制造技术引起了全世界的广泛关注。《中国3D打印的未来》作者、中国3D打印技术产业联盟秘书长罗军认为,中国从20世纪90年代初开始涉足3D打印技术,并取得了巨大进展,但与国外同行相比仍存在一定差距。特别是中国3D打印企业普遍存在“小而散”、各自为政的现象,如何发挥整合优势、抱团发展是目前亟需解决的问题。如果能够加强同行合作,抱团发展,形成合力,相信3D打印会成为唯一一项中国有可能赶超世界先进水平的技术。
  • 办公设备使用与维护

    办公设备使用与维护

    信息技术的发展正前所未有地改变着人类生活的每一个层面,以信息化、全球化和高科技为特征的新经济浪潮滚滚而来,机遇与挑战并存。办公自动化是信息化时代最重要的标志之一,办公要实现自动化,当然离不开办公设备。
  • EDA技术

    EDA技术

    根据课堂教学和实验操作的要求,以提高实际工程设计能力为目的,深入浅出地对EDA技术相关知识作了系统和完整的介绍,相关知识作了系统和完整的介绍。
热门推荐
  • 永济融禅师语录

    永济融禅师语录

    本书为公版书,为不受著作权法限制的作家、艺术家及其它人士发布的作品,供广大读者阅读交流。
  • 我只是想做条咸鱼

    我只是想做条咸鱼

    辰焱铭,因为一次同学聚会而流落荒岛,啊!我只想做条咸鱼啊!我这都第三个月了,看来是没有希望等到救援了。然而当他回到大陆的时候,发现世界已经变了,虽然还是那个世界,但已是人间地狱,到处都是丧尸,然后……灵儿把这个丧尸解剖研究一下。灵儿:好的我这就去…竟然是宇宙之心,宇宙中真的有这个东西!嘿嘿……火种……变形金刚……要不造一个赛博坦出来!虫族?我还有我的机器人大军呢!……
  • 人生转折点倒计时

    人生转折点倒计时

    进入高考倒计时81天的故事,从家庭矛盾爆发到回到学校的故事,希望十年之后的自己看到现在的我能够问心无愧
  • OMG!黑涩会三千金

    OMG!黑涩会三千金

    三个漂亮的黑道千金∶她高贵,她可爱,她调皮,这三个绝世MM是为了完成任务才会到中国的,可是却好死不死的遇见三个爆帅的贵族GG∶他冰冷,她温柔,他邪恶,“校草又怎么样,我们还是人见人爱,车见车撞的大美女呢,你们三个臭小子别以为帅就可以欺负人,就算是上帝、圣母玛利亚,也不敢动我们一根头发,更何况是你们!”,“哪来这么机车的女生呀?,我们三魅力指数破万点的GG会怕你们这三个小丫头,笑得我们肚子都快饿了!”
  • 我是半个魔法师

    我是半个魔法师

    生活在海边小渔村却体质非凡,凭借自己探索所领悟自己的一套武学,从而灭魔诛神
  • 绝命无常之前序

    绝命无常之前序

    阴史记载,神冥两界大战,实力本不相上下,但神界以人数众多的优势,不惜自爆,成功拖住酆都大帝,妖魔鬼怪魑魅魍魉趁机逃脱,冥界大乱。战后,不少妖魔逃到人界为非作歹,酆都大帝派出众多鬼将以黑白无常为首,将他们擒拿归案。(故事虚构,切勿当真!)
  • 一生最爱纳兰词

    一生最爱纳兰词

    本书收录的纳兰容若的词,是对他一生情感的真实写照。书中所附原文、笺注、典评等栏目,从多角度将词作的主题思想、创作背景、词人境况以及词作的意境、情感全面地展示出来。同时,同词情词境相契合的人物画像、山水景物以及情景图等,通过多种视觉要素的有机结合,达到“词中有画,画中有词”的艺术境界。轻轻翻开这本书,透过近二百首婉丽隽秀、明净清婉、感人肺腑的小令长调,仿佛能看到那个拥有着绝世才华、出众容貌、高洁品行的人站在那里,散发着一股遗世独立、浪漫凄苦的气息,华美至极,多情至极,深沉至极,孤独至极。一个才华横溢、欲报效国家而早早离世,一个因爱而陷入爱的旋涡中挣扎的多情男子,都尘封在这本《一生最爱纳兰词》里。
  • 黑羽之恋

    黑羽之恋

    掉落至人间,死了吧......没死!What?居然灵魂附体了?你没逗我?好吧,这是事实......掉落人间也就算了,灵魂附体也就算了,居然还遇到吸血鬼!!!作者,敢再吊一点吗?
  • 极幻之道

    极幻之道

    此异界,谓之幻界。以幻入道,是为幻师。幻,能惑人心、乱人道。天下之物,无幻不能。一切有形的、无形的攻击,皆可在拂掌捏诀之间,凭空突现。企鹅群:666、153、587
  • 宫斗是不存在的

    宫斗是不存在的

    掌管三千世界万鬼的阎罗言落吃了自己做的黑暗料理后,迷迷糊糊就变成某架空王朝将要进宫的一名秀女。言落虽然大佬,但是怎么也找不着变回去的方法,只能在后宫先混混。结果,混着混着,一不小心,就俘获了后宫三千佳丽的芳心!!!【小剧场】皇帝可怜兮兮:朕不止得防着男人盯上自己媳妇,还得防着一群女的抢走媳妇的注意力。德妃:啊啊啊,言贵妃吃了我做的糕点!今天也是要承包女神三餐和下午茶的一天呢。淑妃:呵,言贵妃今天可是称赞我书画不错呢。良妃:言贵妃一下午都在看我跳舞呢!贤妃:去去去,我这花瓶里插着的可是言贵妃摸过的茉莉呢。皇帝:哼,言贵妃今天又在我怀里。贤良淑德:……滚。……后来,言落发现,她变回去的关键是那狗皇帝——她得shui他8888次,才能恢复修为。(双洁宠文,超爽)