Transactions on Computer Science and Technology June 2013, Volume 2, Issue 2, PP.17-23
HLLE Algorithm Based on the Weighted Distance Shuaibin Lian1#, Qiuli Kong2, Xianhua Dai1 1. College of Information Science and Technology, Sun Yat-sen University, Guangzhou 510006, China 2. College of Mathematical Sciences, Guangxi Normal University, Guangxi 541004, China #
Email: shuai_lian@qq.com
Abstract HLLE is an effective nonlinear dimension reduction algorithm and is widely explored into machine learning, pattern recognition, data mining and etc. However, HLLE is very sensitive to the neighborhood selection and non-uniformed data sampling. In this paper, an improved HLLE based on weighted distance named WHLLE is proposed which can avoid the unreasonable neighborhood selection by using weighted Euclidean distance. Furthermore, WHLLE not only can have a better effect of dimension reduction but also can preserve the intrinsic geometry structure of the original manifolds. We validate the performances of WHLLE on the two classical artificial manifolds. The experiments on artificial manifolds confirm that WHLLE can keep the relationship of neighborhood of the data point, global distributions and intrinsic structures of the data better than other related Algorithms. Keywords: Machine Learning; Dimension Reduction; Hessian Locally Linear Embedding (HLLE) Algorithm; Weighted Distance
基于加权距离的 HLLE 算法* 连帅彬 1,孔秋丽 2,戴宪华 1 1.中山大学信息科学与技术学院,广东 广州 5100061 2.广西师范大学数学科学学院,广西 桂林 541004 摘
要:海赛局部线性嵌入(Hessian Locally Linear Embedding,HLLE)是一种非常有效的非线性数据降维方法,被广泛
应用于机器学习,模式识别,数据挖掘等领域。但是 HLLE 算法对邻域的选择和非均匀数据采样非常的敏感。本文提出 一种基于加权距离的 HLLE 算法(WHLLE) ,该算法采用加权距离的邻域选择方式从而避免了欧式距离选择邻域的不合 理性,而且 WHLLE 在降维的同时能够保持原始流形整体的内在几何结构。我们在两个经典的人工流形上验证了 WHLLE 算法的性能,实验结果表明 WHLLE 除了具有良好的数据降维效果之外,同时还能够保持数据的整体分布和内在几何结 构不变。 关键词:机器学习;数据降维;海赛局部线性嵌入算法;加权距离
1 引言 在机器学习,模式识别,数据挖掘等邻域中经常会遇到高维数据,比如人脸图像,语音图谱等。数据降 维是处理高维数据的非常有效的方法。经典的数据降维的方法大致有主成分分析(PCA)[1] 、多维尺度变换 (MDS)[2]、等距映射(ISOMAP)[3]、局部线性嵌入(LLE)[4]、拉普拉斯特征映射算法(LE)[5]、Hessian 局部线性嵌 入算法(HLLE)[6]等。其中 HLLE 算法被认为是非常有效的非线性数据降维方法,能够较好的恢复出高维数据 的低维结构,同时较好的保持高维数据点的邻域关系不变,从而被广泛的应用在多个领域 [7][8]。但是 HLLE 算法对邻域的选择特别敏感,而且对于非均匀分布的数据流形降维效果欠佳。多年来研究学者们在 HLLE 算 *
基金项目:国家自然科学基金(项目号:G61174163) - 17 http://www.ivypub.org/cst
法的基础上,提出了一些改进的算法[9][10][11][12],这些算法在一定程度上提高和改善了算法的性能。但是大量 的实验表明,邻域选取是否得当严重影响 HLLE 算法的性能,比如当邻域 K<6 时,算法就会完全失败。然而 在 HLLE 算法中,每一点的切空间是通过 PCA 方法估算的。通过我们的研究证明发现,当邻域中点与目标 数据点相差很远时,就会导致流形的低维嵌入发生变形与扭曲。基于这个发现,本文将加权距离应用到 HLLE 算法中得到了基于加权距离的 HLLE 算法(WHLLE)。加权距离是以数据点为中心有权重的选择每个数据点的 邻域,可以有效的避开欧式距离选择邻域的不合理性,从而有效的解决了欧式距离无法准确选取邻域中点的 问题。WHLLE 算法不仅能够有很好的数据降维效果,同时还能保持数据点的整体分布信息和内在几何结构 不变,这是现有多数数据降维方法所不具备的。
2 加权距离 加权距离的主要思想就是:对每一个数据样本都有一个适合于该数据点的邻域选择标准。采用合适的选 择标准选择的邻域能够更好的重构出数据点本身。图 1 显示了加权距离的优势,实线表示利用欧式距离选择 的邻域,虚线表示利用加权距离选择的邻域,加权距离通过赋予密集数据点一个低权重值而稀疏数据点一个 高权重值的方法选择的邻域比欧式距离选择的邻域更加的合理。这种选择邻域的方法可以有效的解决数据畸 形和稀疏采样的问题,对非均匀分布的数据集的邻域选择有很好的效果。
图 1 实线表示欧式距离选择的邻域,虚线表示加权距离选择的邻域。图中很容易看 出加权距离选择的邻域更加合理
定 义 1 : 畸 形 分 布 (deformed distribution) : 对 于 一 个 d 维 标 准 正 态 分 布 N 0,1 的 随 机 向 量 Y Y1 , Y2 ,..., Yd ,概率密度函数为: T
f y Y T 通过变换定义一个新的随机变量 X a b Y
1
2
d 2
e
1 2 yT y
Y 。
其中, Y 表示原始的标准分布, a b 0 表示整体的分布方向和伸缩参数, 是一个标准化向量表示变 形向, Y Y T Y 。从而 X 就表示在方向 上有参数 a 和 b 的变形分布,记为 X Dd a, b, 。
定义 2:加权距离[13](weighted distance) :设 x0 R d 是畸形分布 Dd a, b, 的中心,那么从一个点 x Rd
到 x0 的加权距离定义为: D x0 , x
x x0 T x x0 ab
x x0
值得注意的是,加权距离仅仅是一个距离,不是一个测度,因此 D x0 , x D x, x0 。 - 18 http://www.ivypub.org/cst
3 加权距离的 HLLE 3.1 HLLE算法理论基础 A.问题 设 M RD , M 是一个 d 维流形, Rd , 是开集, M 与 同胚,这里 d
D 。我们要找 M 与 之
间的同胚映射 : M ,使得对于任意 x M , 1 x 即为 x 的低维表示。HLLE 的目标就是要找到这 样的同胚映射 。 基于同胚映射 ,我们定义了一个泛函 fi : M R ,使得对所有的 x M ,都有 fi x 1 x ,这里 i
fi x 表示 1 x 的第 i 个分量, i 1,
, d 。因此这些泛函就与同胚映射 : M 等价。事实上,对任意的
x M ,都有
1 x 1 x 1 , , 1 x d f1 x , , fd x 因此 HLLE 就转化为寻找 f1 ,
(1)
, f d 这 d 个泛函。
B.切空间和局部同胚映射 对任意的 x M ,设 Tx M 表示流形 M 上一点 x 的切空间。可以证明 dim Tx M d ,令 U x 为 D d 的
矩阵,并且 U x 的列向量就是 Tx M 的标准正交基。基于 U x ,定义了一个映射: x : Rd R D 使得对任意的
Rd ,都有 x U x x 。因此 HLLE 就是在基于 x x M 。 C.Hessian 矩阵
M 令 W2,2 表示一个 Sobolev 空间,即它的元素都是平方可积并且两阶连续可导。 M 定义:对任意的 f W2,2 以及任意的 x M ,定义
H
iso
f x H euc f
1 x
, H tan f x H euc f x
0
x M , H iso f x H tan f x
HLLE 算法证明了:
(2) (3)
D.二次泛函 M 对任意的 f W2,2 ,定义两个二次泛函为:
Φiso f
H
iso
f m dm ; Φtan f 2
M
H
tan
f m dm 2
(4)
M
2
这里 A 表示 Frobenius 二次范数。 注:1. iso f 0 x M , H iso f x 0 ;2. tan f 0 x M , H tan f x 0
3.2 WHLL算法步骤 HLLE 是一种恢复流形本质结构的参数化方法,定义一个泛函: f : M R ,基于 f 定义一个二次泛函 H f H f m dm 。如果流形 M 局部同胚于 R d 的一个连通开集,则那么 H f 就有一个 d 1 维的 2
M
F
零空间。它由常函数和一个由原始等距坐标张成的 d 维函数空间。因此,低维等距坐标能够从 H f 的零空 间中恢复。在 3.1 和 3.2 部分给出了 HLLE 算法具体理论和算法关键定理的证明。加权 HLLE 算法如下: 输入: X [ x1 , x2 ,
, xN ] , xi R D , i 1, 2,
, N 表示高维空间中的 N 个数据点
输出: Y [ y1 , y2 ,
, yN ] , yi Rd , i 1, 2,
, N 表示低维空间中的 N 个数据点
条件: d min k , D 步骤如下: - 19 http://www.ivypub.org/cst
选邻域。设对每一个点 xi , i 1,
1)
xi1 xi , x 1 得到 M ,即 M i N i xik xi i
i
, N ,用加权距离确定它的 k 邻域用 N i 表示,然后将邻域集中心化
x
jNi
j
1 k xip ,很明显 M i kD 为 k D k p 1
2)
获得切坐标。对 M i k D 进行 SVD 分解,即 M ki D U k k k DVDTD 。取 U k k 的前 d 列作为切坐标。
3)
d d 1 计算 Hessian 估计子 X i 。由 U ki d 形成矩阵 X i , X i 是 k 1 d 的矩阵,其中第一列为全 2
1 向 量 k1 , 中 间 的 d 列 为 U1i ,U 2i ,
,U di , 后 面 的
d d 1
2
为 U1i ,U 2i ,
,U di 的 外 积 。 即 如 果 d 2 。 则
X i k 1 ,U1i ,U 2i , U1i , U 2i ,U1i U 2i 。
4)
2
正交化。将 X i 进行施密特正交化得到 Xˆ i , Xˆ i 的列向量标准正交。提取最后
到 H i 即 H i rq Xˆ i 5)
2
q1 d r
, r 1, 2,
,
d d 1 2
计 算 Hessian 矩 阵 H 。 令 S S1 ,
, q 1, 2,
d d 1 2
列并且转置得
k。
, S N , Si S1icol , T
T H i pcol , j i p , p 1, , k 则 i , S ijcol , S Ncol 0 j Ni
N d d 1 H S T S SlT Sl , S 是一个 N N 的矩阵,H 是一个 N N 的矩阵。 2 l 1
6) Rrs
计算嵌入。令 V 等于 H 的最小的(d+1)个特征值对应的 d 个非常数特征向量,即 VN d 。定义矩阵
V jr V js ,1 r, s d 。那么嵌入坐标矩阵 W 就等于 WN d
VR
1 2
.
jN j
4 实验效果 为了展示 WHLLE 算法的性能,下面在人工流形 Swiss roll 和 S-curve 上将 WHLLE 算法和几个经典的数 据降维算法进行比较。参与比较的经典数据降维方法有 HLLE,LLE,PCA,LE 等这四种方法。
4.1 WHLLE算法在Swiss roll上的效果 Swiss roll 是一个嵌入在 3 维欧式空间中的 2 维卷曲结构。好的降维方法能够恢复出 swiss roll 的 2 维几 何结构——平面或者卷曲平面,颜色表示数据点的邻域关系。
(a)
(b) - 20 http://www.ivypub.org/cst
(c)
(d)
(e)
(f)
图 2(a)表示原始流形 Swissroll 上采样 1200 个点 10 个邻域.(b)WHLLE 的降维效果,(c)HLLE 算法的降维效果, (d)LLE 算法的效果,(e)PCA 算法的效果,(f)LE 算法的效果
从图 2 的实验结果可以看到,(a)表示原始的 3 维卷曲流形 swiss roll,它的本质维数为 2。因此好的数据 降维方法就是要恢复出 3 为卷曲流形的 2 维结构,同时又能保持高维数据点的邻域关系不变。因此 WHLLE, HLLE,LLE,LE 这四个算法都能恢复出 2 维几何结构,同时保持数据点的邻域关系不变,而 PCA 算法虽然 也恢复出 2 维结构,但是没有能够保持数据点的邻域关系,效果相对较差。因此 WHLLE 有较好的数据降维 效果。同时由于原始流形是 3 维卷曲几何结构,HLLE,LLE,PCA,LE 算法都没有能够保持高维数据的整 体几何分布信息,只有 WHLLE 算法在降维的同时能保持高维数据的内在几何结构。
4.2 和WHLLE算法在S-curve上的效果 S-curve 也是一种经典的人工流形,由于它是一个嵌入在 3 维欧式空间中的 2 维 S 形卷曲结构。好的降维 算法能够恢复出 S-curve 的本质几何结构——平面或者 S 形平面。
(a)
(d)
(b)
(e)
(c)
(f)
图 3(a)表示原始流形 Scurve 上采样 1200 个点 10 个邻域.(b)为加权 HLLE 的降维效果,(c)为 HLLE 算法的降维效果, (d)为 LLE 算法的效果,(e)PCA 算法的效果,(f)LE 算法的效果.
从图 3 的实验结果可以看到,(a)表示原始的 3 维卷曲流形 S-curve,它的本质维数为 2。因此好的数据降 维方法就是要恢复出 3 为卷曲流形的 2 维结构,同时又能保持高维数据点的邻域关系不变。参与比较的五个 - 21 http://www.ivypub.org/cst
算法都能很好的恢复出 S-curve 的 2 维结构,同时保持数据点的邻域关系不变。WHLLE 具有较好的数据降维 效果。同时由于原始流形是 3 维 S 形几何结构,HLLE,LLE,PCA,LE 算法都没有能够保持高维数据的整 体几何分布信息,只有 WHLLE 算法在降维的同时能保持高维数据的内在 S 形几何结构。
4.3 算法结果分析 在 4.1,4.2 中给出了加权距离 HLLE 算法在各个人工流形上的实验效果,并和经典算法的实验效果做了 简要的对比。由于 Swissroll,Scurve 都是嵌入在三维欧式空间中的二维流形,它的本质维数是二维,因此一 个好的数据降维方法既能很好的恢复出这些流形的二维结构又能保持高维流形的整体几何结构。从图 2(a)中 可以看出原始流形是一个卷曲的瑞士卷结构,WHLLE,HLLE,LLE,PCA,LE 这些经典算法在这个人工流 形上都有很好的降维效果,即保持了高维数据点的局部邻域关系,恢复了原始流形的 2 维结构。但是 HLLE, LLE,PCA,LE 都没有保留原始流形在高维空间的几何结构,即 Swiss roll 的卷曲结构,而 WHLLE 算法在 降维的同时还能保持这种内在的整体几何分布结构特征;从图 3(a)中看到原始流形是一个 S 形的曲面结构, WHLLE,HLLE,LLE,PCA,LE 这些经典算法在这个人工流形上都有很好的降维效果,即保持了高维数据 点的局部邻域关系,恢复了原始流形的 2 维结构。但是 HLLE,LLE,PCA,LE 都没有保留原始流形在高维 空间的 S 形结构而 WHLLE 算法降维的同时还能保持这种 S 形结构特征。
5 结束语 HLLE 算法是一种非常有效的非线性数据降维方法,有着非常广泛的应用,但是在处理畸形数据时效果 往往较差,如何改善 HLLE 算法的泛化能力成为关键。本文完整的描述了 HLLE 算法的理论基础,同时将加 权距离引入到 HLLE 算法中得到一种加权距离的 HLLE 算法,有效的改善了 HLLE 算法在处理畸形数据流形 时利用欧式距离选择邻域的不合理性,同时还可以有效的保持高位数据流形的整体几何结构。并且对 WHLLE 效果在经典的人工流形上和主流的数据降维算法进行了实验对比,通过实验进一步证实了 WHLLE 算法不仅 能有很好的降维效果同时还能有效的保存高维数据流形的整体几何分布结构。
REFERENCES [1] Jolliffe, Principal Component Analysis, second ed., Springer, New York, 2002 [2] T.F. Cox, M.A.A. Cox, Multidimensional Scaling, Chapman & Hall, London, 1994. [3] Joshua B Tenenbaum et al. A Global Geometric Framework for Nonlinear Dimensionality Reduction, Science, 2000 [4] S. T. Roweis and L. K. Saul, Nonlinear dimensionality reduction by locally linear embedding, Science, 2000 [5] M. Belkin, et al.. Laplacian eigenmaps and spectral techniques for embedding and clustering, NIPS, Vancouver, Canada, 2001. [6] David
L. Donobo, et al Hessian eigenmaps: Locally Linear embedding techniques for high-dimensional data, Proceedings of the
National Academy of Sciences, 2003 [7] Shanwen Zhang, Ying-KeLei. Modified locally linear discriminant embedding for plant leaf recognition. Neurocomputing, 74 (2011): 2284-2290. [8] Carlotta Orsenigo, Carlo Vercellis. A comparative study of nonlinear manifold learning methods for cancermicroarray data classification. Expert Systems with Applications 40 (2013): 2189-2197 [9] Zhang Zhenyue,Zha Hongyuan. Principal manifolds and nonlinear dimensionality reduction via tangent space alignment. SIAM Journal on Scientific Computing, 2004,26(1): 313-338 [10] Abdel-Mannan, O., Ben Hamza, A., Youssef, A., Incremental Hessian Locally Linear Embedding algorithm , International Symposium on Signal Processing and Its Applications, 2007, pp.1- 4 [11] E. Pekalska, A. Harol, R. Duin, B. Spillmann, H. Bunke, Non-euclidean or non- metric measures can be informative, in: Structural, Syntactic, and Statistical Pattern Recognition, 2006, pp.871-880 [12] Sumin Zhang, Qiuli Kong. An Improved HLLE Algorithm Based on the Midpoint-Nearest Neighborhood Selection. Proceeding of - 22 http://www.ivypub.org/cst
the IEEE International Conference on Automation and Logistics Zhengzhou, China, August 2012, pp.190-195 [13] C.Y. Zhou, Y.Q. Chen, Improving nearest neighbor classification with cam weighted distance, Pattern Recognition, 2006, 39, pp. 1-11
【作者简介】 1
连帅彬,中山大学博士,研究方向:数
3
戴宪华,教授,中山大学博士生导师,研究方向,无线通信
据挖掘与生物医学信息处理。2006 年 6
与生物信息处理。1985 年 7 月,海军电子工程学院声呐工程
月河南大学信息与计算专业本科毕业。
专业本科毕业;1988 年 4 月东南大学水声信号处理专业硕士
2006 年 7 月-2009 年 6 月,商丘学院计
毕业;1992 年 3 月东南大学信号与信息处理专业博士毕业;
算机系教师。2009 年 9 月-2011 年 6 月
1993 年 3 月-1994 年 10 月华南理工大学无线电研究所博士后。
中山大学电子与信息工程硕士毕业,
1995 年 4 月调入汕头大学电子工程系;1999 年 12 月破格提
2011 年 9 月-至今,中山大学信息与通信工程,博士生。 2
孔秋丽,商丘学院教师,广西师范大学
硕士研究生,研究方向:数据统计与信
前一年评为教授。2001,10-2002,10 美国新泽西理工学院高 级访问学者。2003,8 调入中山大学电子系工作,现为中山 大学教授、博士生导师。
息处理。2006 年 6 月武汉大学数学与应 用数学专业本科毕业。 2006 年 7 月-20012 年 6 月,商丘学院计算机系教师。
- 23 http://www.ivypub.org/cst