Cluster JOGO

download Cluster JOGO

of 22

Transcript of Cluster JOGO

  • 8/2/2019 Cluster JOGO

    1/22

    A D e c i s i o n C r i t e r i o n f o r t h e O p t i m a l N u m b e r

    o f C l u s t e r s i n H i e r a r c h i c a l C l u s t e r i n g

    Y u n j a e J u n g ( y u n j a e @ c s . u m n . e d u )

    Q w e s t C o m m u n i c a t i o n s , 6 0 0 S t i n s o n B l v d . , M i n n e a p o l i s , M N 5 5 4 1 3

    H a e s u n P a r k ( h p a r k @ c s . u m n . e d u )

    y

    D e p a r t m e n t o f C o m p u t e r S c i e n c e a n d E n g i n e e r i n g U n i v e r s i t y o f M i n n e s o t a ,

    M i n n e a p o l i s , M N 5 5 4 5 5 a n d K o r e a I n s t i t u t e f o r A d v a n c e d S t u d y 2 0 7 - 4 3

    C h e o n g r y a n g r i - d o n g , D o n g d a e m u n - g u S e o u l 1 3 0 - 0 1 2 , K O R E A

    z

    D i n g - Z h u D u ( d z d @ c s . u m n . e d u )

    D e p a r t m e n t o f C o m p u t e r S c i e n c e a n d E n g i n e e r i n g U n i v e r s i t y o f M i n n e s o t a ,

    M i n n e a p o l i s , M N 5 5 4 5 5

    B a r r y L . D r a k e ( b l d r a k e 1 @ y a h o o . c o m )

    C D T , I n c . , M i n n e a p o l i s , M N 5 5 4 5 4

    J a n . 2 1 , 2 0 0 2

    A b s t r a c t . C l u s t e r i n g h a s b e e n w i d e l y u s e d t o p a r t i t i o n d a t a i n t o g r o u p s s o t h a t

    t h e d e g r e e o f a s s o c i a t i o n i s h i g h a m o n g m e m b e r s o f t h e s a m e g r o u p a n d l o w a m o n g

    m e m b e r s o f d i e r e n t g r o u p s . T h o u g h m a n y e e c t i v e a n d e c i e n t c l u s t e r i n g a l g o -

    r i t h m s h a v e b e e n d e v e l o p e d a n d d e p l o y e d , m o s t o f t h e m s t i l l s u e r f r o m t h e l a c k o f

    a u t o m a t i c o r o n l i n e d e c i s i o n f o r o p t i m a l n u m b e r o f c l u s t e r s .

    I n t h i s p a p e r , w e d e n e c l u s t e r i n g g a i n a s a m e a s u r e f o r c l u s t e r i n g o p t i m a l i t y ,

    w h i c h i s b a s e d o n t h e s q u a r e d e r r o r s u m a s a c l u s t e r i n g a l g o r i t h m p r o c e e d s . W h e n

    t h e m e a s u r e i s a p p l i e d t o a h i e r a r c h i c a l c l u s t e r i n g a l g o r i t h m , a n o p t i m a l n u m b e r o f

    c l u s t e r s c a n b e f o u n d . O u r c l u s t e r i n g m e a s u r e s h o w s g o o d p e r f o r m a n c e p r o d u c i n g

    i n t u i t i v e l y r e a s o n a b l e c l u s t e r i n g c o n g u r a t i o n s i n E u c l i d e a n s p a c e a c c o r d i n g t o t h e

    e v i d e n c e f r o m e x p e r i m e n t a l r e s u l t s . F u r t h e r m o r e , t h e m e a s u r e c a n b e u t i l i z e d t o

    e s t i m a t e t h e d e s i r e d n u m b e r o f c l u s t e r s f o r p a r t i t i o n a l c l u s t e r i n g m e t h o d s a s w e l l .

    T h e r e f o r e , t h e c l u s t e r i n g g a i n m e a s u r e p r o v i d e s a p r o m i s i n g t e c h n i q u e f o r a c h i e v i n g

    a h i g h e r l e v e l o f q u a l i t y f o r a w i d e r a n g e o f c l u s t e r i n g m e t h o d s .

    1 . I n t r o d u c t i o n

    C l u s t e r i n g r e f e r s t o t h e p r o c e s s o f g r o u p i n g p a t t e r n s s o t h a t t h e p a t -

    t e r n s a r e s i m i l a r w i t h i n e a c h g r o u p a n d r e m o t e b e t w e e n d i e r e n t g r o u p s

    1 ] . T h e d i s t r i b u t i o n o f g r o u p s c a n b e d e n e d a s a c l u s t e r c o n g u r a t i o n .

    z

    A p a r t o f t h i s w o r k w a s c a r r i e d o u t w h i l e H . P a r k w a s v i s i t i n g t h e K o r e a

    I n s t i t u t e f o r A d v a n c e d S t u d y , S e o u l , K o r e a , f o r h e r s a b b a t i c a l l e a v e , f r o m S e p t e m b e r

    2 0 0 1 t o J u l y 2 0 0 2 .

    T h e w o r k o f t h i s a u t h o r w a s s u p p o r t e d i n p a r t b y t h e N a t i o n a l S c i e n c e

    F o u n d a t i o n g r a n t C C R - 9 9 0 1 9 9 2

    y

    T h e w o r k o f t h i s a u t h o r w a s s u p p o r t e d i n p a r t b y t h e N a t i o n a l S c i e n c e

    F o u n d a t i o n g r a n t C C R - 9 9 0 1 9 9 2

    c

    2 0 0 2 K l u w e r A c a d e m i c P u b l i s h e r s . P r i n t e d i n t h e N e t h e r l a n d s .

    c l u s t e r . t e x ; 2 3 / 0 1 / 2 0 0 2 ; 1 2 : 4 0 ; p . 1

  • 8/2/2019 Cluster JOGO

    2/22

    2

    T h e c l u s t e r c o n g u r a t i o n i s v a l i d i f c l u s t e r s c a n n o t r e a s o n a b l y o c c u r

    b y c h a n c e o r a s a b e n e c i a l a r t i f a c t o f a c l u s t e r i n g a l g o r i t h m 2 ] . A n

    o p t i m a l c l u s t e r c o n g u r a t i o n i s d e n e d a s a n o u t c o m e o f a l l p o s s i b l e

    c o m b i n a t i o n s o f g r o u p i n g s , w h i c h p r e s e n t s a s e t o f t h e m o s t \ m e a n -

    i n g f u l " a s s o c i a t i o n s . E v e n i f t h e d e n i t i o n o f c l u s t e r i n g i s t h a t s i m p l e ,

    e v a l u a t i o n o f c l u s t e r i n g p e r f o r m a n c e i s w e l l k n o w n a s a f u n d a m e n t a l

    b u t d i c u l t p r o b l e m . O n e r e a s o n i s t h a t c l u s t e r i n g s h o u l d b e p e r f o r m e d

    w i t h o u t a p r i o r i u n d e r s t a n d i n g o f t h e i n t e r n a l s t r u c t u r e o f t h e d a t a .

    I n a d d i t i o n , i t i s i m p o s s i b l e t o d e t e r m i n e w h i c h d i s t r i b u t i o n o f c l u s t e r s

    i s b e s t g i v e n c e r t a i n i n p u t p a t t e r n s w i t h o u t a n o b j e c t i v e m e a s u r e f o r

    c l u s t e r i n g o p t i m a l i t y . T h u s , t h e r e h a v e b e e n m a n y a t t e m p t s t o f o r -

    m u l a t e a m e a s u r e o f o p t i m a l c l u s t e r i n g i n t h e p a s t . H o w e v e r , o n l y a

    s m a l l n u m b e r o f i n d e p e n d e n t c l u s t e r i n g c r i t e r i a c a n b e u n d e r s t o o d b o t h

    m a t h e m a t i c a l l y a n d i n t u i t i v e l y 1 2 , 2 ] . C o n s e q u e n t l y , t h e h u n d r e d s o f

    c r i t e r i o n f u n c t i o n s p r o p o s e d i n t h e l i t e r a t u r e a r e r e l a t e d a n d t h e s a m e

    c r i t e r i o n a p p e a r s i n s e v e r a l d i s g u i s e s 3 , 4 , 5 , 6 , 7 ] .

    E v e n t h o u g h a n o b j e c t i v e m e a s u r e i s g i v e n , t h e d i c u l t y o f o p t i m a l

    c l u s t e r i n g s t e m s f r o m t h e a s t o u n d i n g n u m b e r o f p o s s i b l e c o m b i n a -

    t i o n s o f c l u s t e r c o n g u r a t i o n s 8 ] . T h e n u m b e r o f w a y s o f g e n e r a t -

    i n g k c l u s t e r s f r o m n p a t t e r n s i s a S t i r l i n g n u m b e r o f t h e s e c o n d

    k i n d 9 , 1 0 , 1 1 ] :

    S

    ( k )

    n

    =

    1

    k !

    k

    X

    i = 1

    ( 1 )

    ( k i )

    k

    i

    i

    n

    :

    I n p a r t i c u l a r , t h e h u g e v o l u m e o f d a t a a n d t h e p o t e n t i a l l y h i g h d i m e n -

    s i o n a l i t y o f t h e p a t t e r n s i n c r e a s e t h e d i c u l t y o f a c h i e v i n g a m e a s u r e

    f o r o p t i m a l c l u s t e r i n g . F u r t h e r m o r e , i t i s h a r d t o s e l e c t a c r i t e r i o n t h a t

    t r a n s l a t e s i n t o a n i n t u i t i v e n o t i o n o f a \ c l u s t e r " f r o m a r e a s o n a b l e

    m a t h e m a t i c a l f o r m u l a 1 2 ] . F e a t u r e s e l e c t i o n b e f o r e c l u s t e r i n g a n d c l u s -

    t e r l a b e l i n g a f t e r c l u s t e r i n g a r e a l s o c h a l l e n g i n g p r o b l e m s . A s a r e s u l t ,

    m a n y c l u s t e r i n g a l g o r i t h m s t o d a t e h a v e b e e n h e u r i s t i c o r a d h o c 1 2 , 2 ] .

    S i n c e n o i d e a l s o l u t i o n t o t h e o p t i m a l c l u s t e r i n g p r o b l e m h a s e x -

    i s t e d f r o m e a r l y c l u s t e r i n g r e s e a r c h 1 3 ] , r e c e n t l y p r o p o s e d a l g o r i t h m s

    h a v e f o c u s e d m o s t l y o n e c i e n c y 1 4 , 1 5 , 1 6 , 1 7 , 1 8 , 1 9 ] a n d s c a l a b i l -

    i t y 2 0 , 2 1 , 2 2 , 2 3 , 2 4 , 2 5 ] t o r e d u c e t h e c o m p u t a t i o n a l c o s t a n d i n c r e a s e

    p r o c e s s i n g c a p a b i l i t y , r e s p e c t i v e l y . I t m a y b e p o s s i b l e t o p r o d u c e a

    c l u s t e r c o n g u r a t i o n v e r y q u i c k l y a n d p r o c e s s h u g e a m o u n t s o f d a t a

    a t o n c e . H o w e v e r , o f t e n t h e r e i s n o g u a r a n t e e o f a c h i e v i n g a n o p t i m a l

    o r c l o s e - t o - o p t i m a l c l u s t e r i n g c o n g u r a t i o n .

    W e p r o p o s e a m e t h o d t o m e a s u r e c l u s t e r i n g o p t i m a l i t y q u a n t i -

    t a t i v e l y w i t h a p u r p o s e t o u s e i t t o d e t e r m i n e a n o p t i m a l n u m b e r o f

    c l u s t e r s i n v a r i o u s c l u s t e r i n g a l g o r i t h m s . T h e m e t h o d h a s b e e n d e s i g n e d

    c l u s t e r . t e x ; 2 3 / 0 1 / 2 0 0 2 ; 1 2 : 4 0 ; p . 2

  • 8/2/2019 Cluster JOGO

    3/22

    3

    0 5 10 15 200

    2

    4

    6

    8

    10

    12

    (a) Raw cluster configuration0 5 10 15 20

    0

    2

    4

    6

    8

    10

    12

    (b) Underclustered configuration

    0 5 10 15 200

    2

    4

    6

    8

    10

    12

    (c) Optimal cluster configuration0 5 10 15 20

    0

    2

    4

    6

    8

    10

    12

    (d) Overclustered configuration

    F i g u r e 1 . A s e r i e s o f s n a p s h o t s o f c l u s t e r i n g c o n g u r a t i o n s i n E u c l i d e a n d i s t a n c e .

    b a s e d o n t h e a s s u m p t i o n t h a t t h e o p t i m a l c l u s t e r c o n g u r a t i o n c a n

    b e r e c o g n i z e d o n l y b y t h e i n t u i t i v e a n d s u b j e c t i v e i n t e r p r e t a t i o n o f

    a h u m a n . S i n c e i n t u i t i v e v a l i d a t i o n o f c l u s t e r i n g o p t i m a l i t y c a n b e

    m a x i m i z e d i n t w o d i m e n s i o n a l f e a t u r e s p a c e , i t i s u s e f u l t o c o n s i d e r

    t w o d i m e n s i o n a l E u c l i d e a n s p a c e f o r t h e s a k e o f a n o b j e c t i v e d e c i s i o n

    a s d e p i c t e d i n F i g u r e 1 .

    I n o r d e r t o q u a n t i f y c l u s t e r i n g o p t i m a l i t y , w e i n t r o d u c e c l u s t e r -

    i n g g a i n , w h i c h h a s b e e n d e s i g n e d t o h a v e a m a x i m u m v a l u e w h e n

    i n t r a - c l u s t e r s i m i l a r i t y i s m a x i m i z e d a n d i n t e r - c l u s t e r s i m i l a r i t y i s m i n -

    i m i z e d 2 6 , 8 ] . T h u s , t h e o p t i m a l c l u s t e r c o n g u r a t i o n c a n b e i d e n t i e d

    b y t h e m a x i m u m o f t h e c l u s t e r i n g g a i n c u r v e . T h i s m e a s u r e c a n b e

    d i r e c t l y u s e d t o e x p l o r e a n o p t i m a l c o n g u r a t i o n f o r a l l h i e r a r c h i c a l

    c l u s t e r i n g a l g o r i t h m s a s t h e y p r o c e e d . T h e m e a s u r e c a n a l s o b e u s e -

    f u l f o r p e r f o r m a n c e c o m p a r i s o n a m o n g c l u s t e r i n g a l g o r i t h m s s i n c e t h e

    c l u s t e r i n g p e r f o r m a n c e i s a l s o m e a s u r e d b y c l u s t e r i n g g a i n .

    S i n c e d i s c o v e r i n g a l l p o s s i b l e c o m b i n a t i o n s o f c l u s t e r c o n g u r a -

    t i o n i s c o m p u t a t i o n a l l y p r o h i b i t i v e 8 , 1 2 ] , m o s t p a r t i t i o n a l c l u s t e r i n g

    a l g o r i t h m s a r e d e p e n d e n t o n u s e r s t o d e t e r m i n e t h e t a r g e t n u m b e r o f

    c l u s t e r s . W e s h o w h o w t h e d e s i r e d n u m b e r o f c l u s t e r s c a n b e e s t i m a t e d

    b a s e d o n t h e d a t a u s i n g t h e c l u s t e r i n g g a i n m e a s u r e . T h e b e s t c l u s -

    t e r c o n g u r a t i o n w i l l b e o n e w h i c h c a n b e p r o d u c e d b y a n y s p e c i c

    c l u s t e r . t e x ; 2 3 / 0 1 / 2 0 0 2 ; 1 2 : 4 0 ; p . 3

  • 8/2/2019 Cluster JOGO

    4/22

    4

    h i e r a r c h i c a l c l u s t e r i n g a l g o r i t h m . C o n s e q u e n t l y , t h e m e a s u r e i s u s e d

    t o e s t i m a t e t h e d e s i r e d n u m b e r o f c l u s t e r s i n p a r t i t i o n a l c l u s t e r i n g

    a l g o r i t h m s .

    A c c o r d i n g t o t h e e x p e r i m e n t a l r e s u l t s , m o s t c o m m o n l y u s e d h i e r -

    a r c h i c a l c l u s t e r i n g a l g o r i t h m s a r e a b l e t o p r o d u c e i n t u i t i v e l y r e a s o n a b l y

    c l u s t e r e d c o n g u r a t i o n s u s i n g o u r c l u s t e r i n g m e a s u r e w h e n t h e i n p u t

    p a t t e r n s a r e d i s t r i b u t e d i n a w e l l i s o l a t e d f a s h i o n . M o r e o v e r , t h e d e s i r e d

    n u m b e r o f c l u s t e r s f o r p a r t i t i o n a l c l u s t e r i n g m e t h o d s , e . g . k - m e a n s , h a s

    b e e n s u c c e s s f u l l y e s t i m a t e d e x p e r i m e n t a l l y .

    T h e r e s t o f t h i s p a p e r i s o r g a n i z e d a s f o l l o w s . I n S e c t i o n 2 , s o m e

    b a c k g r o u n d i n f o r m a t i o n o n p r e v i o u s w o r k i s p r e s e n t e d t o d e r i v e o p t i m a l

    c l u s t e r i n g m e a s u r e s . T h e d e s i g n s c h e m e o f t h e o p t i m a l c l u s t e r i n g g a i n

    m e a s u r e i s d i s c u s s e d i n S e c t i o n 3 . S e c t i o n 4 d i s c u s s e s h o w t h e p r o -

    p o s e d m e t h o d c a n b e u s e d t o e v a l u a t e t h e p e r f o r m a n c e o f c l u s t e r i n g

    a l g o r i t h m s . F i n a l l y , w e d i s c u s s h o w t o e s t i m a t e t h e o p t i m a l n u m b e r o f

    c l u s t e r s f o r p a r t i t i o n a l c l u s t e r i n g a l g o r i t h m s u s i n g o u r n e w s c h e m e i n

    S e c t i o n 5 .

    2 . O p t i m a l C l u s t e r i n g

    S t o p p i n g c r i t e r i a f o r o p t i m a l c l u s t e r i n g h a v e b e e n t h e t o p i c o f c o n -

    s i d e r a b l e p a s t r e s e a r c h e o r t 2 7 ] . S p e c i c a l l y , d e c i d i n g t h e o p t i m a l

    l e v e l o f a d e n d r o g r a m a n d e s t i m a t i n g t h e n u m b e r o f t a r g e t c l u s t e r s

    r e m a i n s a s a c h a l l e n g i n g a n d f u n d a m e n t a l p r o b l e m . F o r h i e r a r c h i c a l

    a g g l o m e r a t i v e c l u s t e r i n g , s o m e d e c i s i o n r u l e s h a v e b e e n p r o v i d e d b y

    M i l l i g a n a n d C o o p e r 2 8 ] t o d e t e r m i n e t h e a p p r o p r i a t e l e v e l o f t h e d e n -

    d r o g r a m 2 9 , 3 0 ] f o r o p t i m a l c l u s t e r i n g . I n a d d i t i o n , M i l l i g a n c o m p a r e d

    a n d d e s c r i b e d o b j e c t i v e f u n c t i o n s f o r o p t i m a l a g g l o m e r a t i v e c l u s t e r i n g .

    H o w e v e r , t h e f u n c t i o n s a r e b a s e d o n s t r o n g a s s u m p t i o n s , h e u r i s t i c s , a n d

    e x p e r i m e n t a l d e p e n d e n c y . R e c e n t l y , a s t o p p i n g r u l e f o r t h e h i e r a r c h i c a l

    d i v i s i v e c l u s t e r i n g m e t h o d h a s b e e n s u g g e s t e d i n t h e P r i n c i p a l D i r e c -

    t i o n D i v i s i v e P a r t i t i o n i n g ( P D D P ) a l g o r i t h m 3 1 ] . W h i l e t h e P D D P

    a l g o r i t h m i s p r o c e e d i n g , a d y n a m i c t h r e s h o l d b a s e d o n a s o - c a l l e d

    c e n t r o i d s c a t t e r v a l u e i s c a l c u l a t e d . T h e r u l e i s t o s t o p p a r t i t i o n i n g

    w h e n t h e c e n t r o i d s c a t t e r v a l u e e x c e e d s t h e m a x i m u m c l u s t e r s c a t t e r

    v a l u e a t a n y p a r t i c u l a r p o i n t . T h i s a p p r o a c h r e l i e s o n e x p e r i m e n t a l

    o b s e r v a t i o n s . I n g e n e r a l , c u r r e n t l y u s e d s t o p p i n g c r i t e r i a f o r h i e r a r c h i -

    c a l c l u s t e r i n g m e t h o d s a r e b a s e d o n p r e d e n e d t h r e s h o l d s i n c l u d i n g

    t h e n u m b e r o f i t e r a t i o n s , t h e n u m b e r o f c l u s t e r s , a v e r a g e d i s s i m i l a r i t y

    3 2 ] w i t h i n a c l u s t e r , m a x i m u m d i s t a n c e b e t w e e n p a t t e r n s , a n d r e l a t i v e

    i n t e r - c o n n e c t i v i t y a n d r e l a t i v e c l o s e n e s s 3 3 ] .

    c l u s t e r . t e x ; 2 3 / 0 1 / 2 0 0 2 ; 1 2 : 4 0 ; p . 4

  • 8/2/2019 Cluster JOGO

    5/22

    5

    F o r n o n - h i e r a r c h i c a l p a r t i t i o n a l a l g o r i t h m s , D u b e s 2 7 ] p r o v i d e d a

    s e p a r a t i o n i n d e x :

    S ( k ) =

    j f ( k + 1 ; k ) f ( k ; k 1 ) j

    1 + j f ( k + 1 ; k ) f ( k ; k 1 ) j

    ; ( 1 )

    w h e r e

    f ( k + 1 ; k ) = M H ( k + 1 ) M N H ( k ) :

    T h e v a l u e M H i s t h e p o i n t s e r i a l c o r r e l a t i o n c o e c i e n t b e t w e e n t h e

    m a t r i x o f E u c l i d e a n d i s t a n c e s f o r p a t t e r n s a n d a \ m o d e l " m a t r i x , a n d k

    i s t h e n u b m e r o f c l u s t e r s . T h e m o d e l m a t r i x s e t s t h e d i s t a n c e b e t w e e n

    t w o p a t t e r n s t o b e t h e d i s t a n c e s b e t w e e n t h e c e n t e r s o f c l u s t e r s t o

    w h i c h t h e p a t t e r n s b e l o n g . A s t o p p i n g r u l e i s a d o p t e d t o s e a r c h f o r

    a s i g n i c a n t k n e e i n t h e c u r v e o f M H ( k ) a s k v a r i e s f r o m k

    m a x

    t o 2

    w h e r e k

    m a x

    i s t h e m a x i m u m p o s s i b l e n u m b e r o f c l u s t e r s . . H o w e v e r , a

    t h r e s h o l d t h a t d i s t i n g u i s h e s t h e k n e e f r o m o t h e r a n o m a l i e s i s d i c u l t t o

    d e t e r m i n e . I n a d d i t i o n , t h e r u l e i s n o t a b l e t o a v o i d p r e m a t u r e s t o p p i n g ,

    i . e . , t h e c o n v e r g e n c e t o l o c a l m i n i m a p r o b l e m . S i m i l a r l y , B o u l d e r a n d

    O d e l l 3 4 ] i n t r o d u c e d a c l u s t e r s e p a r a t i o n m e a s u r e

    R

    i j

    S

    i

    + S

    j

    M

    i j

    ; ( 2 )

    w h e r e S

    i

    i s a d i s p e r s i o n m e a s u r e o f c l u s t e r i s u c h a s t h e s q u a r e d e r r o r

    s u m a n d M

    i j

    i s t h e d i s t a n c e b e t w e e n t w o c e n t r o i d s . T h e s e p a r a t i o n

    m e a s u r e w i l l b e t h a t w h i c h m i n i m i z e s t h e a v e r a g e s i m i l a r i t y a s f o l l o w s

    R

    1

    n

    k

    X

    i = 1

    n

    i

    R

    i

    ; ( 3 )

    w h e r e R

    i

    m a x i m u m o f R

    i j

    ; i 6= j , n

    i

    i s t h e n u m b e r o f p a t e r n s i n

    c l u s t e r i , a n d n i s t h e t o t a l n u m b e r o f t h e p a t t e r n s t o b e c l u s t e r e d .

    H o w e v e r , a u n i q u e o p t i m a l c l u s t e r i n g c o n d i t i o n c a n n o t b e d e t e c t e d b y

    t h e s e p a r a t i o n m e a s u r e . A c c o r d i n g t o t h e e x p e r i m e n t a l r e s u l t s , t h e r e

    a r e m a n y m i n i m u m p o i n t s i n t h e h i e r a r c h i c a l s y s t e m 3 4 ] . F u r t h e r m o r e ,

    t h e r e i s n o t h e o r e t i c a l b a s i s f o r t h e f e a s i b i l i t y o f t h e m e a s u r e a n d n o

    r e a s o n a b l e s e p a r a t i o n m e a s u r e f o r p a r t i t i o n a l c l u s t e r i n g s e e m s t o e x i s t

    a t p r e s e n t 1 9 ] .

    c l u s t e r . t e x ; 2 3 / 0 1 / 2 0 0 2 ; 1 2 : 4 0 ; p . 5

  • 8/2/2019 Cluster JOGO

    6/22

    6

    3 . D e s i g n o f A M e a s u r e f o r O p t i m a l C l u s t e r i n g

    3 . 1 . C l u s t e r i n g B a l a n c e

    T h e c l u s t e r i n g p r o b l e m i s t o p a r t i t i o n t h e g i v e n i n p u t p a t t e r n s i n t o a

    s p e c i c n u m b e r o f g r o u p s ( c l u s t e r s ) s o t h a t t h e i n t r a - c l u s t e r s i m i l a r i t y i s

    m a x i m i z e d a n d t h e i n t e r - c l u s t e r s i m i l a r i t y i s m i n i m i z e d i n a p a r t i c u l a r

    m e t r i c s p a c e 2 6 , 8 ] . T h r o u g h o u t t h e p a p e r , w e w i l l u s e t h e f o l l o w i n g

    n o t a t i o n s . P a t t e r n i i s a f e a t u r e v e c t o r i n a n m d i m e n s i o n a l s p a c e ,

    d e n o t e d a s

    p

    i

    = p

    i 1

    ; p

    i 2

    ; : : : ; p

    i m

    ]

    T

    ;

    a n d a c l u s t e r C

    j

    i s a s e t o f p a t t e r n s g r o u p e d t o g e t h e r b y a c l u s t e r i n g

    a l g o r i t h m a n d e x p r e s s e d b y

    C

    j

    = f p

    ( j )

    1

    ; p

    ( j )

    2

    ; : : : ; p

    ( j )

    n

    j

    g ;

    w h e r e n

    j

    i s t h e n u m b e r o f p a t t e r n s i n c l u s t e r C

    j

    . W e w i l l a s s u m e t h a t

    t h e r e a r e t o t a l o f n v e c t o r s t o b e c l u s t e r e d a n d t h e t o t a l n u m b e r o f t h e

    c l u s t e r s i s k . A c c o r d i n g l y ,

    P

    k

    i = 1

    n

    i

    = n . I n a d d i t i o n , p

    ( j )

    0

    d e n o t e s t h e

    c e n t r o i d o f t h e c l u s t e r j , w h i c h i s d e n e d a s

    p

    ( j )

    0

    =

    1

    n

    j

    n

    j

    X

    i = 1

    p

    ( j )

    i

    :

    T h e c e n t r o i d i s a m e a n v e c t o r o f t h e c l u s t e r a n d p r o v i d e s a c o m p r e s s e d

    r e p r e s e n t a t i o n o f t h e c l u s t e r i n a s i m p l e r f o r m . T h e c e n t r o i d i s o f t e n

    u s e d f o r c l u s t e r d a t a c o m p r e s s i o n .

    C l u s t e r c o n g u r a t i o n i s a r a n d o m v a r i a b l e w h o s e p o s s i b l e o u t c o m e

    i s a p a r t i c u l a r a s s i g n m e n t o f i n p u t p a t t e r n s e t s . T h e p r o b l e m o f o p t i m a l

    c l u s t e r i n g i s t o n d a c l u s t e r c o n g u r a t i o n t h a t i s o p t i m i z e d a c c o r d i n g

    t o s o m e e v a l u a t i o n c r i t e r i o n . H o w e v e r , a s m e n t i o n e d b e f o r e , t h e n u m -

    b e r o f w a y s o f c l u s t e r i n g n o b s e r v a t i o n s i n t o k g r o u p s i s e n o r m o u s l y

    l a r g e 3 5 ] . I n f a c t , a c o m b i n a t o r i a l s e a r c h o f t h e s e t o f p o s s i b l e c o n g u -

    r a t i o n s f o r o p t i m a l c l u s t e r i n g i s c l e a r l y c o m p u t a t i o n a l l y p r o h i b i t i v e 2 7 ]

    a n d , i s N P - c o m p l e t e 3 6 , 3 7 ] . A c c o r d i n g l y , c u r r e n t l y u s e d a g g l o m e r a t i v e

    c l u s t e r i n g a l g o r i t h m s t a k e a n a p p r o x i m a t i o n a p p r o a c h b y m e r g i n g m o r e

    s i m i l a r p a t t e r n s p r i o r t o g r o u p i n g l e s s s i m i l a r p a t t e r n s t o c o n s t r u c t a

    c l u s t e r h i e r a r c h y . A m e a s u r e o f t h e s i m i l a r i t y b e t w e e n t w o p a t t e r n s

    d r a w n f r o m t h e s a m e f e a t u r e s p a c e p l a y s a n e s s e n t i a l r o l e i n t h e s e

    c l u s t e r i n g p r o c e d u r e s 1 2 , 3 5 ] .

    T h e m o s t p o p u l a r m e t r i c f o r m e a s u r i n g s i m i l a r i t y b e t w e e n p a t -

    t e r n s i s t h e E u c l i d e a n d i s t a n c e s i n c e i t i s m o r e i n t u i t i v e a n d a p p l i c a b l e ,

    e s p e c i a l l y i n t w o d i m e n s i o n a l f e a t u r e s p a c e 1 3 , 2 ] . T h e m o s t i n t u i t i v e

    c l u s t e r . t e x ; 2 3 / 0 1 / 2 0 0 2 ; 1 2 : 4 0 ; p . 6

  • 8/2/2019 Cluster JOGO

    7/22

    7

    a n d f r e q u e n t l y u s e d c r i t e r i o n f u n c t i o n i n c l u s t e r i n g t e c h n i q u e s i s t h e

    s q u a r e d e r r o r c r i t e r i o n w h i c h i s t h e s u m o f s q u a r e d d i s t a n c e s f r o m t h e

    c e n t r o i d o f a g r o u p t o e v e r y p a t t e r n i n t h e g r o u p 3 8 , 1 3 , 3 9 , 1 4 , 4 0 , 4 1 ,

    4 2 , 4 3 , 1 9 ] w h i c h c a n b e e x p r e s s e d u s i n g t h e E u c l i d e a n d i s t a n c e 2 , 4 4 ] .

    T h e i n t r a - c l u s t e r e r r o r s u m i s d e n e d b y t h e s q u a r e d e r r o r e a s

    =

    k

    X

    j = 1

    n

    j

    X

    i = 1

    e ( p

    ( j )

    i

    ; p

    ( j )

    0

    ) :

    w h i c h , u s i n g t h e E u c l i d e a n d i s t a n c e , c a n b e d e n o t e d a s

    =

    k

    X

    j = 1

    n

    j

    X

    i = 1

    k p

    ( j )

    i

    p

    ( j )

    0

    k

    2

    2

    : ( 4 )

    I t i s a l s o c a l l e d t h e w i t h i n - g r o u p e r r o r s u m 1 2 ] . W a r d u s e d t h e e r r o r

    s u m o f s q u a r e d t o q u a n t i f y t h e l o s s o f i n f o r m a t i o n b y g r o u p i n g 3 8 ] .

    T h e i n t e r - c l u s t e r e r r o r s u m t a k e s i n t o a c c o u n t e r r o r s u m s b e t w e e n

    c l u s t e r s b y c o n s i d e r i n g t h e c o l l e c t i o n o f c l u s t e r c e n t r o i d s t o b e a g l o b a l

    p a t t e r n s e t , w h i c h a l s o h a s a g l o b a l c e n t r o i d . T h e i n t e r - c l u s t e r e r r o r

    s u m , i n c a s e o f E u c l i d e a n s p a c e i s d e n e d a s

    =

    k

    X

    j = 1

    e ( p

    ( j )

    0

    ; p

    0

    ) =

    k

    X

    j = 1

    k p

    ( j )

    0

    p

    0

    k

    2

    2

    ; ( 5 )

    w h e r e p

    0

    i s t h e g l o b a l c e n t r o i d d e n e d a s

    p

    0

    =

    1

    n

    n

    X

    i = 1

    p

    i

    :

    N o w , w e p r e s e n t s o m e c h a r a c t e r i s t i c s o f t h e s e t w o c o n i c t i n g e r -

    r o r s u m s , t o b e u t i l i z e d i n d e s i g n i n g a m e a s u r e f o r o p t i m a l c l u s t e r

    c o n g u r a t i o n a s w e l l a s a s t o p p i n g c r i t e r i o n i n h i e r a r c h i c a l c l u s t e r i n g

    a l g o r i t h m . W e w i l l a s s u m e t h a t t h e h i e r a r c h i c a l a l g o r i t h m w e a r e c o n -

    s i e r i n g i s a g g l o m e r a t i v e . I n c a s e o f d i v i s i v e a l g o r i t h m s , a n a n a l o g o u s b u t

    o p p o s i t e t r e n d s c a n e a s i l y b e p r o v e d . W e c a n a s s u m e t h a t i n t h e i n i t i a l

    s t a t e o f a n y a g g l o m e r a t i v e c l u s t e r i n g a l g o r i t h m , e a c h p a t t e r n i s t h e o n l y

    p a t t e r n i n i t s o w n c l u s t e r . I t i s c l e a r t h a t t h e s i n g l e t o n c l u s t e r s h a v e n o

    c o n t r i b u t i o n t o t h e i n t r a - c l u s t e r e r r o r s u m , a n d t h e m i n i m u m v a l u e

    t h a t c a n t a k e i s z e r o . O n t h e o t h e r h a n d , i s m a x i m i z e d w h e n t h e r e

    i s o n l y o n e c l u s t e r t h a t c o n t a i n s a l l p a t t e r n s . M o r e i n t e r e s t i n g f a c t i s

    t h a t w h i l e c l u s t e r i n g p r o c e s s p r o c e e d s , t h e v a l u e o f c a n n o t d e c r e a s e .

    S u p p o s e t w o c l u s t e r s C

    i

    a n d C

    j

    a r e m e r g e d i n a s t e p o f a g g l o m e r a t i v e

    c l u s t e r i n g . L e t t h e n e w c l u s t e r C

    i j

    b e t h e c l u s t e r o b t a i n e d b y m e r i n g

    c l u s t e r . t e x ; 2 3 / 0 1 / 2 0 0 2 ; 1 2 : 4 0 ; p . 7

  • 8/2/2019 Cluster JOGO

    8/22

    8

    C

    i

    a n d C

    j

    . T h e n , t h e c e n t r o i d c

    i j

    o f t h e n e w c l u s t e r C

    i j

    i s

    c

    i j

    =

    n

    i

    p

    ( i )

    0

    + n

    j

    p

    ( j )

    0

    n

    i

    + n

    j

    :

    L e t

    b

    a n d

    a

    b e i n t r a - c l u s t e r e r r o r s u m s o f t h e i t e m s t h a t b e l o n g

    t o t h e c l u s t e r s C

    i

    a n d C

    j

    o n l y , b e f o r e a n d a f t e r m e r g i n g , r e s p e c t i v e l y .

    T h e n

    b

    =

    n

    i

    X

    l = 1

    k p

    ( i )

    l

    p

    ( i )

    0

    k

    2

    2

    +

    n

    j

    X

    l = 1

    k p

    ( j )

    l

    p

    ( j )

    0

    k

    2

    2

    ;

    a n d

    a

    =

    n

    i

    X

    l = 1

    k p

    ( i )

    l

    c

    i j

    k

    2

    2

    +

    n

    j

    X

    l = 1

    k p

    ( j )

    l

    c

    i j

    k

    2

    2

    :

    S i n c e , t h e r e i s n o s p l i t o f a c l u s t e r i n a p a t h o f a g g l o m e r a t i v e c l u s t e r -

    i n g , i n t r a - c l u s t e r e r r o r s u m w o u l d b e n o n d e c r e a s i n g a s t h e c l u s t e r i n g

    p r o c e e d s i f

    a

    b

    0 . W e h a v e

    a

    b

    =

    n

    i

    X

    l = 1

    k p

    ( i )

    l

    k

    2

    2

    2 c

    T

    i j

    n

    i

    X

    l = 1

    p

    ( i )

    l

    + n

    i

    c

    T

    i j

    c

    i j

    +

    n

    j

    X

    l = 1

    k p

    ( j )

    l

    k

    2

    2

    2 c

    T

    i j

    n

    j

    X

    l = 1

    p

    ( j )

    l

    + n

    j

    c

    T

    i j

    c

    i j

    n

    i

    X

    l = 1

    k p

    ( i )

    l

    k

    2

    2

    2 ( p

    ( i )

    0

    )

    T

    n

    i

    X

    l = 1

    p

    ( i )

    l

    + n

    i

    k p

    ( i )

    0

    k

    2

    2

    +

    n

    j

    X

    l = 1

    k p

    ( j )

    l

    k

    2

    2

    2 ( p

    ( j )

    0

    )

    T

    n

    j

    X

    l = 1

    p

    ( j )

    l

    + n

    j

    k p

    ( j )

    0

    k

    2

    2

    ] :

    U s i n g

    P

    n

    i

    l = 1

    p

    ( i )

    l

    = n

    i

    p

    ( i )

    0

    a n d

    P

    n

    j

    l = 1

    p

    ( j )

    l

    = n

    j

    p

    ( j )

    0

    , w e h a v e t h e d e s i r e d

    r e s u l t

    a

    b

    = 2 n

    i

    k p

    ( i )

    0

    k

    2

    2

    n

    i

    k p

    ( i )

    0

    k

    2

    2

    2 n

    i

    ( p

    ( i )

    0

    )

    T

    c

    i j

    + n

    i

    k c

    i j

    k

    2

    2

    + 2 n

    j

    k p

    ( j )

    0

    k

    2

    2

    n

    j

    k p

    ( j )

    0

    k

    2

    2

    2 n

    j

    ( p

    ( j )

    0

    )

    T

    c

    i j

    + n

    j

    k c

    i j

    k

    2

    2

    = n

    i

    k p

    ( i )

    0

    c

    i j

    k

    2

    2

    + n

    j

    k p

    ( j )

    0

    c

    i j

    k

    2

    2

    0 :

    S i m i l a r l y , t h e i n t e r - c l u s t e r e r r o r s u m s a t i s e s t h e f o l l o w i n g c h a r -

    a c t e r i s t i c s w h i c h s h o w t h e o p p o s i t e t r e n d t o t h a t o f t h e i n t r a - c l u s t e r

    e r r o r s u m . N o t e t h a t t h e g l o b a l c e n t r o i d p

    0

    d o e s n o t c h a n g e t h r o u g h -

    o u t t h e c l u s t e r i n g p r o c e s s . T h e i n t e r - c l u s t e r e r r o r - s u m i s m a x i m i z e d

    w h e n t h e r e a r e n s i n g l e t o n c l u s t e r s , w h i c h o c c u r s a t t h e b e g i n n i n g o f

    c l u s t e r . t e x ; 2 3 / 0 1 / 2 0 0 2 ; 1 2 : 4 0 ; p . 8

  • 8/2/2019 Cluster JOGO

    9/22

    9

    c l u s t e r i n g . T h e n i s m i n i m i z e d w h e n a l l n p a t t e r n s b e l o n g t o o n e

    c l u s t e r a t t h e e n d o f c l u s t e r i n g . I t i s e a s y t o s h o w t h a t t h e v a l u e o f i s

    n o n i n c r e a s i n g a s t h e c l u s t e r i n g p r o c e e d s u s i n g t h e t r i a n g u l a r p r o p e r t y

    o f t h e L

    2

    n o r m , t h e E u c l i d e a n d i s t a n c e .

    O u r d e s i g n s c h e m e i s b a s e d o n t h e f a c t t h a t i n t r a - c l u s t e r s i m i -

    l a r i t y i s n o n d e c r e a s i n g a n d i n t e r - c l u s t e r e r r o r s u m i s n o n i n c r e a s i n g a s

    t h e a g g l o m e r a t i v e c l u s t e r i n g a l g o r i t h m p r o c e e d s . W h e n t h e c l u s t e r i n g

    a l g o r i t h m i s d i v i s i v e , t h e t r e n d i s t h e o t h e r w a y a r o u n d , w h i c h i s t h a t

    i n t r a - c l u s t e r e r r o r s u m i s n o n i n c r e a s i n g a n d i n t e r - c l u s t e r s i m i l a r i t y i s

    n o n d e c r e a s i n g a s t h e d i v i s i v e c l u s t e r i n g a l g o r i t h m p r o c e e d s .

    W e t r a n s f o r m e d t h e o p t i m a l c l u s t e r i n g p r o b l e m i n t o a p r o b l e m f o r

    n d i n g t h e p o i n t w h e r e t h e t w o s i m i l a r i t i e s a r e b a l a n c e d b y r e p r e s e n t i n g

    t h e s e s i m i l a r i t i e s b y t h e s q u a r e d e r r o r s u m i n E u c l i d e a n s p a c e . W e

    d e n e t h e c l u s t e r i n g b a l a n c e a s

    E ( ) = + ( 1 ) ; ( 6 )

    w h e r e a n d d e n o t e i n t r a - c l u s t e r a n d i n t e r - c l u s t e r e r r o r s u m s f o r

    a s p e c i c c l u s t e r i n g c o n g u r a t i o n , r e s p e c t i v e l y , a n d 0 1

    i s a s c a l a r t h a t d e t e r m i n e s t h e w e i g h t b e t w e e n t h e s e t w o s u m s . T h e

    c l u s t e r i n g b a l a n c e E ( ) h a s b e e n f o r m u l a t e d w i t h t h e i d e a t h a t i n t u -

    i t i v e l y o p t i m a l c l u s t e r i n g i s a c h i e v e d w h e n t h e e r r o r s u m s h a v e r e a c h e d

    e q u i l i b r i u m . W e w i l l c o n c e n t r a t e o n t h e s p e c i a l c a s e f o r = 1 = 2 w h i c h

    p r o v i d e s a n e v e n b a l a n c e a n d a c c o r d i n g l y a s s u m e t h a t

    E ( ) = + : ( 7 )

    T h u s c l u s t e r i n g b e h a v i o r c a n b e i n t e r p r e t e d a s a p r o c e d u r e s e e k i n g t h e

    g l o b a l m i n i m u m o f c l u s t e r i n g b a l a n c e . W i t h t h e d e n i t i o n s o f c l u s t e r i n g

    b a l a n c e b a s e d o n t h e e r r o r s u m s , w h a t f o l l o w s w i l l u s e t h e t r a d e - o

    b e t w e e n i n t e r - c l u s t e r a n d i n t r a - c l u s t e r b a l a n c e t o d e n e a m e a s u r e f o r

    t h e o p t i m a l c l u s t e r i n g c o n g u r a t i o n .

    3 . 2 . C l u s t e r i n g G a i n

    T h e c l u s t e r i n g b a l a n c e c a n b e c o m p u t e d i n e a c h s t e p o f a h i e r a r c h i c a l

    c l u s t e r i n g a l g o r i t h m t o d e t e r m i n e t h e o p t i m a l n u m b e r o f c l u s t e r s . H o w -

    e v e r , a m a j o r d i s a d v a n t a g e i s t h e h i g h c o m p u t a t i o n a l c o s t o f c o m p u t i n g

    c l u s t e r i n g b a l a n c e . I n t h i s s e c t i o n , w e i n t r o d u c e c l u s t e r i n g g a i n w h i c h

    h a s a n i n t e r e s t i n g r e l a t i o n t o c l u s t e r b a l a n c e . I n a d d i t i o n , c l u s t e r i n g

    g a i n i s c h e a p t o c o m p u t e . T h e r e f o r e , i t c a n b e c o m p u t e d i n e a c h s t e p o f

    c l u s t e r i n g p r o c e s s t o d e t e r m i n e t h e o p t i m a l n u m b e r o f c l u s t e r s w i t h o u t

    i n c r e a s i n g t h e c o m p u t a t i o n a l c o m p l e x i t y .

    C l u s t e r i n g g a i n

    j

    f o r C

    j

    i s d e n e d a s t h e d i e r e n c e b e t w e e n t h e

    d e c r e a s e d i n t e r - c l u s t e r e r r o r s u m

    j

    c o m p a r e d t o t h e i n i t i a l s t a g e a n d

    c l u s t e r . t e x ; 2 3 / 0 1 / 2 0 0 2 ; 1 2 : 4 0 ; p . 9

  • 8/2/2019 Cluster JOGO

    10/22

    1 0

    (a) No clustering has been conducted.

    Co =

    x 2

    x 1 1X= C-

    X

    2 - oP1

    2

    n

    n-1

    P

    P

    o1

    C 2X=

    ( oC 1 Co2, )

    1

    X 2

    (b) Clustering has been finished.

    X

    Co = (

    P

    0, 0)

    X2x

    x 1

    2P

    P2

    P( j )P

    ( j )

    1

    ( j )

    oP

    ( j )

    n

    ( j )

    n-1

    1

    F i g u r e 2 . C l u s t e r i n g g a i n d e n e d b y d i e r e n c e b e t w e e n e r r o r s u m s . ( a ) I n i t i a l c o n g u r a -

    t i o n . ( b ) F i n a l c o n g u r a t i o n o f c l u s t e r C

    j

    t h e i n c r e a s e d i n t r a - c l u s t e r e r r o r s u m

    j

    c o m p a r e d t o t h e i n i t i a l s t a g e .

    S p e c i c a l l y , t h e g a i n i s d e n e d a s

    j

    =

    j

    j

    :

    I n t h e a b o v e e q u a t i o n , a n e q u a l w e i g h t i n g f a c t o r , o n e , h a s b e e n a s s i g n e d

    t o b o t h e r r o r s u m s . C l u s t e r i n g g a i n i s g r a p h i c a l l y i l l u s t r a t e d i n F i g u r e 2

    u s i n g c l u s t e r c o n g u r a t i o n s . I n p a r t i c u l a r , t h e n u m b e r o f p a t t e r n s o f

    t h e n a l c o n g u r a t i o n o f c l u s t e r C

    j

    c a n v a r y f r o m 1 t o n .

    T h e d e c r e a s e d p o r t i o n o f t h e i n t e r - c l u s t e r e r r o r s u m c o m p a r e d t o

    t h e i n i t i a l s t a g e i s d e n o t e d b y

    j

    =

    n

    j

    X

    i = 1

    e ( p

    ( j )

    i

    ; p

    0

    ) e ( p

    ( j )

    0

    ; p

    0

    )

    =

    n

    j

    X

    i = 1

    k p

    ( j )

    i

    p

    0

    k

    2

    2

    k p

    ( j )

    0

    p

    0

    k

    2

    2

    I n a d d i t i o n , t h e i n c r e a s e d p o r t i o n o f t h e i n t r a - c l u s t e r e r r o r s u m c o m -

    p a r e d t o t h e i n i t i a l s t a g e i s d e n e d b y

    j

    =

    n

    j

    X

    i = 1

    e ( p

    ( j )

    i

    ; p

    ( j )

    0

    ) =

    n

    j

    X

    i = 1

    k p

    ( j )

    i

    p

    ( j )

    0

    k

    2

    2

    : ( 8 )

    c l u s t e r . t e x ; 2 3 / 0 1 / 2 0 0 2 ; 1 2 : 4 0 ; p . 1 0

  • 8/2/2019 Cluster JOGO

    11/22

    1 1

    E x p a n d i n g t h e g a i n f o r c l u s t e r C

    j

    g i v e s

    j

    =

    j

    j

    =

    n

    j

    X

    i = 1

    k p

    ( j )

    i

    p

    0

    k

    2

    2

    k p

    ( j )

    0

    p

    0

    k

    2

    2

    n

    j

    X

    i = 1

    k p

    ( j )

    i

    p

    ( j )

    0

    k

    2

    2

    = ( n

    j

    1 ) k p

    0

    p

    ( j )

    0

    k

    2

    2

    s i n c e

    P

    n

    j

    i = 1

    p

    ( j )

    i

    = p

    ( j )

    0

    n

    j

    . T h e r e f o r e , t h e t o t a l c l u s t e r i n g g a i n c a n b e

    c o m p u t e d f r o m

    =

    k

    X

    j = 1

    ( n

    j

    1 ) k p

    0

    p

    ( j )

    0

    k

    2

    2

    : ( 9 )

    W e w o u l d l i k e t o e m p h a s i z e t h a t t h i s c l u s t e r i n g g a i n i s v e r y c h e a p t o

    c o m p u t e s i n c e i t i n v o l v e s o n l y t h e c e n t r o i d s a n d t h e g l o b a l c e n t r o i d ,

    a n d n o t t h e i n d i v i d u a l d a t a i t m e . T h e c l u s t e r i n g g a i n

    j

    i s a l w a y s

    g r e a t e r t h a n o r e q u a l t o z e r o . E v e n t u a l l y , t h e c l u s t e r i n g g a i n w i l l b e

    p o s i t i v e , a s s u m i n g t h e i n i t i a l c l u s t e r i n g c o n g u r a t i o n i s n o t o p t i m a l .

    A p p a r e n t f r o m F i g u r e 3 i s t h e f a c t t h a t t h e o p t i m a l c l u s t e r i n g

    c o n g u r a t i o n d i s c o v e r e d b y a h i e r a r c h i c a l c l u s t e r i n g a l g o r i t h m h a s m a x -

    i m u m c l u s t e r i n g g a i n . S i n c e c l u s t e r i n g g a i n i s m i n i m u m a t t h e i n i t i a l

    a n d n a l c l u s t e r i n g s t a g e s , a n o p t i m a l c o n g u r a t i o n s h o u l d b e f o u n d

    d u r i n g t h e m i d d l e o f t h e c l u s t e r i n g p r o c e d u r e . I n o r d e r t o d e t e r m i n e t h e

    m a x i m u m c l u s t e r i n g g a i n d u r i n g t h e m i d d l e o f t h e c l u s t e r i n g p r o c e d u r e ,

    w e p r o p o s e t h e c l u s t e r i n g g a i n a s a n e e c t i v e n e s s c r i t e r i o n . N o t e t h a t

    c l u s t e r i n g g a i n i s a n a l o g o u s t o t h e E v a l u e s u g g e s t e d b y J a r d i n e a n d

    R i j s b e r g e n 4 5 ] , f o r c l u s t e r i n g e e c t i v e n e s s .

    I t i s i n t e r e s t i n g t o n o t e t h a t t h e s u m o f c l u s t e r i n g b a l a n c e a n d

    c l u s t e r i n g g a i n i s a c o n s t a n t f o r a g i v e n d a t a s e t s i n c e

    = E + = + +

    =

    k

    X

    j = 1

    n

    j

    X

    i = 1

    k p

    ( j )

    i

    p

    ( j )

    0

    k

    2

    2

    +

    k

    X

    j = 1

    k p

    ( j )

    0

    p

    0

    k

    2

    2

    ]

    +

    k

    X

    j = 1

    (

    n

    j

    X

    i = 1

    k p

    ( j )

    i

    p

    0

    k

    2

    2

    k p

    ( j )

    0

    p

    0

    k

    2

    2

    n

    j

    X

    i = 1

    k p

    ( j )

    i

    p

    ( j )

    0

    k

    2

    2

    )

    =

    k

    X

    j = 1

    n

    j

    X

    i = 1

    k p

    ( j )

    i

    p

    0

    k

    2

    2

    w h i c h i s d e t e r m i n e d c o m p l e t e l y b a s e d o n t h e d a t a , a n d n o t c h a n g e d

    b y t h e c l u s t e r i n g r e s u l t . T h u s c l u s t e r i n g b a l a n c e c a n b e a l t e r n a t i v e l y

    e x p r e s s e d u s i n g c l u s t e r i n g g a i n a s

    E = + = ;

    c l u s t e r . t e x ; 2 3 / 0 1 / 2 0 0 2 ; 1 2 : 4 0 ; p . 1 1

  • 8/2/2019 Cluster JOGO

    12/22

    1 2

    0 20 40 600

    5

    10

    15

    20

    25(a)

    0 20 40 600

    5

    10

    15

    20

    25(b)

    0 20 40 60 800

    0.5

    1

    1.5

    2

    2.5

    3x 10

    4 (c)

    number of iterations0 20 40 60 80

    0

    0.5

    1

    1.5

    2

    2.5

    3x 10

    4 (d)

    number of iterations

    F i g u r e 3 . C l u s t e r i n g g a i n : t h e o p p o s i t e c o n c e p t o f c l u s t e r i n g b a l a n c e . ( a ) I n i t i a l c o n g u r a -

    t i o n o f p a t t e r n s . ( b ) I n t u i t i v e l y w e l l c l u s t e r e d c o n g u r a t i o n c a p t u r e d w h e n c l u s t e r i n g g a i n

    i s m a x i m i z e d . ( c ) C l u s t e r i n g g a i n ( d ) T h e s u m o f c l u s t e r i n g b a l a n c e a n d c l u s t e r i n g g a i n .

    w h e r e 0 ; ; . N o w , w e a r e a b l e t o n d a n o p t i m a l c l u s t e r

    c o n g u r a t i o n b y t r a c i n g c l u s t e r i n g g a i n i n s t e a d o f c l u s t e r i n g b a l a n c e .

    F o r v i s u a l d e m o n s t r a t i o n , c l u s t e r i n g g a i n a n d t h e c o n s t a n t a r e

    c o m p a r e d i n F i g u r e 3 .

    I n T r a c k i n g A l g o r i t h m , w e s u m m a r i z e h o w w e c a n o b t a i n t h e

    o p t i m a l c l u s t e r c o n g u r a t i o n i n a g i v e n h i e r a r c h i c a l a g g l o m e r a t i v e c l u s -

    t e r i n g a l g o r i t h m w h i l e k e e p i n g t r a c k o f t h e c l u s t e r g a i n v a l u e . N o t e

    t h a t w e n e e d t o k e e p t r a c k o f t h e c l u s t e r i n g g a i n ( ) s i n c e t h e g l o b a l

    m a x i m u m v a l u e o f c l u s t e r i n g g a i n c a n b e d i s c o v e r e d o n l y a f t e r t h e

    c l u s t e r i n g i s c o m p l e t e d .

    A p p l i c a t i o n o f t h i s m e t h o d t o h i e r a r c h i c a l d i v i s i v e c l u s t e r i n g m e t h o d

    i s s t r a i g h t f o r w a r d . T o d e m o n s t r a t e t h e p e r f o r m a n c e o f T r a c k i n g A l -

    g o r i t h m , t h e o p t i m a l c o n g u r a t i o n d e t e c t e d b y t h e c o m p l e t e - l i n k i s

    v i s u a l i z e d i n F i g u r e 4 . C l e a r l y , t h e c o n g u r a t i o n c o n t a i n i n g t h e l o w e s t

    v a l u e o f c l u s t e r i n g b a l a n c e c o i n c i d e s w i t h t h e o p t i m a l c o n g u r a t i o n

    p r o d u c e d b y h u m a n b e i n g . G i v e n t h e s a m e i n p u t p a t t e r n s , t h e s a m e

    o p t i m a l c o n g u r a t i o n h a s b e e n o b t a i n e d b y p o p u l a r a g g l o m e r a t i v e c l u s -

    t e r i n g a l g o r i t h m s i n c l u d i n g t h e s i n g l e - l i n k , t h e a v e r a g e - l i n k a n d W a r d ' s

    m e t h o d .

    c l u s t e r . t e x ; 2 3 / 0 1 / 2 0 0 2 ; 1 2 : 4 0 ; p . 1 2

  • 8/2/2019 Cluster JOGO

    13/22

    1 3

    T r a c k i n g A l g o r i t h m :

    1 C h o o s e a h i e r a r c h i c a l a g g l o m e r a t i v e c l u s t e r i n g m e t h o d ( H A C M )

    2 D o w h i l e c l u s t e r i n g i s n o t c o m p l e t e i n H A C M

    4 m e r g e t w o c l u s t e r s a c c o r d i n g t o

    t h e f u s i o n r u l e o f t h e H A C M

    5 k e e p t r a c k o f m a x i m u m v a l u e f o r ( ) a n d s a v e

    6 e n d w h i l e

    7 r e c o v e r t h e o p t i m a l c o n g u r a t i o n

    0 10 20 300

    2

    4

    6

    8

    10

    12(a)

    0 10 20 300

    2

    4

    6

    8

    10

    12(b)

    0 10 20 30 400

    1000

    2000

    3000

    4000(c)

    number of iterations0 10 20 30 40

    0

    1000

    2000

    3000

    4000(d)

    number of iterations

    F i g u r e 4 . V i s u a l d e m o n s t r a t i o n o f o p t i m a l c o n g u r a t i o n d i s c o v e r e d b y T r a c k i n g A l g o r i t h m

    u s i n g t h e c o m p l e t e - l i n k . ( a ) I n i t i a l c o n g u r a t i o n . ( b ) O p t i m a l c o n g u r a t i o n . ( c ) I n t r a - c l u s t e r

    v e r s u s i n t e r - c l u s t e r e r r o r s u m . ( d ) C l u s t e r i n g b a l a n c e .

    4 . P e r f o r m a n c e E v a l u a t i o n o f C l u s t e r i n g A l g o r i t h m s

    G i v e n a h i e r a r c h i c a l c l u s t e r i n g a l g o r i t h m , e i t h e r c l u s t e r i n g b a l a n c e o r

    c l u s t e r i n g g a i n c a n b e u s e d t o n d o p t i m a l c o n g u r a t i o n . S i n c e t h e s e

    m e a s u r e s r e p r e s e n t c l u s t e r i n g o p t i m a l i t y i n a n a b s o l u t e v a l u e , t h e y

    a l s o c a n b e u s e d t o c o m p a r e v a r i o u s c l u s t e r i n g a l g o r i t h m s i n t e r m s

    o f c l u s t e r i n g p e r f o r m a n c e . T o g i v e a n e x a m p l e w e e s t i m a t e d t h e p r a c -

    t i c a l d i s t r i b u t i o n i n h i g h d i m e n s i o n a l i t y u s i n g t h e m e t h o d p r o p o s e d b y

    B e n n e t t 4 6 ] . T h e m e t h o d i s b a s e d o n t h e o b s e r v a t i o n t h a t t h e v a r i a n c e

    c l u s t e r . t e x ; 2 3 / 0 1 / 2 0 0 2 ; 1 2 : 4 0 ; p . 1 3

  • 8/2/2019 Cluster JOGO

    14/22

    1 4

    0 1 2 3 40.5

    1

    1.5

    2

    2.5

    3

    3.5

    4(a)

    0 20 40 60 80 1000

    20

    40

    60

    80

    100

    120

    140

    (b)

    0 1 2 3 40.5

    1

    1.5

    2

    2.5

    3

    3.5

    4(c)

    0 20 40 60 80 1000

    20

    40

    60

    80

    100

    120

    140

    (d)

    number of clusters

    F i g u r e 5 . C o m p a r i s o n o f t h e s i n g l e - l i n k a n d t h e a v e r a g e - l i n k . ( a ) O p t i m a l c o n g u r a t i o n

    f o u n d b y s i n g l e - l i n k . ( b ) C l u s t e r i n g b a l a n c e v e r s u s t h e n u m b e r o f c l u s t e r s i n s i n g l e - l i n k . ( c )

    O p t i m a l c o n g u r a t i o n f o u n d b y a v e r a g e - l i n k . ( d ) C l u s t e r i n g b a l a n c e v e r s u s t h e n u m b e r o f

    c l u s t e r s i n a v e r a g e - l i n k .

    o f t h e d i s t a n c e b e t w e e n p a t t e r n s c h o s e n r a n d o m l y i n a h y p e r - s p h e r e i s

    i n v e r s e l y p r o p o r t i o n a l t o t h e d i m e n s i o n a l i t y m a s f o l l o w s .

    m x v a r i a n c e ( a p a i r o f p a t t e r n s ) ' c o n s t a n c e :

    A c c o r d i n g t o t h e e q u a t i o n , t h e h i g h e r t h e d i m e n s i o n a l i t y i s t h e s m a l l e r

    t h e v a r i a n c e i s . T h u s c l u s t e r i n g i n h i g h d i m e n s i o n a l s p a c e c a n b e s i m u -

    l a t e d i n t w o d i m e n s i o n a l s p a c e i f p a t t e r n s a r e r a n d o m l y a n d u n i f o r m l y

    d i s t r i b u t e d . T y p i c a l l y u s e d a g g l o m e r a t i v e c l u s t e r i n g a l g o r i t h m s h a v e

    b e e n a p p l i e d t o T r a c k i n g A l g o r i t h m , a n d t h e n t h e i r o p t i m a l c o n g u r a -

    t i o n s a n d c l u s t e r i n g b a l a n c e s a r e r e p r e s e n t e d i n F i g u r e 5 a n d F i g u r e 6 .

    A c c o r d i n g t o t h e r e s u l t s , t h e c o m p l e t e - l i n k p r o d u c e s t h e c o n g u r a t i o n

    w i t h t h e l o w e s t c l u s t e r i n g b a l a n c e . I n t h e e x p e r i m e n t , t h e c o m p l e t e -

    l i n k o u t p e r f o r m e d o t h e r t h r e e c l u s t e r i n g a l g o r i t h m s s i n c e i t p r o d u c e s

    t h e b e s t c o n g u r a t i o n g i v e n t h e s a m e i n p u t p a t t e r n s .

    T o e x t e n d o u r a p p r o a c h t o p r a c t i c a l d o m a i n , w e c o n d u c t e d a s i m -

    p l e e x p e r i m e n t w i t h p r a c t i c a l d o c u m e n t v e c t o r s . T h e d o c u m e n t s h a v e

    b e e n d o w n l o a d e d f r o m M E D L I N E o n - l i n e l i b r a r y . T h e y a r e d i v i d e d

    i n t o e i g h t c a n c e r c a t e g o r i e s i n c l u d i n g b r e a s t , c o l o n , w e i g h t l e s s , g l y -

    c o l i c , h e a r t a t t a c k , o r a l , p r o s t a t e a n d t o o t h - d e c a y . E a c h c a t e g o r y c o n -

    c l u s t e r . t e x ; 2 3 / 0 1 / 2 0 0 2 ; 1 2 : 4 0 ; p . 1 4

  • 8/2/2019 Cluster JOGO

    15/22

    1 5

    0 1 2 3 40.5

    1

    1.5

    2

    2.5

    3

    3.5

    4(a)

    0 20 40 60 80 1000

    20

    40

    60

    80

    100

    120

    140

    (b)

    0 1 2 3 40.5

    1

    1.5

    2

    2.5

    3

    3.5

    4(c)

    0 20 40 60 80 1000

    20

    40

    60

    80

    100

    120

    140

    (d)

    number of clusters

    F i g u r e 6 . C o m p a r i s o n o f t h e c o m p l e t e - l i n k a n d W a r d ' s m e t h o d . ( a ) O p t i m a l c o n g u r a t i o n

    f o u n d b y t h e c o m p l e t e - l i n k . ( b ) C l u s t e r i n g b a l a n c e v e r s u s t h e n u m b e r o f c l u s t e r s i n t h e

    c o m p l e t e - l i n k . ( c ) O p t i m a l c o n g u r a t i o n f o u n d b y W a r d ' s m e t h o d . ( d ) C l u s t e r i n g b a l a n c e

    v e r s u s t h e n u m b e r o f c l u s t e r s i n W a r d ' s m e t h o d .

    t a i n s 5 0 0 d o c u m e n t s . A f t e r l t e r i n g t h e d o c u m e n t s e t u s i n g t h e s t o -

    p l i s t o f S M A R T I R s y s t e m a n d t h e s t e m m i n g a l g o r i t h m p r o p o s e d b y

    P o r t e r 4 8 ] , w e a p p l i e d T r a c k i n g A l g o r i t h m t o t h e c o m b i n a t i o n o f C o l o n

    a n d T o o t h c a t e g o r i e s . T h e r e s u l t s i n E u c l i d e a n s p a c e a r e g r a p h i c a l l y

    i l l u s t r a t e d i n F i g u r e 7 . A c c o r d i n g t o t h e r e s u l t s , o p t i m a l c l u s t e r c o n -

    g u r a t i o n s c a n b e f o u n d b y o u r m e a s u r e i n E u c l i d e a n s p a c e .

    5 . E s t i m a t i o n o f t h e O p t i m a l N u m b e r o f C l u s t e r s f o r

    P a r t i t i o n a l C l u s t e r i n g A l g o r i t h m s

    A m a j o r p r o b l e m a c c o m p a n y i n g t h e u s e o f a p a r t i t i o n a l c l u s t e r i n g a l -

    g o r i t h m i s t h e c h o i c e o f t h e n u m b e r o f d e s i r e d o u t p u t c l u s t e r s 2 7 ] a n d

    o r d e r d e p e n d e n c y 1 3 ] . T h e s e n s i t i v i t y t o t h e s e l e c t i o n o f t h e i n i t i a l

    p a r t i t i o n i s a p r o b l e m i n m o s t p a r t i t i o n a l a l g o r i t h m s 2 ] s i n c e t h e

    p a r t i t i o n a l c l u s t e r i n g a l g o r i t h m s m a y c o n v e r g e t o a l o c a l m i n i m u m o f

    t h e c r i t e r i o n f u n c t i o n i f t h e i n i t i a l p a r t i t i o n i s n o t p r o p e r l y c h o s e n 2 ] .

    F o r h a n d l i n g l a r g e d a t a s e t a n d a v o i d i n g s u c h s e n s i t i v i t y , m a n y e c i e n t

    a l g o r i t h m s h a v e b e e n p r o p o s e d i n c l u d i n g C L A R A N S 1 9 ] , B I R C H 4 7 ] ,

    C U R E 2 3 ] , a n d R O C K 2 4 ] . M a n y c l u s t e r i n g a l g o r i t h m s h a v e e c i e n c y

    c l u s t e r . t e x ; 2 3 / 0 1 / 2 0 0 2 ; 1 2 : 4 0 ; p . 1 5

  • 8/2/2019 Cluster JOGO

    16/22

    1 6

    0 10 20 30 40 50 60 70 80 90 1000

    0.5

    1

    1.5

    2

    2.5

    3

    3.5x 10

    4

    number of clusters

    Clustering by completelink in Euclidean metric space:3154x100

    F i g u r e 7 . C l u s t e r i n g b a l a n c e , i n t r a - c l u s t e r a n d i n t e r - c l u s t e r s q u a r e d e r r o r s u m s i n E u -

    c l i d e a n s p a c e .

    a n d c a p a c i t y , b u t m o s t p a r t i t i o n a l c l u s t e r i n g a l g o r i t h m d e p e n d o n u s e r s

    t o d e t e r m i n e t h e d e s i r e d n u m b e r o f c l u s t e r s .

    E v e n t h o u g h e x h a u s t i v e e n u m e r a t i o n o f a l l p o s s i b l e a s s i g n m e n t s i s

    n o t c o m p u t a t i o n a l l y f e a s i b l e e v e n f o r s m a l l n u m b e r s o f p a t t e r n s 1 2 ] , w e

    c a n g e n e r a t e a l l p o s s i b l e c a s e s w i t h v e r y s m a l l n u m b e r o f p a t t e r n s s u c h

    a s t e n . I n F i g u r e 8 , o p t i m a l c o n g u r a t i o n s a n d t h e i r c l u s t e r i n g b a l a n c e s

    a r e c o m p a r e d w i t h r e s p e c t t o i d e a l c o n g u r a t i o n . F o r e a c h p o s s i b l e

    n u m b e r o f c l u s t e r s , t h e l o w e s t b a l a n c e i s p r e s e n t e d i n t h e p a r t ( a ) o f

    t h e g u r e . A c c o r d i n g t o t h e e x p e r i m e n t a l r e s u l t s , t h e c o m p l e t e - l i n k

    d i s c o v e r e d t h e o p t i m a l c o n g u r a t i o n a s c l o s e l y a s t h e i d e a l . H o w e v e r , i t

    i s r i s k y t o g e n e r a l i z e t h i s r e s u l t s o t h a t t h e c o m p l e t e - l i n k i s s u p e r i o r t o

    a l l o t h e r a l g o r i t h m s f o r a l l i n p u t p a t t e r n s s i n c e c l u s t e r i n g p e r f o r m a n c e

    m a y c h a n g e i n a c c o r d a n c e w i t h t h e d i s t r i b u t i o n o f t h e i n p u t p a t t e r n s . A

    h i e r a r c h i c a l c l u s t e r i n g a l g o r i t h m i s c o n s i d e r e d a s t h e b e s t i f i t p r o d u c e s

    t h e l o w e s t c l u s t e r i n g b a l a n c e g i v e n p a r t i c u l a r d a t a p a t t e r n s .

    A s w e p r e v i o u s l y d e s c r i b e d , t h e b e s t c o n g u r a t i o n c a n b e s e l e c t e d

    a m o n g o p t i m a l c o n g u r a t i o n s p r o d u c e d b y h i e r a r c h i c a l c l u s t e r i n g a l g o -

    r i t h m s . C o n s e q u e n t l y , t h e d e s i r e d n u m b e r o f c l u s t e r s c a n b e e s t i m a t e d

    f r o m t h e b e s t c o n g u r a t i o n . A l s o t h e c e n t r o i d s o f t h e b e s t c o n g u r a t i o n

    c a n b e f e d t o p a r t i t i o n a l c l u s t e r i n g a l g o r i t h m s t o a v o i d r a n d o m i n i t i a l

    a s s i g n m e n t s f o r c e n t r o i d s . T h e b a s i c a s s u m p t i o n o f t h i s a p p r o a c h i s t h a t

    t h e b e s t c l u s t e r c o n g u r a t i o n , t h e w i n n e r a m o n g c o n g u r a t i o n s p r o -

    d u c e d b y h i e r a r c h i c a l c l u s t e r i n g a l g o r i t h m s , w i l l b e a n a p p r o x i m a t i o n

    o f t h e i d e a l c l u s t e r c o n g u r a t i o n f o r p a r t i t i o n a l c l u s t e r i n g .

    c l u s t e r . t e x ; 2 3 / 0 1 / 2 0 0 2 ; 1 2 : 4 0 ; p . 1 6

  • 8/2/2019 Cluster JOGO

    17/22

    1 7

    0 0.2 0.4 0.6 0.8 1

    0

    0.5

    1(a1)

    2 4 6 8 10

    1

    1.5(a2)

    0 0.2 0.4 0.6 0.8 10

    0.5

    1 (b1)

    2 4 6 8 10

    1

    1.5 (b2)

    0 0.2 0.4 0.6 0.8 10

    0.5

    1(c1)

    2 4 6 8 10

    1

    1.5(c2)

    0 0.2 0.4 0.6 0.8 10

    0.5

    1(d1)

    2 4 6 8 10

    1

    1.5(d2)

    0 0.2 0.4 0.6 0.8 10

    0.5

    1(e1)

    optimal configurations2 4 6 8 10

    1

    1.5(e2)

    number of clusters

    F i g u r e 8 . C o m p a r i s o n o f c u r r e n t l y u s e d a g g l o m e r a t i v e c l u s t e r i n g a l g o r i t h m s t o t h e o p t i m a l

    c l u s t e r i n g b y u s i n g c l u s t e r c o n g u r a t i o n s a n d c l u s t e r i n g b a l a n c e s . ( a ) T h e o p t i m a l ( b ) T h e

    s i n g l e - l i n k ( c ) T h e a v e r a g e - l i n k ( d ) T h e c o m p l e t e - l i n k ( e ) W a r d ' s m e t h o d .

    I t i s c l e a r t h a t t h e e s t i m a t e d n u m b e r i s n o t t h e t r u e v a l u e . H o w -

    e v e r , t h e e s t i m a t e d n u m b e r c a n c o n t r i b u t e t o d e c i s i o n o f t h e r a n g e o f

    t h e t r u e n u m b e r o f o p t i m a l c l u s t e r s . T o v e r i f y t h i s a s s u m p t i o n e x p e r -

    i m e n t a l l y , w e a p p l i e d k - m e a n s a l g o r i t h m w i t h a l l p o s s i b l e n u m b e r o f

    c l u s t e r s . T h e a v e r a g e d c l u s t e r i n g b a l a n c e p r o d u c e d b y t h e k - m e a n s i s

    d e p i c t e d i n F i g u r e 9 a l o n g w i t h t h e n u m b e r o f c l u s t e r s . I n t h i s e x p e r i -

    m e n t , t h e c l u s t e r i n g b a l a n c e i s t h e a v e r a g e o f v e t r i a l s . A c c o r d i n g t o

    t h e e x p e r i m e n t a l r e s u l t s , t h e d e s i r e d n u m b e r o f c l u s t e r s f o r t h e g i v e n

    d i s t r i b u t i o n i s n i n e . W h e n w e a p p l y T r a c k i n g A l g o r i t h m t o f o u r p o p -

    u l a r a l g o r i t h m s i n c l u d i n g s i n g l e - l i n k , a v e r a g e - l i n k , c o m p l e t e - l i n k a n d

    W a r d ' s m e t h o d , c o r r e s p o n d i n g o p t i m a l c o n g u r a t i o n s a r e f o u n d a s i n

    T a b l e I . S u r p r i s i n g l y , t h e n u m b e r o f c l u s t e r s p r o d u c e d b y t h e c o m p l e t e -

    l i n k i s e q u i v a l e n t t o t h e d e s i r e d n u m b e r o f c l u s t e r s o b t a i n e d b y k - m e a n s

    u s i n g a l l p o s s i b l e k v a l u e s . T h i s r e s u l t c o n v i n c i n g l y i l l u s t r a t e s t h a t o u r

    c l u s t e r i n g m e a s u r e c a n b e u s e d f o r p a r t i t i o n a l a l g o r i t h m s t o e s t i m a t e

    t h e n u m b e r o f d e s i r e d c l u s t e r s . I n a d d i t i o n , m o r e s t a b l e c o n g u r a t i o n

    a n d i m p r o v e d p e r f o r m a n c e a r e d e m o n s t r a t e d i n F i g u r e 1 0 . W h e n t h e

    n u m b e r o f d e s i r e d c l u s t e r s a n d i n i t i a l c e n t r o i d s a r e e s t i m a t e d , k - m e a n s

    i s a b l e t o c o n v e r g e q u i c k l y .

    c l u s t e r . t e x ; 2 3 / 0 1 / 2 0 0 2 ; 1 2 : 4 0 ; p . 1 7

  • 8/2/2019 Cluster JOGO

    18/22

    1 8

    0 1 2 3 40.5

    1

    1.5

    2

    2.5

    3

    3.5

    4(a)

    0 20 40 60 80 10020

    40

    60

    80

    100

    120

    140

    160(b)

    number of clusters

    F i g u r e 9 . T h e o p t i m a l c o n g u r a t i o n a n d c l u s t e r i n g b a l a n c e t r a c e d b y k - m e a n s . ( a ) O p t i -

    m a l c o n g u r a t i o n . ( b ) A v e r a g e d c l u s t e r i n g b a l a n c e o f a l l p o s s i b l e n u m b e r o f c l u s t e r s u s i n g

    k - m e a n s .

    T a b l e I . C o m p a r i s o n o f l o w e s t b a l a n c e s

    a l g o r i t h m s t h e l o w e s t b a l a n c e t h e h i g h e s t g a i n n u m b e r o f c l u s t e r s

    S i n g l e - l i n k 4 9 . 8 6 0 3 1 0 0 . 1 3 9 6 5 1 2 1

    A v e r a g e - l i n k 2 9 . 2 1 2 3 1 2 0 . 7 8 7 6 5 3 1 0

    C o m p l e t e - l i n k 2 7 . 0 9 0 4 1 2 2 . 9 0 9 5 8 3 9

    W a r d ' s M e t h o d 2 9 . 2 2 9 2 1 2 0 . 7 7 0 8 4 4 1 0

    F o r k - m e d o i d a l g o r i t h m , t h e r e s u l t s a r e a l m o s t t h e s a m e a s k -

    m e a n s a l g o r i t h m e x c e p t s o m e u c t u a t i o n s o f c l u s t e r i n g b a l a n c e b e f o r e

    c o n v e r g e n c e . T h i s r e s u l t i s n o r m a l s i n c e c e n t r o i d s a n d m e d o i d s a r e l o -

    c a t e d d i e r e n t l y i n t h e s a m e f e a t u r e s p a c e . A s a r e s u l t , t h e b e s t c l u s t e r

    c o n g u r a t i o n f o u n d b y h i e r a r c h i c a l c l u s t e r i n g a l g o r i t h m s c o n t r i b u t e s

    t o d e t e r m i n i n g t h e d e s i r e d n u m b e r o f c l u s t e r s a n d t h e i n i t i a l c e n t r o i d s

    f o r p a r t i t i o n a l c l u s t e r i n g a l g o r i t h m s .

    6 . C o n c l u s i o n

    C l u s t e r i n g i s n o t a n e w t e c h n i q u e i n c o m p u t e r r e l a t e d d i s c i p l i n e s . H o w -

    e v e r , a h u g e d e m a n d f o r c l u s t e r i n g t e c h n i q u e r e p r e s e n t e d b y a v a r i e t y

    c l u s t e r . t e x ; 2 3 / 0 1 / 2 0 0 2 ; 1 2 : 4 0 ; p . 1 8

  • 8/2/2019 Cluster JOGO

    19/22

    1 9

    0 1 2 3 40.5

    1

    1.5

    2

    2.5

    3

    3.5

    4(a)

    1 1.5 2 2.5 326

    26.1

    26.2

    26.3

    26.4

    26.5

    26.6

    26.7

    26.8

    26.9

    27

    iterations

    (b)

    F i g u r e 1 0 . A d d i t i o n a l c l u s t e r i n g o p t i m i z a t i o n a n d q u i c k c o n v e r g e n c e . ( a ) O p t i m a l c o n g -

    u r a t i o n f o u n d b y a h i e r a r c h i c a l c l u s t e r i n g a l g o r i t h m . ( b ) I m p r o v e d c l u s t e r i n g p e r f o r m a n c e .

    o f c l u s t e r i n g a p p l i c a t i o n s d e m o n s t r a t e s i t s i m p o r t a n c e . R e c e n t l y , m u c h

    e o r t h a s b e e n p r e s e n t e d t o a c h i e v e c l u s t e r i n g e c i e n c y a n d s c a l a b i l -

    i t y . I n t h i s p a p e r , w e p r o p o s e d a m e a s u r e f o r o p t i m a l c l u s t e r i n g . W e

    d e n e d c l u s t e r i n g b a l a n c e u s i n g t h e s q u a r e d e r r o r s u m s . B y s e a r c h i n g

    t h e c o m p r o m i s i n g p o i n t b e t w e e n i n t r a - c l u s t e r a n d i n t e r - c l u s t e r e r r o r

    s u m s , w e a r e a b l e t o d e t e c t t h e o p t i m a l c l u s t e r i n g c o n g u r a t i o n f o r

    a n y h i e r a r c h i c a l c l u s t e r i n g a l g o r i t h m s . F o r t h e p u r p o s e o f n d i n g a n

    o p t i m a l c o n g u r a t i o n , a n a g g l o m e r a t i v e c l u s t e r i n g r e c o v e r s t h e c l u s t e r

    c o n g u r a t i o n w i t h t h e m i n i m u m c l u s t e r i n g b a l a n c e .

    O u r a p p r o a c h i s q u i t e d i e r e n t f r o m o t h e r t r a d i t i o n a l a p p r o a c h e s .

    W e e v a l u a t e s c l u s t e r i n g o p t i m a l i t y u s i n g o n l y i n t e r n a l p r o p e r t i e s o f

    c l u s t e r s a n d s u c c e s s f u l l y a c h i e v e s i n t u i t i v e a g r e e m e n t f o r c l u s t e r i n g

    o p t i m a l i t y . I n p a r t i c u l a r , t h e n u m b e r o f d e s i r e d c l u s t e r s a n d i n i t i a l

    c e n t r o i d s c a n b e e s t i m a t e d f r o m t h e o p t i m a l c l u s t e r c o n g u r a t i o n , a n d

    p r o v i d e d t o n o n - h i e r a r c h i c a l p a r t i t i o n a l c l u s t e r i n g m e t h o d s . A s a r e s u l t ,

    p a r t i t i o n a l c l u s t e r i n g a l g o r i t h m s a r e a b l e t o c o n v e r g e m o r e q u i c k l y

    a n d g i v e l o w e r c l u s t e r i n g b a l a n c e t h a n t h o s e w i t h o u t o u r c l u s t e r i n g

    m e a s u r e .

    W h e n i t c o m e s t o c l a s s i c a t i o n , m u l t i p l e c e n t r o i d s i n a c l a s s c a n

    b e f o u n d u s i n g o u r c l u s t e r i n g m e a s u r e s i n c e e a c h c l a s s i n t u r n i s a

    c l u s t e r . I t i s n a t u r a l t o a s s u m e t h a t t h o s e c e n t r o i d s p r o v i d e s u s w i t h

    m o r e a c c u r a t e i n f o r m a t i o n d e s c r i b i n g t h e i n t e r n a l s t r u c t u r e o f a c l a s s

    t h a n t h a t r e p r e s e n t e d b y o n l y o n e c e n t r o i d . T h e r e f o r e , w e b e l i e v e t h a t

    c l a s s i c a t i o n p e r f o r m a n c e w i l l b e e n h a n c e d i f w e e x p l o i t o u r c l u s t e r -

    i n g m e a s u r e t o n d o p t i m a l s u b - c e n t r o i d s i n e a c h c l a s s . T h e b a s i c

    c l u s t e r . t e x ; 2 3 / 0 1 / 2 0 0 2 ; 1 2 : 4 0 ; p . 1 9

  • 8/2/2019 Cluster JOGO

    20/22

    2 0

    r a t i o n a l e o f i m p r o v e d c l a s s i c a t i o n i s t h a t c l a s s i c a t i o n p e r f o r m a n c e i s

    c o n t r i b u t e d b y c o m p a r i n g t e s t d a t a t o m u l t i p l e c e n t r o i d s i n s t e a d o f t h e

    s i n g l e c e n t r o i d . T h e r e f o r e , w e e x p e c t t h a t m a n y u n k n o w n c o n t r i b u t i o n s

    o f o u r a p p r o a c h w i l l b e d i s c o v e r e d i n v a r i o u s a p p l i c a t i o n s o f c l u s t e r i n g

    w h i l e o u r c l u s t e r i n g m e a s u r e c o n s i s t e n t l y g i v e s f e a s i b l e s o l u t i o n s t o

    o p t i m a l c l u s t e r i n g .

    R e f e r e n c e s

    1 . E . G o s e , R . J o h n s o n b a u g h a n d S . J o s t , P a t t e r n R e c o g n i t i o n & I m a g e A n a l y s i s ,

    P r e n t i c e H a l l , U p p e r S a d d l e R i v e r , N J , 1 9 9 6

    2 . A . K . J a i n a n d M . N . M u r t y a n d P . J . F l y n n , ` D a t a C l u s t e r i n g : A R e v i e w ' , A C M

    C o m p u t i n g S u r v e y s , V o l . 3 1 n o . 3 , p p . 2 6 4 { 3 2 3 , 1 9 9 9

    3 . E . S h a e r , R . D u b e s a n d A . K . J a i n , ` S i n g l e - l i n k C h a r a c t e r i s t i c s o f a M o d e -

    s e e k i n g A l g o r i t h m ' , P a t t e r n R e c o g n i t i o n , V o l . 1 1 , p p . 6 5 { 7 3 , 1 9 7 9

    4 . J . K i t t l e r , ` A L o c a l l y S e n s i t i v e M e t h o d f o r C l u s t e r A n a l y s i s , P a t t e r n R e c o g n i -

    t i o n , V o l . 8 , p p . 2 2 { 3 3 , 1 9 7 6

    5 . C . T . Z a h n , ` G r a p h - t h e o r e t i c a l m e t h o d s f o r D e t e c t i n g a n d D e s c r i b i n g G e s t a l t

    C l u s t e r s , I E E E T r a n s a c t i o n s o n C o m p u t e r s , V o l . 2 0 , p p . 6 8 { 8 6 , 1 9 7 1

    6 . R . U r q u h a r t , ` G r a p h T h e o r e t i c a l C l u s t e r i n g b a s e d o n l i m i t e d n e i g h b o r h o o d s e t s ,

    P a t t e r n R e c o g n i t i o n , V o l . 1 5 , p p . 1 7 3 { 1 8 7 , 1 9 8 2

    7 . K . C . G o w d a r a n d G . K r i s h n a , ` A g g l o m e r a t i v e C l u s t e r i n g u s i n g t h e C o n c e p t f o r

    M u l t i s p e c t r a l D a t a , P a t t e r n R e c o g n i t i o n , V o l . 1 0 , p p . 1 0 5 { 1 1 2 , 1 9 7 8

    8 . M . R . A n d e r b e r g , C l u s t e r A n a l y s i s f o r A p p l i c a t i o n s , A c a d e m i c P r e s s , N e w Y o r k ,

    1 9 7 3

    9 . M . A b r a m o w t i z a n d I . A . S t e g u n , H a n d b o o k o f M a t h e m a t i c a l F u n c t i o n s w i t h F o r -

    m u l a s , G r a p h i c s a n d M a t h e m a t i c a l T a b l e s , U S G o v t . P r i n t i n g O c e , W a s h i n g t o n ,

    D . C . , 1 9 6 8

    1 0 . J . J . F o r t i e r a n d H . S o l o m o n , C l u s t e r i n g P r o c e d u r e s , I n M u l t i v a r i a t e A n a l y s i s ,

    P . R . K r i s h n a i a h , e d i t o r . A c a d e m i c P r e s s , I n c . , N e w Y o r k , N Y , p p . 4 9 3 { 5 0 6 , 1 9 6 6

    1 1 . R . E . J e n s e n , ` A D y n a m i c P r o g r a m m i n g A l g o r i t h m f o r C l u s t e r A n a l y s i s ' ,

    O p e r a t i o n s R e s e a r c h , V o l . 1 7 , p p . 1 0 3 4 { 1 0 5 7 , 1 9 6 7

    1 2 . A . K . J a i n a n d R . C . D u b e s , A l g o r i t h m s f o r C l u s t e r i n g D a t a , P r e n t i c e H a l l ,

    E n g l e w o o d C l i s , N J , 1 9 8 8

    1 3 . P . W i l l e t , ` R e c e n t T r e n d s i n H i e r a r c h i c D o c u m e n t C l u s t e r i n g : A C r i t i c a l R e -

    v i e w , I n f o r m a t i o n P r o c e s s i n g a n d M a n a g e m e n t , V o l . 2 4 n o . 5 , p p . 5 7 7 { 5 9 7 ,

    1 9 8 8

    1 4 . R . C . J a n c e y , ` M u l t i d i m e n s i o n a l G r o u p A n a l y s i s ' , A u s t r a l . J . B o t a n y ,

    V o l . 1 4 n o . 1 , p p . 1 2 7 { 1 3 0 , 1 9 6 6

    1 5 . J . B . M a c Q u e e n , ` S o m e M e t h o d s f o r C l a s s i c a t i o n a n d A n a l y s i s o f M u l t i v a r i a t e

    O b s e r v a t i o n s ' , I n t h e F i f t h B e r k e l e y S y m p o s i u m o n M a t h e m a t i c a l S t a t i s t i c s a n d

    P r o b a b i l i t y , V o l . 1 , A D 6 6 9 8 7 1 , U n i v . o f C a l i f o r n i a P r e s s , B e r k e l e y , p p . 2 8 1 { 2 9 7 ,

    1 9 6 7

    1 6 . R . S i b s o n : 7 3 , ` S L I N K : a n O p t i m a l l y E c i e n t A l g o r i t h m f o r t h e S i n g l e - l i n k

    C l u s t e r M e t h o d ' , C o m p u t e r J o u r n a l , V o l . 1 6 , p p . 3 0 { 3 4 , 1 9 7 3

    1 7 . D . D e f a y s , ` A n E c i e n t A l g o r i t h m f o r a C o m p l e t e L i n k M e t h o d ' , C o m p u t e r

    J o u r n a l , V o l . 2 0 , p p . 3 6 4 { 3 6 6 , 1 9 7 7

    c l u s t e r . t e x ; 2 3 / 0 1 / 2 0 0 2 ; 1 2 : 4 0 ; p . 2 0

  • 8/2/2019 Cluster JOGO

    21/22

    2 1

    1 8 . W . H . E . D a y a n d H . E d e l s b r u n n e r , ` E c i e n t A l g o r i t h m s f o r A g g l o m e r a t i v e H i -

    e r a r c h i c a l C l u s t e r i n g M e t h o d s ' , J o u r n a l o f C l a s s i c a t i o n , V o l . 1 n o . 1 , p p . 7 { 2 4 ,

    1 9 8 4

    1 9 . R . T . N g a n d J . H a n G . , ` E c i e n t a n d E e c t i v e C l u s t e r i n g M e t h o d s f o r S p a t i a l

    D a t a M i n i n g ' , I n P r o c e e d i n g s o f t h e 2 0 t h V L D B C o n f e r e n c e , S a n t i a g o , C h i l e , 1 9 9 4

    2 0 . E . M . V o o r h e e s , ` I m p l e m e n t i n g A g g l o m e r a t i v e h i e r a r c h i c a l C l u s t e r i n g A l g o -

    r i t h m s f o r u s e i n D o c u m e n t R e t r i e v a l ' , I n f o r m a t i o n P r o c e s s i n g a n d M a n a g e m e n t ,

    V o l . 2 2 , P e r g a m o n P r e s s L t d . , G r e a t B r i t a i n , p p . 4 6 5 { 4 7 6 , 1 9 8 6

    2 1 . X . L i , ` P a r a l l e l A l g o r i t h m s f o r H i e r a r c h i c a l C l u s t e r i n g a n d C l u s t e r V a l i d i t y ' ,

    I E E E T r a n s a c t i o n s o n P a t t e r n A n a l y s i s a n d M a c h i n e I n t e l l i g e n c e , V o l . 1 2 n o . 1 1 ,

    p p . 1 0 8 8 { 1 0 9 2 , 1 9 9 0

    2 2 . P . B r a d l e y a n d U . F a y y a d a n d C . R e i n a , ` S c a l i n g C l u s t e r i n A l g o r i t h m s t o L a r g e

    D a t a b a s e s ' , K n o w l e d g e D i s c o v e r y a n d D a t a M i n i n g , 1 9 9 8

    2 3 . S . G u h a a n d R . R a s t o g i a n d K . S h i m , ` C U R E : A n E c i e n t C l u s t e r i n g A l -

    g o r i t h m f o r l a r g e D a t a b a s e s ' , I n A C M - S I G M O D I n t . C o n f . o n M a n a g e m e n t o f

    D a t a , S e a t t l e , W A . U S A , p p . 7 3 { 8 4 , 1 9 9 8

    2 4 . S . G u h a a n d R . R a s t o g i a n d K . S h i m , ` R O C K : A R o b u s t C l u s t e r i n g A l g o r i t h m

    f o r C a t e g o r i c a l A t t r i b u t e s ' , I n t h e 1 5 t h I n t . C o n f . o n D a t a E n g . , 1 9 9 9

    2 5 . V . G a n t i a n d R . R a m a k r i s h n a n a n d J . G e h r k e , ` C l u s t e r i n g L a r g e D a t a s e t s i n

    A r b i t r a r y M e t r i c S p a c e s ' , A C M , 2 0 0 0

    2 6 . M . C h a r i k a r a n d C . C h e k u r i a n d T . F e d e r a n d R . M o t w a n i , ` I n c r e m e n t a l

    C l u s t e r i n g a n d D y n a m i c I n f o r m a t i o n R e t r i e v a l ' , I n S T O C ' 9 7 , E l P a s o , T e x a s ,

    U S A , p p . 1 5 3 - 1 8 0 , 1 9 9 7

    2 7 . R . C . D u b e s , ` H o w m a n y C l u s t e r s a r e b e s t ? { a n e x p e r i m e n t ' , P a t t e r n R e c o g -

    n i t i o n , V o l . 2 0 n o . 6 , p p . 6 4 5 { 6 6 3 , 1 9 8 7

    2 8 . G . W . M i l l i g a n a n d M . C . C o o p e r , ` A n E x a m i n a t i o n o f P r o c e d u r e s f o r D e t e c t i n g

    t h e n u m b e r o f C l u s t e r s i n a d a t a s e t ' , P s y c h o m e t r i k a , V o l . 5 0 , p p . 1 5 9 { 1 7 9 , 1 9 8 5

    2 9 . J . T . T o u a n d R . C . G o n z a l e z , P a t t e r n R e c o g n i t i o n P r i n c i p l e s , A d d i s o n - W e s l e y ,

    M i a m i , F L , 1 9 7 4

    3 0 . B . E v e r e t t , C l u s t e r A n a l y s i s , A d d i s o n - W e s l e y , N e w Y o r k , 1 9 7 5

    3 1 . D . L . B o l e y , ` P r i n c i p a l D i r e c t i o n D i v i s i v e P a r t i t i o n i n g ' , D a t a M i n i n g a n d

    K n o w l e d g e D i s c o v e r y , V o l . 2 n o . 4 , p p . 3 2 5 { 3 4 4 , 1 9 9 8

    3 2 . B . M i r k i n a n d I . M u c h n i k , C o m b i n a t o r i a l O p t i m i z a t i o n i n C l u s t e r i n g , I n

    H a n d b o o k o f C o m b i n a t o r i a l O p t i m i z a t i o n , D . Z . D u a n d P . M . P a r d a l o s , K l u w e r

    A c a d e m i c P u b l i s h e r s , p p . 2 6 1 { 3 2 9 , 1 9 9 8

    3 3 . G . K a r y p i s a n d E . S . H a n a n d V . K u m a r , ` C H A M E L E O N : A H i e r a r c h i c a l C l u s -

    t e r i n g A l g o r i t h m U s i n g D y n a m i c M o d e l i n g ' , I E E E C o m p u t e r : S p e c i a l I s s u e o n

    D a t a A n a l y s i s a n d M i n i n g , V o l . 3 2 n o . 8 , p p 6 8 - 7 5 , 1 9 9 9

    3 4 . B . S . D u r a n a n d P . L . O d e l l , C l u s t e r A n a l y s i s : A S u r v e y , S p r i n g e r - V e r l a n g ,

    B e r l i n , 1 9 7 7

    3 5 . E . D i d a y a n d J . C . S i m o n , C l u s t e r i n g A n a l y s i s , I n D i g i t a l P a t t e r n R e c o g n i t i o n ,

    K . S . F u , E d . , S p r i n g e r - V e r l a g , S e c a u c u s , N J , p p . 4 7 { 9 4 , 1 9 7 6

    3 6 . M . R . G a r e y a n d D . S . J o h n s o n , C o m p u t e r s a n d I n t r a c t a b i l i t y : a g u i d e t o t h e

    t h e o r y o f N P - c o m p l e t e n e s s , W . H . F r e e m a n a n d C o m p a n y , S a n F r a n c i s c o , C A , 1 9 7 9

    3 7 . P . C r e s c e n z i a n d V . K a n n , A c o m p e n d i u m o f N P o p t i m i z a t i o n p r o b l e m s , U R L

    s i t e : h t t p : / / w w w . n a d a . k t h . s e / ~ v i g g o / p r o b l e m l i s t / c o m p e n d i u m 2 , 1 9 9 5

    3 8 . J . H . J r . W a r d , ` H i e r a r c h i c a l G r o u p i n g t o O p t i m i z e a n O b j e c t i v e F u n c t i o n ' ,

    J o u r n a l o f t h e A m e r i c a n S t a t i c a l A s s o c i a t i o n , V o l . 5 8 , p p . 2 3 6 { 2 4 4 , 1 9 6 3

    3 9 . E . W . F o r g y , ` C l u s t e r A n a l y s i s o f M u l t i v a r i a t e D a t a : E c i e n c y V e r s u s I n -

    t e r p r e t a b i l i t y o f C l a s s i c a t i o n ' , I n B i o m e t r i c s o c i e t y m e e t i n g s , R e v e r s i d e , C A ,

    A b s t r a c t i n B i o m e t r i c s V o l . 2 1 N o . 3 , p p . 7 6 8 , 1 9 6 5

    c l u s t e r . t e x ; 2 3 / 0 1 / 2 0 0 2 ; 1 2 : 4 0 ; p . 2 1

  • 8/2/2019 Cluster JOGO

    22/22

    2 2

    4 0 . G . S . S e b e s t y e n , ` P a t t e r n R e c o g n i t i o n b y a n A d a p t i v e P r o c e s s o f S a m p l e S e t

    C o n s t r u c t i o n , I R E T r a n s . o n I n f o . T h e o r y , V o l . I T - 8 , S e p . , 1 9 6 2

    4 1 . J . B . M a c Q u e e n , ` S o m e M e t h o d s f o r C l a s s i c a t i o n a n d A n a l y s i s o f M u l t i v a r i a t e

    O b s e r v a t i o n s ' , I n W e s t e r M a n a g e m e n t S c i e n c e I n s t . , U n i v e r s i t y o f C a l i f o r n i a ,

    p p . 9 6 , 1 9 6 6

    4 2 . G . H . B a l l a n d D . J . H a l l , ` S o m e F u n d a m e n t a l C o n c e p t s a n d S y n t h e s i s P r o -

    c e d u r e s f o r P a t t e r n R e c o g n i t i o n P r e p r o c e s s o r s ' , I n I n t e r n a t i o n a l C o n f e r e n c e o n

    M i c r o w a v e s , C i r c u i t T h e o r y , a n d I n f o r m a t i o n T h e o r y , 1 9 6 4

    4 3 . L . K a u f m a n a n d P . J . R o u s s e e u w , F i n d i n g G r o u p s i n D a t a : a n I n t r o d u c t i o n t o

    C l u s t e r i n g A n a l y s i s , A c a d e m i c P r e s s , S a n D i e g o , C A , 1 9 9 0

    4 4 . E . R a s m u s s e n , C l u s t e r i n g A l g o r i t h m s , I n I n f o r m a t i o n R e t r i e v a l : D a t a S t r u c -

    t u r e s a n d A l g o r i t h m s , W . B . F r a k e s a n d R . B a e z a - Y a t e s , E d s . , P r e n t i c e - H a l l , I n c . ,

    U p p e r S a d d l e R i v e r , N J , p p . 4 1 9 { 4 4 2 , 1 9 9 2

    4 5 . N . J a r d i n e a n d C . J . R i j s b e r g e n , ` T h e U s e o f H i e r a r c h i c a l C l u s t e r i n g i n I n -

    f o r m a t i o n R e t r i e v a l ' , I n f o r m a t i o n S t o r a g e a n d R e t r i e v a l , V o l . 7 , p p . 2 1 7 { 2 4 0 ,

    1 9 7 1

    4 6 . R . S . B e n n e t t , ` T h e I n t r i n s i c D i m e n s i o n a l i t y o f S i g n a l C o l l e c t i o n s ' , I E E E

    T r a n s a c t i o n s o n I n f o r m a t i o n T h e o r y , V o l . 1 5 , p p . 5 1 7 { 5 2 5 , 1 9 6 6

    4 7 . T . Z h a n g a n d R . R a m a k r i s h n a n a n d M . L i v n y , ` B I R C H : A n e c i e n t d a t a

    c l u s t e r i n g m e t h o d f o r v e r y l a r g e d a t a b a s e s ' , S I G M O D R e c . , V o l . 2 5 N o . 2 ,

    p p . 1 0 3 { 1 1 4 , 1 9 9 6

    4 8 . M . F . P o r t e r , ` A n A l g o r i t h m f o r S u x S t r i p p i n g ' , P r o g r a m , V o l . 1 4 N o . 3 ,

    p p . 1 3 0 { 1 3 7 , 1 9 8 0

    c l u s t e r . t e x ; 2 3 / 0 1 / 2 0 0 2 ; 1 2 : 4 0 ; p . 2 2