Njia ya k- algorithm haitumiki kwa data ya kategoria, kwa kuwa vigeu vya kategoria ni tofauti na havina asili yoyote asilia. Kwa hivyo kuhesabu umbali wa euclidean kwa kama vile nafasi sio maana.
Je, tunaweza kutumia clustering kwa data ya kitengo?
Data ya kitengo imebadilishwa kuwa nambari kwa kugawa thamani ya cheo. Ni kwamba seti ya data ya kitengo inaweza kuunganishwa kama seti za data za nambari.. Inazingatiwa kuwa utekelezaji wa mantiki hii, k- maana hutoa utendaji sawa na unaotumiwa katika seti za data za nambari.
Je, inaweza kumaanisha kutumika kwa vigezo vya kategoria?
Hakuna njia ya kutafuta wastani kutoka kwa data hii kwa sababu hakuna rangi ya jicho "wastani". Unaweza kupata idadi, lakini sio maana. Natumai hii inasaidia!
Ni nini kinapaswa kutumika wakati data ni ya kitengo?
Data ya kitengo huchanganuliwa kwa kutumia modi na usambazaji wa wastani, ambapo data ya kawaida huchanganuliwa kwa kutumia modi huku data ya kawaida ikitumia zote mbili. Katika baadhi ya matukio, data ya kawaida inaweza pia kuchanganuliwa kwa kutumia takwimu zisizobadilika, takwimu za pande mbili, programu za urejeleaji, mitindo ya mstari na mbinu za uainishaji.
Ni nini kuunganishwa na sifa za kategoria?
Mkusanyiko wa data kategoria hurejelea hali ambapo vipengee vya data vimefafanuliwa juu ya sifa za kategoria … Yaani, hakuna mpangilio mmoja au utendakazi wa umbali asilia kwa thamani za kitengo, na hakuna uchoraji ramani kutoka kwa kategoria hadi nambari za nambari ambazo zina busara kimaana.