Какво означава k-означава клъстеризиране?

Извличане на данни с алгоритъма k-средства

Алгоритъмът за клъстериране на k- средства е инструмент за извличане на данни и машинно обучение, използван за групиране на наблюденията в групи от свързани наблюдения без предварително познаване на тези взаимоотношения. Чрез вземане на проби алгоритъмът се опитва да покаже в коя категория или клъстер данните принадлежат, като броят на клъстерите се определя от стойността k.

Алгоритъмът k- means е една от най-простите техники за клъстеризиране и се използва често в областта на медицинското изобразяване, биометричните данни и свързаните с тях области. Предимството на к- clustering означава, че той разказва за вашите данни (използвайки неговата безконтролна форма), вместо да трябва да инструктирате алгоритъма за данните в началото (използвайки контролирана форма на алгоритъма).

Понякога се споменава като "Алгоритъм на Лойд", особено в компютърните науки, защото стандартният алгоритъм е предложен за пръв път от Стюарт Лойд през 1957 г. Терминът "k-means" е създаден през 1967 г. от Джеймс Маккуин.

Как функционира алгоритъмът k-means

Алгоритъмът k- means е еволюционен алгоритъм, който придобива своето име от своя метод на работа. Алгоритъмът обединява наблюденията в k групи, където k се предоставя като входен параметър. Тогава присвоява всяко наблюдение на клъстерите въз основа на близостта на наблюдението до средната част на клъстера. Средната стойност на клъстера се компенсира и процесът започва отново. Ето как работи алгоритъмът:

  1. Алгоритъмът произволно избира к точки като начални клъстерни центрове (средства).
  2. Всяка точка в набора от данни се присвоява на затворения клъстер въз основа на Euclidean разстоянието между всяка точка и всеки център на клъстера.
  3. Всеки център на клъстера се преизчислява като средна стойност на точките в този клъстер.
  4. Стъпки 2 и 3 се повтарят, докато клъстерите се приближат. Конвергенцията може да бъде определена по различен начин в зависимост от изпълнението, но обикновено означава, че нито наблюдения не променят клъстерите, когато стъпки 2 и 3 се повтарят, или че промените не правят съществена разлика в дефиницията на клъстерите.

Избиране на броя клъстери

Един от основните недостатъци на k- означава клъстеризиране е фактът, че трябва да посочите броя на клъстерите като вход към алгоритъма. Както е разработено, алгоритъмът не е в състояние да определи подходящия брой клъстери и зависи от това, че потребителят предварително го идентифицира.

Например, ако сте имали група от хора, които трябва да бъдат групирани въз основа на двоична полова идентичност като мъжки или женски, наричайки алгоритъма k- средства, използвайки входа k = 3 би принудил хората в три клъстера, когато само два въвеждане на k = 2, би осигурило по-естествено прилягане.

По същия начин, ако дадена група от индивиди лесно се групира на базата на началното състояние и нарече алгоритъма k- средства с вход k = 20, резултатите могат да бъдат твърде общи, за да бъдат ефективни.

По тази причина често е добра идея да експериментирате с различни стойности на k, за да определите стойността, която най-добре отговаря на вашите данни. Също така може да пожелаете да проучите използването на други алгоритми за извличане на данни в търсенето на машино-научени знания.