Класификация в извличането на данни

Класификацията е техника за извличане на данни, която присвоява категории на колекция от данни, за да помогне за по-точни прогнози и анализи. Също наричан понякога наречен Дърво за решения , класификацията е един от няколкото метода, предназначени да направят анализа на много големи набори от данни ефективни.

Защо Класиране?

Много големи бази данни се превръщат в норма в днешния свят на "големи данни". Представете си база данни с няколко терабайта данни - един терабайт е един трилион байта данни.

Facebook само скъсва 600 терабайта нови данни всеки ден (от 2014 г., последният път, когато съобщи тези спецификации). Основното предизвикателство на големите данни е как да го разберем.

И обемът не е единственият проблем: големите данни също са склонни да бъдат разнообразни, неструктурирани и бързо променящи се. Обмислете аудио и видео данни, публикации в социални медии, 3D данни или геопространствени данни. Този вид данни не е лесно категоризиран или организиран.

За да се отговори на това предизвикателство, бяха разработени редица автоматични методи за извличане на полезна информация, сред които класификация .

Как функционира класификацията

При опасността да преминем твърде далеч в техническо говорене, нека да обсъдим как работи класификацията. Целта е да се създаде набор от правила за класификация, които да отговарят на въпрос, да вземат решение или да предсказват поведение. За начало се разработва набор от данни за обучение, които съдържат определен набор от атрибути, както и вероятния резултат.

Задачата на алгоритъма за класификация е да открие как този набор от атрибути стига до заключението си.

Сценарий : Може би една компания за кредитни карти се опитва да определи кои перспективи трябва да получат оферта за кредитна карта.

Това може да е неговият набор от данни за обучението:

Данни за обучението
име възраст пол Годишен доход Оферта за кредитна карта
Джон Доу 25 М $ 39 500 Не
Джейн Доу 56 F $ 125 000 да

Графите "предиктор" " Възраст , пол и годишен доход определят стойността на офертата за кредитна карта " прогнозен атрибут ". В тренировъчния комплект е известен атрибутът на предсказателя. След това алгоритъмът за класифициране се опитва да определи как е достигната стойността на прогнозния атрибут: какви са взаимоотношенията между предсказателите и решението? Той ще разработи набор от правила за прогнозиране, обикновено IF / THEN, например:

АКО (Възраст> 18 ИЛИ Възраст <75) И годишен доход> 40 000 THEN оферта за кредитна карта = да

Очевидно е, че това е един прост пример, а алгоритъмът ще се нуждае от много по-голям пробовземане на данни от двата документа, показани тук. Освен това правилата за прогнозиране вероятно ще бъдат много по-сложни, включително под-правила за улавяне на детайлите на атрибутите.

След това алгоритъмът получава "прогнозен набор" от данни за анализ, но в този набор липсва прогнозният атрибут (или решение):

Предскачащи данни
име възраст пол Годишен доход Оферта за кредитна карта
Баба зима 42 М $ 88 000
Мери Мъри 16 F $ 0

Данните от този показател помагат да се оцени точността на правилата за прогнозиране и тогава правилата се променят, докато разработчикът прецени, че прогнозите са ефективни и полезни.

Всеки ден примери за класификация

Класификацията и други техники за извличане на данни стоят зад повечето от всекидневния ни опит като потребители.

Прогнозите за времето могат да използват класификацията, за да съобщят дали денят ще е дъждовен, слънчев или облачен. Медицинската професия може да анализира здравните условия, за да предскаже медицинските резултати. Методът за класификация, Naive Bayesian, използва условна вероятност за категоризиране на спам имейли. От откриването на измами до офертите за продуктите, класификацията е зад кулисите всеки ден, като анализира данните и произвежда прогнози.