Регресионният анализ анализира отношенията между променливите
Регресията е техника за извличане на данни, използвана за прогнозиране на набор от цифрови стойности (наричани още " непрекъснати стойности" ), като се има предвид конкретен набор от данни. Например, може да се използва регресия, за да се предскажат разходите за продукт или услуга, предвид други променливи.
Регресията се използва в различни индустрии за бизнес и маркетингово планиране, финансово прогнозиране, моделиране на околната среда и анализ на тенденциите.
Regression Vs. класификация
Регресията и класификацията са техники за извличане на данни, използвани за решаване на подобни проблеми, но те често се бъркат. И двата се използват в прогнозния анализ, но регресията се използва за предсказване на цифрова или непрекъсната стойност, докато класификацията присвоява данни в отделни категории.
Например, регресията ще се използва, за да се предскаже стойността на жилището въз основа на местоположението му, квадратните крачета, цената при последното му продаване, цената на подобни жилища и други фактори. Класификацията би била в ред, ако вместо това искате да организирате къщи в категории, като например проходимост, размер на партидата или престъпност.
Видове техники на регресия
Най-простата и най-старата форма на регресия е линейната регресия, използвана за оценка на връзката между две променливи. Тази техника използва математическата формула на права линия (y = mx + b). Накратко, това просто означава, че като се има предвид графика с Y и X-ос, връзката между X и Y е права линия с малко отклонения. Можем например да приемем, че като се има предвид увеличаването на населението, производството на храни ще се увеличи със същата скорост - това изисква силна линейна връзка между двете цифри. За да визуализирате това, помислете за графика, в която оста Y проследява увеличаването на популацията, а оста X проследява производството на храни. Тъй като стойността на Y нараства, стойността на X ще се увеличи със същата скорост, правейки връзката между тях права.
Разширените техники, като многократната регресия, предвиждат връзка между множество променливи - например дали има връзка между доходите, образованието и къде се избира да живееш? Добавянето на повече променливи значително увеличава сложността на прогнозата. Има няколко типа множество регресионни техники, включващи стандартни, йерархични, setwise и поетапни, всяка със свое собствено приложение.
В този момент е важно да разберем какво се опитваме да предвидим (зависимата или прогнозираната променлива) и данните, които използваме, за да направим прогнозата (независимите или прогнозни променливи). В нашия пример искаме да предвидим местоположението, където човек избира да живее ( прогнозната променлива), даден доход и образование (и двете променливи на прогнозиране ).
- Стандартната множествена регресия отчита всички променливи на прогнозите едновременно. Например 1) каква е връзката между доходите и образованието (предиктори) и избора на квартал (прогнозиран); и 2) до каква степен всеки от отделните предиктори допринася за тази връзка?
- Поетапно множествената регресия отговаря на съвсем друг въпрос. Поетапният регресионен алгоритъм ще анализира кои прогнози се използват най-добре за предсказване на избора на квартал - това означава, че стъпковият модел оценява реда на важност на прогнозните променливи и след това избира съответна подгрупа. Този тип регресионен проблем използва "стъпки" за разработване на регресионното уравнение. Като се има предвид този тип регресия, всички предиктори може да не се появят дори в крайното регресионно уравнение.
- Йерархичната регресия , подобно на стъпките, е последователен процес, но прогнозните променливи се въвеждат в модела в предварително определен предварително определен ред, т.е. алгоритъмът не съдържа вграден набор от уравнения за определяне на реда, в който да въведете прогнозите. Това се използва най-често, когато индивидът, създаващ регресионното уравнение, има експертни познания в областта.
- Setwise регресията също е подобна на поетапно, но анализира набор от променливи, а не отделни променливи.