Определяне на регресионния статистически модел

Регресионният анализ анализира отношенията между променливите

Регресията е техника за извличане на данни, използвана за прогнозиране на набор от цифрови стойности (наричани още " непрекъснати стойности" ), като се има предвид конкретен набор от данни. Например, може да се използва регресия, за да се предскажат разходите за продукт или услуга, предвид други променливи.

Регресията се използва в различни индустрии за бизнес и маркетингово планиране, финансово прогнозиране, моделиране на околната среда и анализ на тенденциите.

Regression Vs. класификация

Регресията и класификацията са техники за извличане на данни, използвани за решаване на подобни проблеми, но те често се бъркат. И двата се използват в прогнозния анализ, но регресията се използва за предсказване на цифрова или непрекъсната стойност, докато класификацията присвоява данни в отделни категории.

Например, регресията ще се използва, за да се предскаже стойността на жилището въз основа на местоположението му, квадратните крачета, цената при последното му продаване, цената на подобни жилища и други фактори. Класификацията би била в ред, ако вместо това искате да организирате къщи в категории, като например проходимост, размер на партидата или престъпност.

Видове техники на регресия

Най-простата и най-старата форма на регресия е линейната регресия, използвана за оценка на връзката между две променливи. Тази техника използва математическата формула на права линия (y = mx + b). Накратко, това просто означава, че като се има предвид графика с Y и X-ос, връзката между X и Y е права линия с малко отклонения. Можем например да приемем, че като се има предвид увеличаването на населението, производството на храни ще се увеличи със същата скорост - това изисква силна линейна връзка между двете цифри. За да визуализирате това, помислете за графика, в която оста Y проследява увеличаването на популацията, а оста X проследява производството на храни. Тъй като стойността на Y нараства, стойността на X ще се увеличи със същата скорост, правейки връзката между тях права.

Разширените техники, като многократната регресия, предвиждат връзка между множество променливи - например дали има връзка между доходите, образованието и къде се избира да живееш? Добавянето на повече променливи значително увеличава сложността на прогнозата. Има няколко типа множество регресионни техники, включващи стандартни, йерархични, setwise и поетапни, всяка със свое собствено приложение.

В този момент е важно да разберем какво се опитваме да предвидим (зависимата или прогнозираната променлива) и данните, които използваме, за да направим прогнозата (независимите или прогнозни променливи). В нашия пример искаме да предвидим местоположението, където човек избира да живее ( прогнозната променлива), даден доход и образование (и двете променливи на прогнозиране ).