Каква е разликата между нормализиране и стандартно мащабиране в машинното обучение? (11.30.21)

Инженеринг на функции и визуализация на данни са съществена част от извършването на всякакви дейности, свързани с машинно обучение и анализ на данни. Тъй като позволява на разработчиците да анализират своите данни и да намерят различните отклонения и отрицателно корелирани функции с целевата функция. Идеята е да се направи наборът от данни възможно най -чист, така че здрав модел за машинно обучение да може да бъде изграден и възпроизведен от други. За извършване на дейности, свързани с инженерното проектиране, има много начини като премахване на колони с нулева стойност, замяна на определени стойности в колоните със съответна информация, отпадане на отклоненията в набора от данни, промяна на типа данни на колоните и много други.

Една такава характеристика в инженерството е мащабиране на метаданните на колоните в нашия набор от данни. Има основно два типа техники за мащабиране, които обикновено се изпълняват от учени по данни и това са Стандартно мащабиране и Нормализиране . И двете тези техники за мащабиране, въпреки че работят на същия принцип, който намалява мащаба на функциите, но имат различен работен механизъм и генерират различни видове резултати. Нека да обсъдим разликите между тези две техники за мащабиране, за да можем да разберем по -добре кога какво да използваме:

Защо да използваме мащабиране и на кои алгоритми?

На първо място, трябва да разберете защо се нуждаем от техники за мащабиране, които да бъдат внедрени в нашия набор от данни, нали ?? Отговорът на това е даден по -долу:

Алгоритмите за машинно обучение, които зависят от градиентното спускане, което е параболична крива, в която нашата функция се опитва да достигне глобалната минимална точка, за да актуализира теглото и да намали грешката или цената функция. Алгоритмите за машинно обучение като линейни, логистична регресия и алгоритми за дълбоко обучение се основават на концепцията заградиентно спускане, така че тук трябва да мащабираме нашите данни. Причината за избора на техники за мащабиране е, че когато се опитваме да постигнем глобалната минимална точка чрез актуализиране на теглата чрез обратно разпространение, стойностите на независимите характеристики трябва да бъдат линейно разделими и да не са разпръснати, защото това може да доведе до случай на пренастройване и недостатъчно оборудване. По този начин, за да помогнем на тези функции да се разделят линейно, трябва да използваме техники за мащабиране.

В алгоритмите, базирани на дърво, случаят е напълно различен, защото тук няма смисъл да се създава най-подходящата линия и след това да се изчислява разстояния на функциите от най -подходящата линия и съответно актуализиране на теглата. Така че алгоритмите, базирани на дърво, не изискват мащабиране на функции и това се отразява неблагоприятно на ефективността на модела, ако приложим мащабните техники тук.

Нормализиране

Тук ще обсъдим какво е точно значението на нормализирането?

Това е техника за мащабиране, която позволява на потребителите да мащабират своите данни между диапазон от 0 до 1. Тази техника за мащабиране трябва да се използва, когато метаданните на функциите не следват разпределение по Гаус, което не се подчинява на кривата с формата на камбана, където централната точка е средната стойност, равна на 0, а стандартното отклонение е равно на 1. Така че графиката на набора от данни, ако не следва кривата на Бел, трябва да отидем с техниката на нормализация. Нарича се също техника за мащабиране с минимален макс и обикновено се използва в конволюционните невронни мрежи, които са базирани на изображения.

Формулата за нормализиране е дадена като;

X '= X - Xmin / Xmax - Xmin, където X е независимата характеристика, Xmin е минималната стойност на характеристиката, а Xmax е максималната стойност на функцията.

Стандартизация

Z Резултат = X - µ / σ, където X е независимата характеристика, µ е средната стойност на метаданните на функция, а σ е стандартното отклонение.

Това е техника, която се използва, когато наборът от данни прилича на крива под формата на камбана, когато се визуализира същото чрез графики и символи. Това също се нарича Гаусово нормално разпределение n, където всички характеристики са центрирани върху средната стойност, която е равна на 0 и стандартното отклонение е равно на 1. Техниката за стандартизация помага на потребителите да открият отклонения в набора от данни. Методът за намиране на отклоненията и преобразуване на данните в стандартната скала се нарича метод Z Score и формулата за намиране на Z оценка е дадена по -долу:

Стандартното мащабиране намира своето приложение в много алгоритми за машинно обучение като логистична регресия, поддържаща векторна машина, линейна регресия и много други. потребителите какво да използват и кога няма строго правило, че трябва да използваме тази техника тук и да не уважаваме другата. Изборът е напълно безпристрастен и потребителите могат да използват както техниките, така и да прецизират модела си и да видят разликата, която получават в резултата от набора от данни.

Как да използвам Нормализация в Python?

from Sklearn.preprocessing import MinMaxScaler    Norm= MinMaxScaler()    X_new= Norm.fit_transform(X)    print(X_new)

Как да използваме стандартизацията в Python?

from Sklearn.preprocessing import StandardScaler    Scaler= StandardScaler()    X_new= Scaler.fit_transform(X)    print(X_new)


Видео в YTube: Каква е разликата между нормализиране и стандартно мащабиране в машинното обучение?

11, 2021