Полиномиальная зависимость

8.3. Линейная функция

Полиномиальная зависимость

Функцияаргумента х,имеющая вид у=ах+b,где аи b– некоторые заданные числа, называетсялинейной. Ее графиком является прямаялиния, которая наклонена к оси хпод угломφ,тангенс которого равен аи смещенная по оси уна величину bот начала координат (рис. 38).

y

y=ax+b x

x

y=ax–b

Рис.38. График линейной функции

8.4. Логарифмическая, степенная и экспоненциальная функции

Экспоненциальнаяфункция

y=a.ebx

гдеaи b– расчетные коэффициенты,

e– основание натурального логарифма.

Логарифмическаяфункция

y=a.lnx+b

гдеaи b– расчетные коэффициенты,

ln– функция натурального логарифма.

Логарифмическаяфункция является обратной к экспоненциальнойфункции.

Степеннаяфункция

y=a.хb

гдеaи b– расчетные коэффициенты.

Графикиэкспоненциальной и логарифмическойфункций приведены на рис. 39.

y

y=a.ebx

x

y=a.lnx+b

Рис.39. Графики экспоненциальной илогарифмической функций

8.5. Полиномиальная функция

Полиномиальнаяфункция 2 порядка

у=а1.х22.х+а3

гдеа1,а2,а3–расчетные коэффициенты.

Полиномиальнаяфункция 2 порядка применяется в томслучае, если по точкам графика видно,имеется один экстремум.

Графикомданной функции является парабола (рис.40).

y

x

Рис.40. График полиномиальной функции 2порядка

Полиномиальнаяфункция 3 порядка

у=а1.х32.х23.х+а4

гдеа1,а2,а34–расчетные коэффициенты.

Полиномиальнаяфункция 3 порядка применяется в томслучае, если по точкам графика видно,имеется два пика.

Графикданной функции приведен на рис. 41.

y

x

Рис.41. График полиномиальной функции 3порядка

Полиномиальнаяфункция 4 порядка

у=а1.х42.х33.х24..х+а5

гдеа1,а2,а34,а5–расчетные коэффициенты.

Полиномиальнаяфункция 4 порядка применяется в томслучае, если по точкам графика видно,имеется три пика.

Графикданной функции приведен на рис. 42.

y

x

Рис.42. График полиномиальной функции 4порядка

Полиномиальнаяфункция 5 порядка

у=а1.х42.х33.х24..х+а5.х+ а6

гдеа1,а2,а34,а5,а6–расчетные коэффициенты.

Полиномиальнаяфункция 5 порядка применяется в томслучае, если по точкам графика видно,имеется четыре пика.

Графикданной функции приведен на рис. 43.

y

x

Рис.43. График полиномиальной функции 5порядка

Полиномиальнаяфункция 6 порядка

у=а1.х42.х33.х24..х+а5.х+ а6.х+а7

гдеа1,а2,а34,а5,а6,а7–расчетные коэффициенты.

Полиномиальнаяфункция 6 порядка применяется в томслучае, если по точкам графика видно,имеется пять пиков.

Графикданной функции приведен на рис. 44.

y

Рис.44. График полиномиальной функции 6порядка

9. Корреляционный анализ

Корреляционныйанализ– метод, позволяющий обнаружить зависимостьмежду несколькими случайными величинами.

Допустим,проводится независимое измерениеразличных параметров у одного типаобъектов. Из этих данных можно получитькачественно новую информацию – овзаимосвязи этих параметров. Для этоговводится коэффициенткорреляции.Он рассчитывается следующим образом:

Естьмассив из nточек {x1,i,x2,i}

Рассчитываютсясредние значения для каждого параметра:

Икоэффициент корреляции:

rизменяется в пределах от -1 до 1. В данномслучае это линейный коэффициенткорреляции, он показывает линейнуювзаимосвязь между x1и x2:r равен1 (или -1), если связь линейна.

Коэффициентrявляется случайной величиной, посколькувычисляется из случайных величин. Длянего можно выдвигать и проверятьследующие гипотезы:

1.Коэффициент корреляции значимо отличаетсяот нуля (т.е. есть взаимосвязь междувеличинами):

Тестоваястатистика вычисляется по формуле:

исравнивается с табличным значениемкоэффициента Стьюдента t(p= 0.95, f = )= 1.96

Еслитестовая статистика больше табличногозначения, то коэффициент значимоотличается от нуля. По формуле видно,что чем больше измерений n,тем лучше (больше тестовая статистика,вероятнее, что коэффициент значимоотличается от нуля)

2.Отличие между двумя коэффициентамикорреляции значимо:

Тестоваястатистика:

Такжесравнивается с табличным значениемt(p,)

Свойствакоэффициента корреляции:

1.Абсолютная величина выборочногокоэффициента корреляции не превосходитединицы.

2.Если выборочный коэффициент корреляцииравен нулю и выборочные линии регрессии – прямые, то Х и Y не связаны линейнойкорреляционной зависимостью.

3.Если величина выборочного коэффициентакорреляции равна единице, то наблюдаемыезначения признаков связаны линейнойкорреляционной зависимостью.

4.С возрастанием абсолютной величинывыборочного коэффициента корреляциилинейная корреляционная зависимостьстановится более тесной и при ǀrǀ=1переходит в функциональную зависимость.

Впрограмме Excel для вычисления коэффициентакорреляции применяется функции КОРРЕЛ(рис.

58), которая вычисляет коэффициенткорреляции между двумя переменнымиизмерений, когда для каждой переменнойизмерение наблюдается для каждогосубъекта N (пропуск наблюдения длясубъекта приводит к игнорированиюсубъекта в анализе).

Корреляционныйанализ иногда применяется, если длякаждого субъекта N есть более двухпеременных измерений. В результатевыводится таблица, корреляционнаяматрица, показывающая значение функцииКОРРЕЛ для каждой возможной парыпеременных измерений.

Рис.58. ФункцияКОРРЕЛ

КОРРЕЛ(массив1;массив2)

Массив1  — это интервал ячеек со значениями.

Массив2  — второй интервал ячеек со значениями.

Еслиаргумент, который является массивомили ссылкой, содержит текст, логическиезначения или пустые ячейки, то такиезначения игнорируются; однако ячейки,которые содержат нулевые значения,учитываются.

Еслимассив1 и массив2 имеют различноеколичество точек данных, то функцияКОРРЕЛвозвращает значение ошибки #Н/Д.

Есликакой-либо из массивов пуст или если σ(стандартное отклонение) их значенийравняется нулю, функция КОРРЕЛвозвращает значение ошибки #ДЕЛ/0!.

Уравнениедля коэффициента корреляции имеетследующий вид:

гдеx и y — выборочные средние значенияСРЗНАЧ(массив1)и СРЗНАЧ(массив2).

Коэффициенткорреляции, как и ковариационный анализ,характеризует степень, в которой дваизмерения «изменяются вместе».

В отличиеот ковариационного анализа коэффициенткорреляции масштабируется таким образом,что его значение не зависит от единиц,в которых выражены переменные двухизмерений (например, если вес и высотаявляются двумя измерениями, значениекоэффициента корреляции не изменитсяпосле перевода веса из фунтов вкилограммы). Любое значение коэффициентакорреляции должно находиться в диапазонеот -1 до +1 включительно.

Корреляционныйанализ дает возможность установить,ассоциированы ли наборы данных повеличине, т. е. большие значения из одногонабора данных связаны с большимизначениями другого набора (положительнаякорреляция) или наоборот, малые значенияодного набора связаны с большимизначениями другого (отрицательнаякорреляция), или данные двух диапазоновникак не связаны (нулевая корреляция). 

Впрограмме Excel коэффициент корреляцииможно найти с помощью надстройки ПАКЕТАНАЛИЗА (рис.59, 60).

Рис.59. Окно ПАКЕТААНАЛИЗА

Рис.60. Окно КОРРЕЛЯЦИЯв ПАКЕТЕАНАЛИЗА

Входнойинтервал  Введитессылку на диапазон, содержащийанализируемые данные. Ссылка должнасостоять из двух или более смежныхдиапазонов данных, в которых данныерасположены по строкам или столбцам.

Группирование  Взависимости от расположения данных вовходном диапазоне установите переключательв положение построкамили постолбцам.

Меткив первой строке/Метки в первом столбце  Еслипервая строка входного диапазонасодержит названия столбцов, установитефлажок Меткив первой строке.Если названия строк находятся в первомстолбце входного диапазона, установитефлажок Меткив первом столбце.Если входной диапазон не содержит меток,снимите этот флажок. Необходимыезаголовки в выходной таблице создаютсяавтоматически.

Выходнойинтервал  Введитессылку на левую верхнюю ячейку выходногодиапазона.

Поскольку коэффициенткорреляции двух наборов данных независит от последовательности ихобработки, выходная область занимаеттолько половину предназначенного длянее места.

Ячейки выходного диапазона,имеющие совпадающие координаты строки столбцов, содержат значение 1, т. к.каждые строка и столбец во входномдиапазоне полностью коррелируют с самимсобой.

Новыйрабочий лист  Установитепереключатель в это положение, чтобыоткрыть новый лист в книге и вставитьрезультаты анализа, начиная с ячейкиA1. При необходимости введите имя длянового листа в поле, расположенномнапротив соответствующего положенияпереключателя.

Новаярабочая книгаУстановитепереключатель в это положение длясоздания новой книги, в которой результатыбудут добавлены в новый лист.

Инструменты«Корреляция» и «Ковариация» применяютсядля одинаковых значений, если в выборкенаблюдается N различных переменныхизмерений.

Оба вида анализа возвращаюттаблицу — матрицу, показывающуюкоэффициент корреляции или ковариационныйанализ соответственно для каждой парыпеременных измерений.

В отличие откоэффициента корреляции, масштабируемогов диапазоне от -1 до +1 включительно,соответствующие значения ковариационногоанализа не масштабируются. Оба видаанализа характеризуют степень, в которойдве переменные «изменяются вместе».

Ковариационныйанализ вычисляет значение функции КОВАР(рис. 61) для каждой пары переменныхизмерений (напрямую использовать функциюКОВАР вместо ковариационного анализаимеет смысл при наличии только двухпеременных измерений, то есть при N=2).

Элемент по диагонали таблицы, возвращаемойпосле проведения ковариационногоанализа в строке i столбец i являетсяковариационным анализом i-ой переменнойизмерения с самой собой; это всего лишьдисперсия генеральной совокупностидля данной переменной, вычисляемаяфункцией ДИСПР.

Ковариационныйанализ дает возможность установить,ассоциированы ли наборы данных повеличине, то есть большие значения изодного набора данных связаны с большимизначениями другого набора (положительнаяковариация) или наоборот, малые значенияодного набора связаны с большимизначениями другого (отрицательнаяковариация), или данные двух диапазоновникак не связаны (ковариация близка кнулю). 

Рис.61. ФункцияКОВАР

КОВАР(массив1;массив2)

Массив1  — первый массив или интервал данных.

Массив2  — второй массив или интервал данных.

  • Аргументы должны быть либо числами, либо именами, массивами или ссылками, содержащими числа.
  • Если аргумент, который является массивом или ссылкой, содержит тексты, логические значения или пустые ячейки, то такие значения игнорируются; однако ячейки, которые содержат нулевые значения, учитываются.
  • Если массив1 и массив2 имеют различное число точек данных, функция КОВАР возвращает значение ошибки #Н/Д.
  • Если массив1 или массив2 пуст, функция КОВАР возвращает значение ошибки #ДЕЛ/0!.
  • Ковариация определяется следующим образом:
  • Входной интервал  Введите ссылку на диапазон, содержащий анализируемые данные. Ссылка должна состоять из двух или более смежных диапазонов данных, в которых данные расположены по строкам или столбцам.

Группирование  Взависимости от расположения данных вовходном диапазоне установите переключательв положение построкамили постолбцам.

Меткив первой строке/Метки в первом столбце  Еслипервая строка входного диапазонасодержит названия столбцов, установитефлажок Меткив первой строке.Если названия строк находятся в первомстолбце входного диапазона, установитефлажок Меткив первом столбце.Если входной диапазон не содержит меток,снимите этот флажок. Необходимыезаголовки в выходной таблице создаютсяавтоматически.

Выходнойинтервал  Введитессылку на левую верхнюю ячейку выходногодиапазона. Поскольку ковариация двухнаборов данных не зависит отпоследовательности их обработки, товыходная область занимает толькополовину предназначенного для нееместа. Диагональные ячейки выходнойобласти содержат значения дисперсийвходных диапазонов.

Новыйрабочий лист  Установитепереключатель в это положение, чтобыоткрыть новый лист в книге и вставитьрезультаты анализа, начиная с ячейкиA1. При необходимости введите имя длянового листа в поле, расположенномнапротив соответствующего положенияпереключателя.

Новаярабочая книга  Установитепереключатель в это положение длясоздания новой книги, в которой результатыбудут добавлены в новый лист.

Источник: https://studfile.net/preview/5758724/page:11/

Полиномиальная регрессия

Полиномиальная зависимость

Дата публикации Oct 8, 2018

Это мой третий блог в серии машинного обучения. Этот блог требует предварительных знаний о линейной регрессии. Если вы не знаете о линейной регрессии или нуждаетесь в обновлении, просмотрите предыдущие статьи этой серии.

Линейная регрессия требует, чтобы отношение между зависимой переменной и независимой переменной было линейным. Что если распределение данных было более сложным, как показано на рисунке ниже? Можно ли использовать линейные модели для подбора нелинейных данных? Как мы можем создать кривую, которая лучше всего отражает данные, как показано ниже? Что ж, мы ответим на эти вопросы в этом блоге.

Оглавление

  • Почему полиномиальная регрессия
  • Переоснащение против Подгонка
  • Уклон против Различий компромиссов
  • Применение полиномиальной регрессии к бостонскому набору данных.

Почему полиномиальная регрессия?

Чтобы понять необходимость полиномиальной регрессии, давайте сначала сгенерируем случайный набор данных.

Сгенерированные данные выглядят как

Давайте применим модель линейной регрессии к этому набору данных.

Сюжет самой подходящей линии

Мы можем видеть, что прямая линия не может захватить шаблоны в данных. Это примерпод-фитинга, Вычисление RMSE и R²-показателя линейной линии дает:

RMSE of linear regression is 15.908242501429998.
R2 score of linear regression is 0.6386750054827146

Чтобы преодолеть несоответствие, нам нужно увеличить сложность модели.

Чтобы сгенерировать уравнение более высокого порядка, мы можем добавить мощности оригинальных функций в качестве новых. Линейная модель,

может быть преобразован в

Это все еще считаетсялинейная модельпоскольку коэффициенты / веса, связанные с признаками, все еще линейны. x² это только особенность. Однако кривая, которая нам подходитквадратныйв природе.

Для преобразования оригинальных функций в условия высшего порядка мы будем использоватьPolynomialFeaturesкласс предоставленscikit-learn, Далее мы обучаем модель с использованием линейной регрессии.

To generate polynomial features (here 2nd degree polynomial)————————————————————polynomial_features = PolynomialFeatures(degree=2)x_poly = polynomial_features.fit_transform(x)Explaination————Let's take the first three rows of X: [[-3.29215704] [ 0.79952837] [-0.93621395]]If we apply polynomial transformation of degree 2, the feature vectors become[[-3.29215704 10.83829796] [ 0.79952837 0.63924562] [-0.93621395 0.87649656]]

Подгонка модели линейной регрессии к преобразованным объектам дает график ниже.

Из графика совершенно ясно, что квадратичная кривая может соответствовать данным лучше, чем линейная линия. Вычисление RMSE и R²-балла квадратичного графика дает:

RMSE of polynomial regression is 10.120437473614711.
R2 of polynomial regression is 0.8537647164420812.

Мы можем видеть, что среднеквадратичное отклонение уменьшилось, а показатель R² увеличился по сравнению с линейной линией

Если мы попытаемся подогнать кубическую кривую (степень = 3) к набору данных, мы увидим, что он проходит через больше точек данных, чем квадратичный и линейный графики.

Метрика кубической кривой

RMSE is 3.449895507408725
R2 score is 0.9830071790386679

Ниже приведено сравнение подгонки линейных, квадратичных и кубических кривых к набору данных.

Если мы продолжим увеличивать степень до 20, мы увидим, что кривая проходит через большее количество точек данных. Ниже приведено сравнение кривых для степени 3 и 20.

Для степени = 20 модель также фиксирует шум в данных. Это примернад-фитинга, Даже если эта модель проходит через большую часть данных, она не сможет обобщить невидимые данные.

Чтобы избежать перестройки, мы можем добавить больше обучающих выборок, чтобы алгоритм не распознавал шум в системе и мог стать более обобщенным.(Примечание: добавление дополнительных данных может быть проблемой, если данные сами по себе являются помехами).

Как выбрать оптимальную модель? Чтобы ответить на этот вопрос, нам нужно понять компромисс между компромиссом и дисперсией.

Компромисс против дисперсии

предвзятостьотносится к ошибке из-за упрощенных предположений модели при подборе данных. Высокое смещение означает, что модель не может захватить шаблоны в данных, и это приводит кпод-фитинга,

отклонениеотносится к ошибке из-за сложной модели, пытающейся соответствовать данным. Высокая дисперсия означает, что модель проходит через большинство точек данных, и это приводит кнад-фитингаданные.

На картинке ниже представлены результаты нашего обучения.

Из рисунка ниже мы можем наблюдать, что с увеличением сложности модели смещение уменьшается, а дисперсия увеличивается, и наоборот.

В идеале модель машинного обучения должна иметьнизкая дисперсия и низкий уклон, Но практически невозможно иметь оба.

Поэтому, чтобы получить хорошую модель, которая хорошо работает как на поездах, так и на невидимых данных,компромисссделан.

Источник:http://scott.fortmann-roe.com/docs/BiasVariance.html

До сих пор мы рассмотрели большую часть теории полиномиальной регрессии. Теперь давайте реализуем эти концепции в наборе данных Boston Housing, который мы проанализировали впредыдущийблог.

Применение полиномиальной регрессии к набору данных Housing

Из рисунка ниже видно, чтоLSTATимеет небольшое нелинейное изменение с целевой переменнойMEDV, Мы преобразуем исходные функции в полиномы более высокой степени, прежде чем обучать модель

Давайте определим функцию, которая преобразует исходные элементы в полиномиальные элементы заданной степени, а затем применяет к ним линейную регрессию.

Далее мы вызываем вышеуказанную функцию со степенью 2.

Производительность модели с использованием полиномиальной регрессии:

The model performance for the training set ——————————————- RMSE of training set is 4.703071027847756

R2 score of training set is 0.7425094297364765 The model performance for the test set

——————————————- RMSE of test set is 3.784819884545044

R2 score of test set is 0.8170372495892174

Это лучше, чем мы достигли с помощью линейной регрессии впредыдущийблог.

Вот и все для этой истории. Это GithubСделки рЕПОсодержит весь код для этого блога, и можно найти полный блокнот Jupyter, используемый для набора данных жилья в БостонеВот,

Вывод

В этой серии машинного обучения мы рассмотрели линейную регрессию, полиномиальную регрессию и реализовали обе эти модели в наборе данных Boston Housing.

Мы расскажем о логистической регрессии в следующем блоге.

Спасибо за чтение !!

Оригинальная статья

Источник: https://www.machinelearningmastery.ru/polynomial-regression-bbe8b9d97491/

5 видов регрессии и их свойства

Полиномиальная зависимость

Линейная и логистическая регрессии обычно являются первыми видами регрессии, которые изучают в таких областях, как машинное обучение и наука о данных.

Оба метода считаются эффективными, так как их легко понять и использовать. Однако, такая простота также имеет несколько недостатков, и во многих случаях лучше выбирать другую регрессионную модель.

Существует множество видов регрессии, каждый из которых имеет свои достоинства и недостатки.

Мы познакомимся с 7 наиболее распространенными алгоритмами регрессии и опишем их свойства. Также мы узнаем, в каких ситуация и с какими видами данных лучше использовать тот или иной алгоритм. В конце мы расскажем о некоторых инструментах для построения регрессии и поможем лучше разобраться в регрессионных моделях в целом!

Линейная регрессия

Регрессия — это метод, используемый для моделирования и анализа отношений между переменными, а также для того, чтобы увидеть, как эти переменные вместе влияют на получение определенного результата.

Линейная регрессия относится к такому виду регрессионной модели, который состоит из взаимосвязанных переменных. Начнем с простого.

Парная (простая) линейная регрессия — это модель, позволяющая моделировать взаимосвязь между значениями одной входной независимой и одной выходной зависимой переменными с помощью линейной модели, например, прямой.

Более распространенной моделью является множественная линейная регрессия, которая предполагает установление линейной зависимости между множеством входных независимых и одной выходной зависимой переменных. Такая модель остается линейной по той причине, что выход является линейной комбинацией входных переменных. Мы можем построить модель множественной линейной регрессии следующим образом:

Y = a_1*X_1 + a_2*X_2 + a_3*X_3 ……. a_n*X_n + b

Где a_n — это коэффициенты, X_n — переменные и b — смещение. Как видим, данная функция не содержит нелинейных коэффициентов и, таким образом, подходит только для моделирования линейных сепарабельных данных.

Все очень просто: мы взвешиваем значение каждой переменной X_n с помощью весового коэффициента a_n. Данные весовые коэффициенты a_n, а также смещение b вычисляются с применением стохастического градиентного спуска.

Посмотрите на график ниже в качестве иллюстрации!

Иллюстрация поиска оптимальных параметром для линейной регрессии с помощью градиентного спуска

Несколько важных пунктов о линейной регрессии:

  • Она легко моделируется и является особенно полезной при создании не очень сложной зависимости, а также при небольшом количестве данных.
  • Обозначения интуитивно-понятны.
  • Чувствительна к выбросам.

Полиномиальная регрессия

Для создания такой модели, которая подойдет для нелинейно разделяемых данных, можно использовать полиномиальную регрессию. В данном методе проводится кривая линия, зависимая от точек плоскости. В полиномиальной регрессии степень некоторых независимых переменных превышает 1. Например, получится что-то подобное:

Y = a_1*X_1 + (a_2)²*X_2 + (a_3)⁴*X_3 ……. a_n*X_n + b

У некоторых переменных есть степень, у других — нет. Также можно выбрать определенную степень для каждой переменной, но для этого необходимы определенные знания о том, как входные данные связаны с выходными. Сравните линейную и полиномиальную регрессии ниже.

Линейная и полиномиальная регрессии с нелинейно разделенными данными

Несколько важных пунктов о полиномиальной регрессии:

  • Моделирует нелинейно разделенные данные (чего не может линейная регрессия). Она более гибкая и может моделировать сложные взаимосвязи.
  • Полный контроль над моделированием переменных объекта (выбор степени).
  • Необходимо внимательно создавать модель. Необходимо обладать некоторыми знаниями о данных, для выбора наиболее подходящей степени.
  • При неправильном выборе степени, данная модель может быть перенасыщена.

Гребневая (ридж) регрессия

В случае высокой коллинеарности переменных стандартная линейная и полиномиальная регрессии становятся неэффективными. Коллинеарность — это отношение независимых переменных, близкое к линейному. Наличие высокой коллинеарности можно определить несколькими путями:

  • Коэффициент регрессии не важен, несмотря на то, что, теоретически, переменная должна иметь высокую корреляцию с Y.
  • При добавлении или удалении переменной из матрицы X, коэффициент регрессии сильно изменяется.
  • Переменные матрицы X имеют высокие попарные корреляции (посмотрите корреляционную матрицу).

Сначала можно посмотреть на функцию оптимизации стандартной линейной регрессии для лучшего понимания того, как может помочь гребневая регрессия:

min || Xw — y ||²

Где X — это матрица переменных, w — веса, y — достоверные данные. Гребневая регрессия — это корректирующая мера для снижения коллинеарности среди предикторных переменных в регрессионной модели.

Коллинеарность — это явление, в котором одна переменная во множественной регрессионной модели может быть предсказано линейно, исходя из остальных свойств со значительной степенью точности.

Таким образом, из-за высокой корреляции переменных, конечная регрессионная модель сведена к минимальным пределам приближенного значения, то есть она обладает высокой дисперсией.

Гребневая регрессия добавляет небольшой фактор квадратичного смещения для уменьшения дисперсии:

min || Xw — y ||² + z|| w ||²

Такой фактор смещения выводит коэффициенты переменных из строгих ограничений, вводя в модель небольшое смещение, но при этом значительно снижая дисперсию.

Несколько важных пунктов о гребневой регрессии:

  • Допущения данной регрессии такие же, как и в методе наименьших квадратов, кроме того факта, что нормальное распределение в гребневой регрессии не предполагается.
  • Это уменьшает значение коэффициентов, оставляя их ненулевыми, что предполагает отсутствие отбора признаков.

Регрессия по методу «лассо»

В регрессии лассо, как и в гребневой, мы добавляем условие смещения в функцию оптимизации для того, чтобы уменьшить коллинеарность и, следовательно, дисперсию модели. Но вместо квадратичного смещения, мы используем смещение абсолютного значения:

min || Xw — y ||² + z|| w ||

Существует несколько различий между гребневой регрессией и лассо, которые восстанавливают различия в свойствах регуляризаций L2 и L1:

  • Встроенный отбор признаков — считается полезным свойством, которое есть в норме L1, но отсутствует в норме L2. Отбор признаков является результатом нормы L1, которая производит разреженные коэффициенты. Например, предположим, что модель имеет 100 коэффициентов, но лишь 10 из них имеют коэффициенты отличные от нуля. Соответственно, «остальные 90 предикторов являются бесполезными в прогнозировании искомого значения». Норма L2 производит неразряженные коэффициенты и не может производить отбор признаков. Таким образом, можно сказать, что регрессия лассо производит «выбор параметров», так как не выбранные переменные будут иметь общий вес, равный 0.
  • Разряженность означает, что незначительное количество входных данных в матрице (или векторе) имеют значение, отличное от нуля. Норма L1 производит большое количество коэффициентов с нулевым значением или очень малые значения с некоторыми большими коэффициентами. Это связано с предыдущим пунктом, в котором указано, что лассо исполняет выбор свойств.
  • Вычислительная эффективность: норма L1 не имеет аналитического решения в отличие от нормы L2. Это позволяет эффективно вычислять решения нормы L2. Однако, решения нормы L1 не обладают свойствами разряженности, что позволяет использовать их с разряженными алгоритмами для более эффективных вычислений.

Регрессия «эластичная сеть»

Эластичная сеть — это гибрид методов регрессии лассо и гребневой регрессии. Она использует как L1, так и L2 регуляризации, учитывая эффективность обоих методов.

min || Xw — y ||² + z_1|| w || + z_2|| w ||²

Практическим преимуществом использования регрессии лассо и гребневой регрессии является то, что это позволяет эластичной сети наследовать некоторую стабильность гребневой регрессии при вращении.

Несколько важных пунктов о регрессии эластичной сети:

  • Она создает условия для группового эффекта при высокой корреляции переменных, а не обнуляет некоторые из них, как метод лассо.
  • Нет ограничений по количеству выбранных переменных.

Линейная регрессия

Регрессия — это метод, используемый для моделирования и анализа отношений между переменными, а также для того, чтобы увидеть, как эти переменные вместе влияют на получение определенного результата.

Линейная регрессия относится к такому виду регрессионной модели, который состоит из взаимосвязанных переменных. Начнем с простого.

Парная (простая) линейная регрессия — это модель, позволяющая моделировать взаимосвязь между значениями одной входной независимой и одной выходной зависимой переменными с помощью линейной модели, например, прямой.

Более распространенной моделью является множественная линейная регрессия, которая предполагает установление линейной зависимости между множеством входных независимых и одной выходной зависимой переменных. Такая модель остается линейной по той причине, что выход является линейной комбинацией входных переменных. Мы можем построить модель множественной линейной регрессии следующим образом:

Y = a_1*X_1 + a_2*X_2 + a_3*X_3 ……. a_n*X_n + b

Где a_n — это коэффициенты, X_n — переменные и b — смещение. Как видим, данная функция не содержит нелинейных коэффициентов и, таким образом, подходит только для моделирования линейных сепарабельных данных.

Все очень просто: мы взвешиваем значение каждой переменной X_n с помощью весового коэффициента a_n. Данные весовые коэффициенты a_n, а также смещение b вычисляются с применением стохастического градиентного спуска.

Посмотрите на график ниже в качестве иллюстрации!

Несколько важных пунктов о линейной регрессии:

  • Она легко моделируется и является особенно полезной при создании не очень сложной зависимости, а также при небольшом количестве данных.
  • Обозначения интуитивно-понятны.
  • Чувствительна к выбросам.

Полиномиальная регрессия

Для создания такой модели, которая подойдет для нелинейно разделяемых данных, можно использовать полиномиальную регрессию. В данном методе проводится кривая линия, зависимая от точек плоскости. В полиномиальной регрессии степень некоторых независимых переменных превышает 1. Например, получится что-то подобное:

Y = a_1*X_1 + (a_2)²*X_2 + (a_3)⁴*X_3 ……. a_n*X_n + b

У некоторых переменных есть степень, у других — нет. Также можно выбрать определенную степень для каждой переменной, но для этого необходимы определенные знания о том, как входные данные связаны с выходными. Сравните линейную и полиномиальную регрессии ниже.

Несколько важных пунктов о полиномиальной регрессии:

  • Моделирует нелинейно разделенные данные (чего не может линейная регрессия). Она более гибкая и может моделировать сложные взаимосвязи.
  • Полный контроль над моделированием переменных объекта (выбор степени).
  • Необходимо внимательно создавать модель. Необходимо обладать некоторыми знаниями о данных, для выбора наиболее подходящей степени.
  • При неправильном выборе степени, данная модель может быть перенасыщена.

Гребневая (ридж) регрессия

В случае высокой коллинеарности переменных стандартная линейная и полиномиальная регрессии становятся неэффективными. Коллинеарность — это отношение независимых переменных, близкое к линейному. Наличие высокой коллинеарности можно определить несколькими путями:

  • Коэффициент регрессии не важен, несмотря на то, что, теоретически, переменная должна иметь высокую корреляцию с Y.
  • При добавлении или удалении переменной из матрицы X, коэффициент регрессии сильно изменяется.
  • Переменные матрицы X имеют высокие попарные корреляции (посмотрите корреляционную матрицу).

Сначала можно посмотреть на функцию оптимизации стандартной линейной регрессии для лучшего понимания того, как может помочь гребневая регрессия:

min || Xw — y ||²

Где X — это матрица переменных, w — веса, y — достоверные данные. Гребневая регрессия — это корректирующая мера для снижения коллинеарности среди предикторных переменных в регрессионной модели.

Коллинеарность — это явление, в котором одна переменная во множественной регрессионной модели может быть предсказано линейно, исходя из остальных свойств со значительной степенью точности.

Таким образом, из-за высокой корреляции переменных, конечная регрессионная модель сведена к минимальным пределам приближенного значения, то есть она обладает высокой дисперсией.

Гребневая регрессия добавляет небольшой фактор квадратичного смещения для уменьшения дисперсии:

min || Xw — y ||² + z|| w ||²

Такой фактор смещения выводит коэффициенты переменных из строгих ограничений, вводя в модель небольшое смещение, но при этом значительно снижая дисперсию.

Несколько важных пунктов о гребневой регрессии:

  • Допущения данной регрессии такие же, как и в методе наименьших квадратов, кроме того факта, что нормальное распределение в гребневой регрессии не предполагается.
  • Это уменьшает значение коэффициентов, оставляя их ненулевыми, что предполагает отсутствие отбора признаков.

Регрессия по методу «лассо»

В регрессии лассо, как и в гребневой, мы добавляем условие смещения в функцию оптимизации для того, чтобы уменьшить коллинеарность и, следовательно, дисперсию модели. Но вместо квадратичного смещения, мы используем смещение абсолютного значения:

min || Xw — y ||² + z|| w ||

Существует несколько различий между гребневой регрессией и лассо, которые восстанавливают различия в свойствах регуляризаций L2 и L1:

  • Встроенный отбор признаков — считается полезным свойством, которое есть в норме L1, но отсутствует в норме L2. Отбор признаков является результатом нормы L1, которая производит разреженные коэффициенты. Например, предположим, что модель имеет 100 коэффициентов, но лишь 10 из них имеют коэффициенты отличные от нуля. Соответственно, «остальные 90 предикторов являются бесполезными в прогнозировании искомого значения». Норма L2 производит неразряженные коэффициенты и не может производить отбор признаков. Таким образом, можно сказать, что регрессия лассо производит «выбор параметров», так как не выбранные переменные будут иметь общий вес, равный 0.
  • Разряженность означает, что незначительное количество входных данных в матрице (или векторе) имеют значение, отличное от нуля. Норма L1 производит большое количество коэффициентов с нулевым значением или очень малые значения с некоторыми большими коэффициентами. Это связано с предыдущим пунктом, в котором указано, что лассо исполняет выбор свойств.
  • Вычислительная эффективность: норма L1 не имеет аналитического решения в отличие от нормы L2. Это позволяет эффективно вычислять решения нормы L2. Однако, решения нормы L1 не обладают свойствами разряженности, что позволяет использовать их с разряженными алгоритмами для более эффективных вычислений.

Регрессия «эластичная сеть»

Эластичная сеть — это гибрид методов регрессии лассо и гребневой регрессии. Она использует как L1, так и L2 регуляризации, учитывая эффективность обоих методов.

min || Xw — y ||² + z_1|| w || + z_2|| w ||²

Практическим преимуществом использования регрессии лассо и гребневой регрессии является то, что это позволяет эластичной сети наследовать некоторую стабильность гребневой регрессии при вращении.

Несколько важных пунктов о регрессии эластичной сети:

  • Она создает условия для группового эффекта при высокой корреляции переменных, а не обнуляет некоторые из них, как метод лассо.
  • Нет ограничений по количеству выбранных переменных.

Вывод

Вот и все! 5 распространенных видов регрессии и их свойства. Все данные методы регуляризации регрессии (лассо, гребневая и эластичной сети) хорошо функционирует при высокой размерности и мультиколлинеарности среди переменных в наборе данных.

Читайте нас в телеграмме и

Перевод статьи George Seif5 Types of Regression and their properties

Источник: https://zen.yandex.ru/media/nuancesprog/5-vidov-regressii-i-ih-svoistva-5e31b6235561a65d78dee6c5

Вылечим любую болезнь
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: