Ковариационная матрица вектора оценок (3 видео)

Ковариационная матрица и ее выборочная оценка

Вариации оценок параметров будут в конечном счете определять точность уравнения множественной регрессии. Для их измерения в многомерном регрессионном анализе рассматривают так называемую ковариационную матрицу вектора оценок параметров У , являющуюся матричным аналогом дисперсии од-

где элементы а,, — ковариации (или корреляционные моменты) оценок параметров р, и р_;. Ковариация двух переменных определяется как математическое ожидание произведения отклонений этих переменных от их математических ожиданий (см. § 2.4). Поэтому

Ковариация характеризует как степень рассеяния значений двух переменных относительно их математических ожиданий, так и взаимосвязь этих переменных.

В силу того, что оценки bj, полученные методом наименьших квадратов, являются несмещенными оценками параметров р_у-, т. е. МЬЛ= р , выражение (4.13) примет вид:

Рассматривая ковариационную матрицу У , легко заме-

тить, что на ее главной диагонали находятся дисперсии оценок параметров регресии, ибо

В сокращенном виде ковариационная матрица вектора оценок параметров У имеет вид:

(в этом легко убедиться, перемножив векторы (б-(3) и (б-р)). Учитывая (4.12), преобразуем это выражение:

ибо элементы матрицы X — неслучайные величины.

Матрица Мгг’) представляет собой ковариационную матрицу вектора возмущений

в которой все элементы, не лежащие на главной диагонали, равны нулю в силу предпосылки 4 о некоррелированности возмущений 8, и вj между собой (см. (3.25)), а все элементы, лежащие на главной диагонали, в силу предпосылок 2 и 3 регрессионного анализа (см. (3.23) и (3.24)) равны одной и той же дисперсии а 2 :

где Е_п — единичная матрица /?-го порядка. Следовательно, в силу (4.15) ковариационная матрица вектора оценок параметров:

или

Итак, с помощью обратной матрицы определяется не

только сам вектор b оценок параметров (4.8), но и дисперсии и ковариации его компонент.

Содержание

Машинное обучение для факультета математики Записки лекций
5 Ещё о линейной регрессии
5.1 Напоминание: постановка задачи и метод наименьших квадратов
5.1.1 Геометрическая интерпретация
5.2 Несмещённость МНК-оценки
5.3 Дисперсии и ковариации МНК-оценки
5.3.1 Ковариационная матрица
5.3.2 Пример и геометрическая интерпретация
5.3.3 Ковариационная матрица и линейные операторы
5.3.4 Ковариационная матрица МНК-оценки
5.3.5 Теорема Гаусса — Маркова
5.3.6 Когда смещённая оценка лучше
Ковариационная и корреляционная матрицы случайного вектора
🔍 Видео

Видео:Ковариационная матрицаСкачать

Машинное обучение для факультета математики Записки лекций

Илья Щуров (НИУ ВШЭ)

Видео:Теория вероятностей #19: ковариация, корреляция, зависимость двух случайных величинСкачать

5 Ещё о линейной регрессии

Видео:Оценка ковариационной матрицыСкачать

5.1 Напоминание: постановка задачи и метод наименьших квадратов

Обозначим через X матрицу, в которой по строкам записаны векторы x i . Это матрица с n строками и d столбцами. Пусть y = ( y 1 , … , y n ) — вектор правильных ответов и ε = ( ε 1 , … , ε n ) — вектор ошибок. Уравнение (5.1) можно записать в матричной форме:

5.1.1 Геометрическая интерпретация

Эта интерпретация часто бывает полезна, но про некоторые вещи с её помощью невозможно думать: например, невозможно себе представить, что значит «найти предсказание для нового x (отличного от тех, что есть в обучающей выборке)».

Видео:Корреляция и ковариация двумерной случайной величиныСкачать

5.2 Несмещённость МНК-оценки

Вернёмся к доказательству утверждения. Имеем: E [ ^ w ] = E [ ( X T X ) − 1 X T y ] = E [ ( X T X ) − 1 X T ( X w + ε ) ] = = E [ ( X T X ) − 1 ( X T X ) w ] + E [ ( X T X ) − 1 X T ε ] = = E [ w ] + ( X T X ) − 1 X T E [ ε ] = E [ w ] . В предпоследнем переходе мы воспользовались леммой 2 , в последнем — предположением о том, что матожидание ε равно нулю. ∎

Видео:Теория вероятностей #25: Ковариация и корреляция / ковариационная матрицаСкачать

5.3 Дисперсии и ковариации МНК-оценки

5.3.1 Ковариационная матрица

Гм-гм, симметричная матрица? Наверняка она задаёт какую-нибудь симметричную билинейную или квадратичную форму! И правда.

5.3.2 Пример и геометрическая интерпретация

Для правой картинки матрица ковариации равна

Следствие 1 имеет следующую геометрическую интерпретацию. Зафиксируем какой-нибудь вектор u , имеющий единичную длину. Тогда u T V a r ( z ) u показывает, какова дисперсия скалярного произведения ⟨ u , z ⟩ . Для единичного вектора u указанное скалярное произведение — это длина проекции z на u . То есть мы измеряем разброс проекции случайного вектора на заданное направление. Например, на правой картинке колебания вдоль направления вектора ( √ 2 / 2 , √ 2 / 2 ) будет гораздо больше, чем вдоль направления вектора ( − √ 2 / 2 , √ 2 / 2 ) . На левой картинке колебания в любом направлении одинаковы.

5.3.3 Ковариационная матрица и линейные операторы

5.3.4 Ковариационная матрица МНК-оценки

5.3.5 Теорема Гаусса — Маркова

Иными словами, теорема Гаусса — Маркова говорит, что дисперсия (разброс) любого предсказания для любой линейной несмещённой оценки w будет не меньше, чем дисперсия того же предсказания для МНК-оценки.

Заключение теоремы можно также переформулировать таким образом: матрица

Доказывать эту теорему мы сейчас не будем.

5.3.6 Когда смещённая оценка лучше

Теорема Гаусса — Маркова рассматривает только довольно узкий класс альтернатив — исключительно линейные несмещённые оценки, и показывает, что МНК-оценка оптимальна именно в этом классе. Но это не означает, что она оптимальна с практической точки зрения.

Напомним (второй раз за сегодня), что ожидаемая ошибка на новом наблюдении (то, что мы хотим сделать как можно менше) складывается из шума, смещения и разброса. Мы показали, что МНК-оценка имеет нулевое смещение и минимальный разброс среди оценок с нулевым смещением. Однако, может быть, есть оценка с ненулевым смещением, которая имеет существенно более низкий разброс, и таким образом по сумме выигрывает у МНК-оценки? Оказывается, что так как раз часто и бывает (более того, почти всегда).

Давайте покажем, как это возможно, на простом примере.

Пусть также истинный вектор весов w = ( 1 , 1 ) , то есть истинная зависимость имеет вид:

Как мы видим, если σ 2 очень большое, разброс предсказаний МНК-модели может быть также очень большим.

Давайте вместе с МНК-оценкой для исходной модели рассмотрим также МНК-оцеки для упрощённых моделей, которые игнорируют один из или оба признака. Иными словами, мы рассматриваем четыре модели.

Наша исходная модель.
Модель построена по матрице X , из которой убрали первый столбец и оставили только второй, зависимость предсказания от первого признака в модели отсутствует. Иными словами, в формуле

Давайте посчитаем ожидаемую ошибку для всех четырёх моделей. Для этого нужно найти смещение и разброс для каждой модели.

У исходной (первой) модели нулевой смещение предсказаний, а разброс в каждой из четырёх точек равен σ 2 2 . Общий разброс равен 2 σ 2 .

У второй модели в точках ( 0 , ± 1 ) смещение остаётся нулевым, а в точках ( ± 10 , 0 ) модель предсказывает значение 0 (поскольку мы обнулили ^ w 1 ), в то время как правильное значение равно ± 10 . Значит, смещение (вернее, его квадрат, именно он входит в формулу для ожидаемой ошибки) в каждой из этих точек равно ( 0 ∓ 10 ) 2 = 100 , общее смещение модели 200 . Разброс в точках ( 0 , ± 1 ) остаётся равен σ 2 2 , а в точках ( ± 10 , 0 ) разброс равен нулю, поскольку в этих точках модель предсказывает постоянное число (0). Общий разброс равен σ 2 .

У третьей модели всё наоборот — в точках ( 0 , ± 1 ) смещение равно по 1 (там истинное значение равно 1, а предсказание будет 0), общее смещение равно 2. Общий разброс, как и второй модели, оказывается равен σ 2 .

Наконец, у четвертой модели смещение равно 202 , а разброс нулевой.

Сведём наши результаты в табличку.

Итак, на нашем примере мы видим, что бывают ситуации, когда лучше выбрать смещённую модель, которая даёт меньший разброс предсказаний, чем несмещённую модель. Это ещё один пример так называемого bias-variance tradeoff.

Заметим, что в данном случае оптимальной могла стать третья модель, но никак не вторая: её ожидаемая ошибка при любом σ 2 больше ожидаемой ошибки третьей. Это можно интерпретир��вать так. В нашей истинной зависимости коэффициенты при обоих признаках были равны между собой. В то же время дисперсии самих признаков существенно различались — дисперсия первого признака была гораздо больше дисперсии второго. При равных дисперсиях шумов в каждой точке, это привело к тому, что дисперсия второй компоненты вектора признаков оказалась гораздо выше дисперсии первой. Поэтому именно ей нам пришлось «пожертвовать», чтобы уменьшить разброс предсказаний. На этой идее основан один из методов отбора признаков — удаление незначимых признаков, то есть таких, у которых слишком большое значение разброса по сравнению со значением самого признака.

Если предполагать, что веса в истинной зависимости примерно одинаковые и остальные предположения выполняются, большую дисперсию будут иметь веса, соответствующие признакам, которые сами имеют маленькую дисперсию (как второй признак в нашем примере). Это ещё один механизм отбора признаков.

На семинаре мы также обсудим регуляризацию — ещё один механизм уменьшения разброса в предсказаниях, который автоматически уменьшает веса, соответствующие признакам с маленькой дисперсией.

Заметим также, что проблемы, связанные со слишком большим разбросом предсказаний могут возникать не только в том случае, когда какой-то из признаков имеет маленькую дисперсию, но и когда какие-то признаки слишком сильно скоррелированы друг с другом. Механизмы, которые здесь работают, полностью аналогичны разобранным в нашем примере. Регуляризация позволяет справиться и с этой проблемой тоже.

Видео:Матрицы и векторыСкачать

Ковариационная и корреляционная матрицы случайного вектора

В случае многомерной случайной величины (случайного вектора) характеристикой разброса ее составляющих и связей между ними является ковариационная матрица.

Ковариационная матрица определяется как математическое ожидание произведения центрированного случайного вектора на тот же, но транспонированный вектор:

где

Ковариационная матрица имеет вид

где по диагонали стоят дисперсии координат случайного вектора o_n=D_Xi, o₂₂=D_X2, о_кк = D_Xk, а остальные элементы представляют собой ковариации между координатами

Ковариационная матрица является симметрической матрицей, т.е.

Для примера рассмотрим ковариационную матрицу двумерного вектора

Аналогично получается ковариационная матрица для любого /^-мерного вектора.

Дисперсии координат можно представить в виде

где Gi,C2. 0? — средние квадратичные отклонения координат случайного вектора.

Коэффициентом корреляции называется, как известно, отношение ковариации к произведению средних квадратичных отклонений:

После нормирования по последнему соотношению членов ковариационной матрицы получают корреляционную матрицу

которая является симметрической и неотрицательно определенной.

Многомерным аналогом дисперсии случайной величины является обобщенная дисперсия, под которой понимается величина определителя ковариационной матрицы

Другой общей характеристикой степени разброса многомерной случайной величины является след ковариационной матрицы

где т — вектор-столбец математических ожиданий;

|Х| — определитель ковариационной матрицы X;

? -1 — обратная ковариационная матрица.

Матрица X -1 , обратная к матрице X размерности пх п, может быть получена различными способами. Одним из них является метод Жордана—Гаусса. В этом случае составляется матричное уравнение

где х — вектор-столбец переменных, число которых равно я; b — я-мерный вектор-столбец правых частей.

Умножим слева уравнение (6.21) на обратную матрицу ХГ 1 :

Так как произведение обратной матрицы на данную дает единичную матрицу Е, то

Если вместо b взять единичный вектор

то произведение X -1 -е_х дает первый столбец обратной матрицы. Если же взять второй единичный вектор

то произведение Е 1 е₂ дает первый столбец обратной матрицы и т.д. Таким образом, последовательно решая уравнения

методом Жордана—Гаусса, получаем все столбцы обратной матрицы.

Другой метод получения матрицы, обратной к матрице Е, связан с вычислением алгебраических дополнений A_tJ.= (/= 1, 2. п; j = 1, 2, . п) к элементам данной матрицы Е, подстановкой их вместо элементов матрицы Е и транспортированием такой матрицы:

Обратная матрица получается после деления элементов В на определитель матрицы Е:

Важной особенностью получения обратной матрицы в данном случае является то, что ковариационная матрица Е является слабо обусловленной. Это приводит к тому, что при обращении таких матриц могут возникать достаточно серьезные ошибки. Все это требует обеспечения необходимой точности вычислительного процесса или использования специальных методов при вычислении таких матриц.

Пример. Написать выражение плотности вероятности для нормально распределенной двумерной случайной величины <X_v Х₂)

при условии, что математические ожидания, дисперсии и ковариации этих величин имеют следующие значения: