Домой Дизайн Решения задач: линейная регрессия и коэффициент корреляции.

Решения задач: линейная регрессия и коэффициент корреляции.

Как уже было сказано выше, в случае линейной зависимости уравнение регрессии является уравнением прямой линии.

Различают

У = а у/х + b у/х Х

Х = а х/у + b х/у Y

Здесь а и b – коэффициенты, или параметры, которые определяются по формулам. Значение коэффициента b вычисляется

Из формул видно, что коэффициенты регрессии b у/х и b х/у имеют тот же знак, что и коэффициент корреляции, размерность, равную отношению размерностей изучаемых показателей Х и У , и связаны соотношением:

Для вычисления коэффициента а достаточно подставить в уравнения регрессии средние значения коррелируемых переменных



График теоретических линий регрессии (рис. 17) имеет вид:

Рис 17. Теоретические линии регрессии

Из приведённых выше формул легко доказать, что угловые коэффициенты прямых регрессии равны соответственно


Так как
, то
. Это означает, что прямая регрессииY на Х имеет меньший наклон к оси абсцисс, чем прямая регрессии Х на Y .

Чем ближе к единице, тем меньше угол между прямыми регрессии. Эти прямые сливаются только тогда, когда
.

При
прямые регрессии описываются уравнениями
,
.

Таким образом, уравнения регрессии позволяют:

    определить, насколько изменяется одна величина относительно другой;

    прогнозировать результаты.

2. Методика выполнения расчётно-графической работы №2

Расчётно-графическая работа содержит 4 раздела.

В первом разделе:

    Формулируется тема;

    Формулируется цель работы.

Во втором разделе:

    Формулируется условие задачи;

    Заполняется таблица исходных данных выборки.

В третьем разделе:

    Результаты измерений представляются в виде вариационного ряда;

    Даётся графическое представление вариационного ряда.

    Формулируется вывод.

В четвёртом разделе:

    Рассчитываются основные статистические характеристики ряда измерений;

    По итогам расчётов формулируется вывод.

Оформление работы:

    Работа выполняется в отдельной тетради или на форматных листах.

    Титульный лист заполняется по образцу.

Российский Государственный Университет

физической культуры, спорта, молодёжи и туризма

Кафедра естественнонаучных дисциплин

Корреляционный и регрессионный анализы

Расчётно-графическая работа №2

по курсу математики

Выполнил: студент 1 к. 1 пот. 1гр.

Иванов С.М.

Преподаватель:

доц. кафедры ЕНД и ИТ

Москва – 2012

(Пример оформления титульного листа)

Пример выполнения расчётно-графической работы №2.

Тема работы: Корреляционный и регрессионный анализы.

Цель работы: Определить взаимосвязь показателей двух выборок.

Ход выполнения работы:

    Придумать две выборки из своего вида спорта с одинаковым объемом n.

    Нарисовать корреляционное поле, сделать предварительный вывод.

    Определить достоверность коэффициента корреляции и сделать окончательный вывод.

    Построить теоретические линии регрессии на корреляционном поле и показать точку их пересечения.

1. Условие задачи: У группы спортсменов определяли результаты в беге на 100 м с барьерами X i (с) и прыжках в длину Y i (м) (табл.). Проверить, существует ли корреляционная связь между исследуемыми признаками и определить достоверность коэффициента корреляции.

Таблица исходных данных выборки: Результаты приведены в таблице исходных данных.

Таблица 6

Результаты бега и прыжка

п/п

X i , с

Y i , м

п/п

X i , с

Y i , м

Решение:

2 . Построим корреляционное поле (диаграмму рассеяния) и сделаем предварительный вывод относительно связи между исследуемыми признаками.

Рис 18. Корреляционное поле

Предварительный вывод:

Связь между показателями результатов в беге на 100 м с барьерами X i (с) и прыжками в длину Y i (см):

    линейная;

    отрицательная;

3 . Рассчитаем парный линейный коэффициент корреляции Бравэ – Пирсона, предварительно рассчитав основные статистические показатели двух выборок. Для их расчёта составим таблицу, в которой предпоследний и последний столбцы необходимы для расчёта стандартных отклонений, если они неизвестны. Для нашего примера эти значения рассчитаны в первой расчётно-графической работе, но для наглядности покажем расчёт дополнительно.

Таблица 7

Вспомогательная таблица для расчета коэффициента

корреляции Бравэ – Пирсона

X i , с

Y i , см

13,59

x =
,

y =
,

.

Полученное значение коэффициента корреляции позволяет подтвердить предварительный вывод и сделать окончательное заключение – связь между исследуемыми признаками:

    линейная;

    отрицательная;

4 . Определим достоверность коэффициента корреляции.

Предположим, что связь между результатом в беге на 100 м и прыжком в длину отсутствует (Н о : r = 0).

Вывод: существует сильная, отрицательная статистически достоверная (р =0,95) связь между бегом с препятствиями на дистанцию 100 м и прыжком в длину. Это означает, что с улучшением результата в прыжке в длину уменьшается время пробега дистанции 100 м.

5 . Вычислим коэффициент детерминации:

Следовательно, только 96% взаимосвязи результатов в беге на 100 м с барьерами и в прыжке в длину объясняется их взаимовлиянием, а остальная часть, т. е. 4% объясняется влиянием других неучтённых факторов.

6. Рассчитаем коэффициенты прямого и обратного уравнений регрессии, воспользовавшись формулами, подставим значения рассчитанных коэффициентов в соответствующую формулу и запишем прямое и обратное уравнения регрессии:

Y = а 1 + b 1 Х - прямое уравнение регрессии;

Х = а 2 + b 2 Y - обратное уравнение регрессии.

Воспользуемся результатами расчёта, приведёнными выше:

x =
; y =
;
;
13,59;
6,4,

Рассчитаем коэффициент b 1 , воспользовавшись формулой:

Для расчета коэффициента а 1 b 1 Х и Y

а 1 и b 1

Y = 22 - 1,15Х

Рассчитаем коэффициент b 2 , воспользовавшись формулой:

Для расчета коэффициента а 2 подставим в прямое уравнение регрессии вместо b 2 рассчитанное значение, а вместо Х и Y средние арифметические значения двух выборок из таблицы:

Подставим полученные значения коэффициентов а 1 и b 1 в прямое уравнение регрессии и запишем уравнение прямой линии:

Х = 18,92 - 0,83Y

Таким образом, мы получили прямое и обратное уравнения регрессии:

Y = 22 - 1,15Х - прямое уравнение регрессии;

Х = 18,92 - 0,83Y - обратное уравнение регрессии.

Для проверки правильности расчётов достаточно подставить в прямое уравнение среднее значение и определить значениеY . Полученное значение Y должно быть близким или равным среднему значению .

Y = 22 - 1,15 = 22 - 1,1513,59 = 6,4 =.

При подстановке в обратное уравнение регрессии среднего значения , полученное значение Х должно быть близким или равным среднему значению .

Х = 18,92 - 0,83= 18,92 - 0,83 6,4 = 13,6 = .

7. Построим линии регрессии на корреляционном поле.

Для графического построения теоретических линий регрессии, как и для построения любой прямой, необходимо иметь две точки из диапазона значений Х и Y .

Причём, в прямом уравнении регрессии независимая переменная Х , а зависимая Y , а в обратном – независимая переменная Y , а зависимая Х.

Y = 22 - 1,15Х

X

Y

Х = 18,92 - 0,83Y

Y

X

Координатами точки пересечения линий прямого и обратного уравнений регрессии являются значения средних арифметических двух выборок (с учётом погрешностей округлений при приближённых расчётах).

Вывод: зная результат бега с препятствиями на дистанцию 100 м, по прямому уравнению регрессии, можно теоретически определить результат прыжка в длину; и наоборот, зная результат прыжка в длину по обратному уравнению регрессии, можно определить результат бега с препятствиями.

Назначение сервиса . С помощью сервиса в онлайн режиме можно найти:
  • параметры уравнения линейной регрессии y=a+bx , линейный коэффициент корреляции с проверкой его значимости;
  • тесноту связи с помощью показателей корреляции и детерминации, МНК-оценку, статическую надежность регрессионного моделирования с помощью F-критерия Фишера и с помощью t-критерия Стьюдента , доверительный интервал прогноза для уровня значимости α

Уравнение парной регрессии относится к уравнению регрессии первого порядка . Если эконометрическая модель содержит только одну объясняющую переменную, то она имеет название парной регрессии. Уравнение регрессии второго порядка и уравнение регрессии третьего порядка относятся к нелинейным уравнениям регрессии .

Пример . Осуществите выбор зависимой (объясняемой) и объясняющей переменной для построения парной регрессионной модели. Дайте . Определите теоретическое уравнение парной регрессии. Оцените адекватность построенной модели (интерпретируйте R-квадрат, показатели t-статистики, F-статистики).
Решение будем проводить на основе процесса эконометрического моделирования .
1-й этап (постановочный) – определение конечных целей моделирования, набора участвующих в модели факторов и показателей, их роли.
Спецификация модели - определение цели исследования и выбор экономических переменных модели.
Ситуационная (практическая) задача. По 10 предприятиям региона изучается зависимость выработки продукции на одного работника y (тыс. руб.) от удельного веса рабочих высокой квалификации в общей численности рабочих x (в %).
2-й этап (априорный) – предмодельный анализ экономической сущности изучаемого явления, формирование и формализация априорной информации и исходных допущений, в частности относящейся к природе и генезису исходных статистических данных и случайных остаточных составляющих в виде ряда гипотез.
Уже на этом этапе можно говорить о явной зависимости уровня квалификации рабочего и его выработкой, ведь чем опытней работник, тем выше его производительность. Но как эту зависимость оценить?
Парная регрессия представляет собой регрессию между двумя переменными – y и x , т. е. модель вида:

Где y – зависимая переменная (результативный признак); x – независимая, или объясняющая, переменная (признак-фактор). Знак «^» означает, что между переменными x и y нет строгой функциональной зависимости, поэтому практически в каждом отдельном случае величина y складывается из двух слагаемых:

Где y – фактическое значение результативного признака; y x – теоретическое значение результативного признака, найденное исходя из уравнения регрессии; ε – случайная величина, характеризующая отклонения реального значения результативного признака от теоретического, найденного по уравнению регрессии.
Графически покажем регрессионную зависимость между выработкой продукции на одного работника и удельного веса рабочих высокой квалификации.


3-й этап (параметризация) – собственно моделирование, т.е. выбор общего вида модели, в том числе состава и формы входящих в неё связей между переменными. Выбор вида функциональной зависимости в уравнении регрессии называется параметризацией модели. Выбираем уравнение парной регрессии , т.е. на конечный результат y будет влиять только один фактор.
4-й этап (информационный) – сбор необходимой статистической информации, т.е. регистрация значений участвующих в модели факторов и показателей. Выборка состоит из 10 предприятий отрасли.
5-й этап (идентификация модели) – оценивание неизвестных параметров модели по имеющимся статистическим данным.
Чтобы определить параметры модели, используем МНК - метод наименьших квадратов . Система нормальных уравнений будет выглядеть следующим образом:
a n + b∑x = ∑y
a∑x + b∑x 2 = ∑y x
Для расчета параметров регрессии построим расчетную таблицу (табл. 1).
x y x 2 y 2 x y
10 6 100 36 60
12 6 144 36 72
15 7 225 49 105
17 7 289 49 119
18 7 324 49 126
19 8 361 64 152
19 8 361 64 152
20 9 400 81 180
20 9 400 81 180
21 10 441 100 210
171 77 3045 609 1356

Данные берем из таблицы 1 (последняя строка), в итоге имеем:
10a + 171 b = 77
171 a + 3045 b = 1356
Эту СЛАУ решаем методом Крамера или методом обратной матрицы .
Получаем эмпирические коэффициенты регрессии: b = 0.3251, a = 2.1414
Эмпирическое уравнение регрессии имеет вид:
y = 0.3251 x + 2.1414
6-й этап (верификация модели) – сопоставление реальных и модельных данных, проверка адекватности модели, оценка точности модельных данных.
Анализ проводим с помощью

Линия регрессии является графическим отражением взаимосвязи между явлениями. Очень наглядно можно построить линию регрессии в программе Excel.

Для этого необходимо:

1.Открыть программу Excel

2.Создать столбцы с данными. В нашем примере мы будем строить линию регрессии, или взаимосвязи, между агрессивностью и неуверенностью в себе у детей-первоклассников. В эксперименте участвовали 30 детей, данные представлены в таблице эксель:

1 столбик — № испытуемого

2 столбик — агрессивность в баллах

3 столбик — неуверенность в себе в баллах

3.Затем необходимо выделить оба столбика (без названия столбика), нажать вкладку вставка , выбрать точечная , а из предложенных макетов выбрать самый первый точечная с маркерами .

4.Итак у нас получилась заготовка для линии регрессии — так называемая — диаграмма рассеяния . Для перехода к линии регрессии нужно щёлкнуть на получившийся рисунок, нажать вкладку конструктор, найти на панели макеты диаграмм и выбрать Ма кет9 , на нем ещё написано f(x)

5.Итак, у нас получилась линия регрессии. На графике также указано её уравнение и квадрат коэффициента корреляции

6.Осталось добавить название графика, название осей. Также по желанию можно убрать легенду, уменьшить количество горизонтальных линий сетки (вкладка макет , затем сетка ). Основные изменения и настройки производятся во вкладке Макет

Линия регрессии построена в MS Excel. Теперь её можно добавить в текст работы.

Использование графического метода .
Этот метод применяют для наглядного изображения формы связи между изучаемыми экономическими показателями. Для этого в прямоугольной системе координат строят график, по оси ординат откладывают индивидуальные значения результативного признака Y, а по оси абсцисс - индивидуальные значения факторного признака X.
Совокупность точек результативного и факторного признаков называется полем корреляции .
На основании поля корреляции можно выдвинуть гипотезу (для генеральной совокупности) о том, что связь между всеми возможными значениями X и Y носит линейный характер.

Линейное уравнение регрессии имеет вид y = bx + a + ε
Здесь ε - случайная ошибка (отклонение, возмущение).
Причины существования случайной ошибки:
1. Невключение в регрессионную модель значимых объясняющих переменных;
2. Агрегирование переменных. Например, функция суммарного потребления – это попытка общего выражения совокупности решений отдельных индивидов о расходах. Это лишь аппроксимация отдельных соотношений, которые имеют разные параметры.
3. Неправильное описание структуры модели;
4. Неправильная функциональная спецификация;
5. Ошибки измерения.
Так как отклонения ε i для каждого конкретного наблюдения i – случайны и их значения в выборке неизвестны, то:
1) по наблюдениям x i и y i можно получить только оценки параметров α и β
2) Оценками параметров α и β регрессионной модели являются соответственно величины а и b, которые носят случайный характер, т.к. соответствуют случайной выборке;
Тогда оценочное уравнение регрессии (построенное по выборочным данным) будет иметь вид y = bx + a + ε, где e i – наблюдаемые значения (оценки) ошибок ε i , а и b соответственно оценки параметров α и β регрессионной модели, которые следует найти.
Для оценки параметров α и β - используют МНК (метод наименьших квадратов).
Система нормальных уравнений.

Для наших данных система уравнений имеет вид:

10a + 356b = 49
356a + 2135b = 9485

Из первого уравнения выражаем а и подставим во второе уравнение
Получаем b = 68.16, a = 11.17

Уравнение регрессии :
y = 68.16 x - 11.17

1. Параметры уравнения регрессии.
Выборочные средние.



Выборочные дисперсии.


Среднеквадратическое отклонение

1.1. Коэффициент корреляции
Рассчитываем показатель тесноты связи. Таким показателем является выборочный линейный коэффициент корреляции, который рассчитывается по формуле:

Линейный коэффициент корреляции принимает значения от –1 до +1.
Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока :
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
В нашем примере связь между признаком Y фактором X весьма высокая и прямая.

1.2. Уравнение регрессии (оценка уравнения регрессии).

Линейное уравнение регрессии имеет вид y = 68.16 x -11.17
Коэффициентам уравнения линейной регрессии можно придать экономический смысл. Коэффициент уравнения регрессии показывает, на сколько ед. изменится результат при изменении фактора на 1 ед.
Коэффициент b = 68.16 показывает среднее изменение результативного показателя (в единицах измерения у) с повышением или понижением величины фактора х на единицу его измерения. В данном примере с увеличением на 1 единицу y повышается в среднем на 68.16.
Коэффициент a = -11.17 формально показывает прогнозируемый уровень у, но только в том случае, если х=0 находится близко с выборочными значениями.
Но если х=0 находится далеко от выборочных значений x , то буквальная интерпретация может привести к неверным результатам, и даже если линия регрессии довольно точно описывает значения наблюдаемой выборки, нет гарантий, что также будет при экстраполяции влево или вправо.
Подставив в уравнение регрессии соответствующие значения x , можно определить выровненные (предсказанные) значения результативного показателя y(x) для каждого наблюдения.
Связь между у и x определяет знак коэффициента регрессии b (если > 0 – прямая связь, иначе - обратная). В нашем примере связь прямая.

1.3. Коэффициент эластичности.
Коэффициенты регрессии (в примере b) нежелательно использовать для непосредственной оценки влияния факторов на результативный признак в том случае, если существует различие единиц измерения результативного показателя у и факторного признака х.
Для этих целей вычисляются коэффициенты эластичности и бета - коэффициенты. Коэффициент эластичности находится по формуле:


Он показывает, на сколько процентов в среднем изменяется результативный признак у при изменении факторного признака х на 1%. Он не учитывает степень колеблемости факторов.
В нашем примере коэффициент эластичности больше 1. Следовательно, при изменении Х на 1%, Y изменится более чем на 1%. Другими словами - Х существенно влияет на Y.
Бета – коэффициент показывает, на какую часть величины своего среднего квадратичного отклонения изменится в среднем значение результативного признака при изменении факторного признака на величину его среднеквадратического отклонения при фиксированном на постоянном уровне значении остальных независимых переменных:

Т.е. увеличение x на величину среднеквадратического отклонения этого показателя приведет к увеличению среднего Y на 0.9796 среднеквадратичного отклонения этого показателя.

1.4. Ошибка аппроксимации.
Оценим качество уравнения регрессии с помощью ошибки абсолютной аппроксимации.


Поскольку ошибка больше 15%, то данное уравнение не желательно использовать в качестве регрессии.

1.6. Коэффициент детерминации.
Квадрат (множественного) коэффициента корреляции называется коэффициентом детерминации, который показывает долю вариации результативного признака, объясненную вариацией факторного признака.
Чаще всего, давая интерпретацию коэффициента детерминации, его выражают в процентах.
R 2 = 0.98 2 = 0.9596
т.е. в 95.96 % случаев изменения x приводят к изменению у. Другими словами - точность подбора уравнения регрессии - высокая. Остальные 4.04 % изменения Y объясняются факторами, не учтенными в модели.

x y x 2 y 2 x y y(x) (y i -y cp) 2 (y-y(x)) 2 (x i -x cp) 2 |y - y x |:y
0.371 15.6 0.1376 243.36 5.79 14.11 780.89 2.21 0.1864 0.0953
0.399 19.9 0.1592 396.01 7.94 16.02 559.06 15.04 0.163 0.1949
0.502 22.7 0.252 515.29 11.4 23.04 434.49 0.1176 0.0905 0.0151
0.572 34.2 0.3272 1169.64 19.56 27.81 87.32 40.78 0.0533 0.1867
0.607 44.5 .3684 1980.25 27.01 30.2 0.9131 204.49 0.0383 0.3214
0.655 26.8 0.429 718.24 17.55 33.47 280.38 44.51 0.0218 0.2489
0.763 35.7 0.5822 1274.49 27.24 40.83 61.54 26.35 0.0016 0.1438
0.873 30.6 0.7621 936.36 26.71 48.33 167.56 314.39 0.0049 0.5794
2.48 161.9 6.17 26211.61 402 158.07 14008.04 14.66 2.82 0.0236
7.23 391.9 9.18 33445.25 545.2 391.9 16380.18 662.54 3.38 1.81

2. Оценка параметров уравнения регрессии.
2.1. Значимость коэффициента корреляции.

По таблице Стьюдента с уровнем значимости α=0.05 и степенями свободы k=7 находим t крит:
t крит = (7;0.05) = 1.895
где m = 1 - количество объясняющих переменных.
Если t набл > t критич, то полученное значение коэффициента корреляции признается значимым (нулевая гипотеза, утверждающая равенство нулю коэффициента корреляции, отвергается).
Поскольку t набл > t крит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - значим
В парной линейной регрессии t 2 r = t 2 b и тогда проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о существенности линейного уравнения регрессии.

2.3. Анализ точности определения оценок коэффициентов регрессии.
Несмещенной оценкой дисперсии возмущений является величина:


S 2 y = 94.6484 - необъясненная дисперсия (мера разброса зависимой переменной вокруг линии регрессии).
S y = 9.7287 - стандартная ошибка оценки (стандартная ошибка регрессии).
S a - стандартное отклонение случайной величины a.


S b - стандартное отклонение случайной величины b.

2.4. Доверительные интервалы для зависимой переменной.
Экономическое прогнозирование на основе построенной модели предполагает, что сохраняются ранее существовавшие взаимосвязи переменных и на период упреждения.
Для прогнозирования зависимой переменной результативного признака необходимо знать прогнозные значения всех входящих в модель факторов.
Прогнозные значения факторов подставляют в модель и получают точечные прогнозные оценки изучаемого показателя. (a + bx p ± ε)
где

Рассчитаем границы интервала, в котором будет сосредоточено 95% возможных значений Y при неограниченно большом числе наблюдений и X p = 1 (-11.17 + 68.16*1 ± 6.4554)
(50.53;63.44)

Индивидуальные доверительные интервалы для Y при данном значении X .
(a + bx i ± ε)
где

x i y = -11.17 + 68.16x i ε i y min y max
0.371 14.11 19.91 -5.8 34.02
0.399 16.02 19.85 -3.83 35.87
0.502 23.04 19.67 3.38 42.71
0.572 27.81 19.57 8.24 47.38
0.607 30.2 19.53 10.67 49.73
0.655 33.47 19.49 13.98 52.96
0.763 40.83 19.44 21.4 60.27
0.873 48.33 19.45 28.88 67.78
2.48 158.07 25.72 132.36 183.79

С вероятностью 95% можно гарантировать, что значения Y при неограниченно большом числе наблюдений не выйдет за пределы найденных интервалов.

2.5. Проверка гипотез относительно коэффициентов линейного уравнения регрессии.
1) t-статистика. Критерий Стьюдента.
Проверим гипотезу H 0 о равенстве отдельных коэффициентов регрессии нулю (при альтернативе H 1 не равно) на уровне значимости α=0.05.
t крит = (7;0.05) = 1.895


Поскольку 12.8866 > 1.895, то статистическая значимость коэффициента регрессии b подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента).


Поскольку 2.0914 > 1.895, то статистическая значимость коэффициента регрессии a подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента).

Доверительный интервал для коэффициентов уравнения регрессии.
Определим доверительные интервалы коэффициентов регрессии, которые с надежность 95% будут следующими:
(b - t крит S b ; b + t крит S b)
(68.1618 - 1.895 5.2894; 68.1618 + 1.895 5.2894)
(58.1385;78.1852)
С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале.
(a - t a)
(-11.1744 - 1.895 5.3429; -11.1744 + 1.895 5.3429)
(-21.2992;-1.0496)
С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале.

2) F-статистики. Критерий Фишера.
Проверка значимости модели регрессии проводится с использованием F-критерия Фишера, расчетное значение которого находится как отношение дисперсии исходного ряда наблюдений изучаемого показателя и несмещенной оценки дисперсии остаточной последовательности для данной модели.
Если расчетное значение с lang=EN-US>n-m-1) степенями свободы больше табличного при заданном уровне значимости, то модель считается значимой.

где m – число факторов в модели.
Оценка статистической значимости парной линейной регрессии производится по следующему алгоритму:
1. Выдвигается нулевая гипотеза о том, что уравнение в целом статистически незначимо: H 0: R 2 =0 на уровне значимости α.
2. Далее определяют фактическое значение F-критерия:


где m=1 для парной регрессии.
3. Табличное значение определяется по таблицам распределения Фишера для заданного уровня значимости, принимая во внимание, что число степеней свободы для общей суммы квадратов (большей дисперсии) равно 1 и число степеней свободы остаточной суммы квадратов (меньшей дисперсии) при линейной регрессии равно n-2.
4. Если фактическое значение F-критерия меньше табличного, то говорят, что нет основания отклонять нулевую гипотезу.
В противном случае, нулевая гипотеза отклоняется и с вероятностью (1-α) принимается альтернативная гипотеза о статистической значимости уравнения в целом.
Табличное значение критерия со степенями свободы k1=1 и k2=7, Fkp = 5.59
Поскольку фактическое значение F > Fkp, то коэффициент детерминации статистически значим (Найденная оценка уравнения регрессии статистически надежна).

Проверка на наличие автокорреляции остатков .
Важной предпосылкой построения качественной регрессионной модели по МНК является независимость значений случайных отклонений от значений отклонений во всех других наблюдениях. Это гарантирует отсутствие коррелированности между любыми отклонениями и, в частности, между соседними отклонениями.
Автокорреляция (последовательная корреляция) определяется как корреляция между наблюдаемыми показателями, упорядоченными во времени (временные ряды) или в пространстве (перекрестные ряды). Автокорреляция остатков (отклонений) обычно встречается в регрессионном анализе при использовании данных временных рядов и очень редко при использовании перекрестных данных.
В экономических задачах значительно чаще встречается положительная автокорреляция , нежели отрицательная автокорреляция . В большинстве случаев положительная автокорреляция вызывается направленным постоянным воздействием некоторых неучтенных в модели факторов.
Отрицательная автокорреляция фактически означает, что за положительным отклонением следует отрицательное и наоборот. Такая ситуация может иметь место, если ту же зависимость между спросом на прохладительные напитки и доходами рассматривать по сезонным данным (зима-лето).
Среди основных причин, вызывающих автокорреляцию , можно выделить следующие:
1. Ошибки спецификации. Неучет в модели какой-либо важной объясняющей переменной либо неправильный выбор формы зависимости обычно приводят к системным отклонениям точек наблюдения от линии регрессии, что может обусловить автокорреляцию.
2. Инерция. Многие экономические показатели (инфляция, безработица, ВНП и т.д.) обладают определенной цикличностью, связанной с волнообразностью деловой активности. Поэтому изменение показателей происходит не мгновенно, а обладает определенной инертностью.
3. Эффект паутины. Во многих производственных и других сферах экономические показатели реагируют на изменение экономических условий с запаздыванием (временным лагом).
4. Сглаживание данных. Зачастую данные по некоторому продолжительному временному периоду получают усреднением данных по составляющим его интервалам. Это может привести к определенному сглаживанию колебаний, которые имелись внутри рассматриваемого периода, что в свою очередь может служить причиной автокорреляции.
Последствия автокорреляции схожи с последствиями гетероскедастичности : выводы по t- и F-статистикам, определяющие значимость коэффициента регрессии и коэффициента детерминации, возможно, будут неверными.

Обнаружение автокорреляции

1. Графический метод
Есть ряд вариантов графического определения автокорреляции. Один из них увязывает отклонения e i с моментами их получения i. При этом по оси абсцисс откладывают либо время получения статистических данных, либо порядковый номер наблюдения, а по оси ординат – отклонения e i (либо оценки отклонений).
Естественно предположить, что если имеется определенная связь между отклонениями, то автокорреляция имеет место. Отсутствие зависимости скоре всего будет свидетельствовать об отсутствии автокорреляции.
Автокорреляция становится более наглядной, если построить график зависимости e i от e i-1 .

Критерий Дарбина-Уотсона .
Этот критерий является наиболее известным для обнаружения автокорреляции.
При статистическом анализе уравнения регрессии на начальном этапе часто проверяют выполнимость одной предпосылки: условия статистической независимости отклонений между собой. При этом проверяется некоррелированность соседних величин e i .

y y(x) e i = y-y(x) e 2 (e i - e i-1) 2
15.6 14.11 1.49 2.21 0
19.9 16.02 3.88 15.04 5.72
22.7 23.04 -0.3429 0.1176 17.81
34.2 27.81 6.39 40.78 45.28
44.5 30.2 14.3 204.49 62.64
26.8 33.47 -6.67 44.51 439.82
35.7 40.83 -5.13 26.35 2.37
30.6 48.33 -17.73 314.39 158.7
161.9 158.07 3.83 14.66 464.81
662.54 1197.14

Для анализа коррелированности отклонений используют статистику Дарбина-Уотсона:

Критические значения d 1 и d 2 определяются на основе специальных таблиц для требуемого уровня значимости α, числа наблюдений n = 9 и количества объясняющих переменных m=1.
Автокорреляция отсутствует, если выполняется следующее условие:
d 1 < DW и d 2 < DW < 4 - d 2 .
Не обращаясь к таблицам, можно пользоваться приблизительным правилом и считать, что автокорреляция остатков отсутствует, если 1.5 < DW < 2.5. Для более надежного вывода целесообразно обращаться к табличным значениям.

Тема: Элементы теории корреляции

Объекты ряда генеральных совокупностей обладают несколькими подлежащими изучению признаками Х, У, ..., которые можно интерпретировать как систему взаимосвязанных величин. Примерами могут служить: масса животного и количество гемоглабина в крови, рост мужчины и объем грудной клетки, увеличение рабочих мест в помещении и уровень заболеваемости вирусными инфекциями, количество вводимого препарата и концентрация его в крови и т.д.

Очевидно, что между этими величинами существует связь, но она не может быть строгой фукциональной зависимостью, так как на изменение одной из величин влияет не только изменение второй величины, но и другие факторы. В таких случаях говорят, что две величины связаны стохастической (т.е. случайной) зависимостью. Мы будем изучать частный случай стохастической зависимости – корреляционную зависимость .

ОПРЕДЕЛЕНИЕ: стохастической , если на изменение одной из них влияет не только изменение второй величины, но и другие факторы.

ОПРЕДЕЛЕНИЕ: Зависимость случайных величин называют статистической, если изменения одной из них приводит к изменению закона распределения другой.

ОПРЕДЕЛЕНИЕ: Если изменение одной из случайных величин влечет изменение среднего другой случайной величины, то статистическую зависимость называют корреляционной.

Примерами корреляционной зависимости являются связи между:

Массой тела и ростом;

    дозой ионизирующего излучения и числом мутаций;

    пигментом волос человека и цветом глаз;

    показателями уровня жизни населения и процентом смертности;

    количеством пропущенных студентами лекций и оценкой на экзамене и т.д.

Именно корреляционные зависимости наиболее часто встречаются в природе в силу взаимовлияния и тесного переплетения огромного множества самых различных факторов, определяющих значения изучаемых показателей.

Результаты наблюдения, проведенные над тем или иным биологическим объктом по корреляционно связанным признакам У и Х можно изобразить точками на плоскости, построив систему прямоугольных координат. В результате получается некая диаграмма рассеяния, позволяющая судить о форме и тесноте связи между варьирующими признаками.

Если эту связь можно будет апроксимировать некоторой кривой, то можно будет прогнозировать изменение одного из параметров при целенаправленном изменении другого параметра.

Корреляционную зависимость от
можно описать с помощью уравнения вида

(1)

г
де
условное среднее величины , соответствующее значениювеличины
, а
некоторая функция. Уравнение (1) называется на
.

Рис.1. Линейная регрессия значима. Модель
.

Функцию
называютвыборочной регрессией на
, а ее график –выборочной линией регрессии на
.

Совершенно аналогично выборочным уравнением регрессии
на является уравнение
.

В зависимости от вида уравнения регрессии и формы соответствующей линии регрессии определяют форму корреляционной зависимости между рассматриваемыми величинами – линейной, квадратической, показательной, экспоненциальной.

Важнейшим является вопрос выбора вида функции регрессии
[или
], например линейная или нелинейная (показательная, логарифмическая и т.д.)

На практике вид функции регрессии можно определить построив на координатной плоскости множество точек, соответствующих всем имеющимся парам наблюдений (
).

Рис. 2. Линейная регрессия незначима. Модель
.

Р
ис. 3. Нелинейная модель
.

Например, на рис.1. видна тенденция роста значений с ростом
, при этом средние значениярасполагается визуально на прямой. Имеет смысл использовать линейную модель (вид зависимостиот
принято называть моделью) зависимостиот
.

На рис.2. средние значения не зависят от, следовательно линейная регрессия незначима (функция регрессии постоянна и равна).

На рис. 3. прослеживается тенденция нелинейности модели.

Примеры прямолинейной зависимости:

    увеличение количество потребляемого йода и снижение показателя заболеваемости зобом,

    увеличение стажа рабочего и повышение производительности.

Примеры криволинейной зависимости:

    с увеличением осадков – увеличивается урожай, но это происходит до определенного предела осадков. После критической точки осадки уже оказываются излишними, почва заболачивается и урожай снижается,

    связь между дозой хлора, примененной для обеззараживания воды и количеством бактерий в 1 мл. воды. С увеличением дозы хлора количество бактерий в воде снижается, но по достижению критической точки количество бактерий будет оставаться постоянным (или совсем отсутствовать), как бы мы не увеличивали дозу хлора.

Линейная регрессия

Выбрав вид функции регрессии, т.е. вид рассматриваемой модели зависимости от Х (или Х от У), например, линейную модель
, необходимо определить конкретные значения коэффициентов модели.

При различных значениях а и
можно построить бесконечное число зависимостей вида
т.е на координатной плоскости имеется бесконечное количество прямых, нам же необходима такая зависимость, которая соответствует наблюдаемым значениям наилучшим образом. Таким образом, задача сводится к подбору наилучших коэффициентов.

Метод наименьших квадратов (мнк)

Линейную функцию
ищем, исходя лишь из некоторого количества имеющихся наблюдений. Для нахождения функции с наилучшим соответствием наблюдаемым значениям используемметод наименьших квадратов.

Рис.4. Пояснение к оценке коэффициентов методом наименьших квадратов

Обозначим: - значение, вычисленное по уравнению

- измеренное значение,

- разность между измеренными и вычисленными по уравнению значениям,

.

В методе наименьших квадратов требуется, чтобы , разность между измеренными и вычисленными по уравнению значениям , была минимальной. Следовательно, находимо подобрать коэффициентыа и так, чтобы сумма квадратов отклонений наблюдаемых значений от значений на прямой линии регрессии оказалась наименьшей:

Это условие достигается если параметры а и будут вычислены по формулам:

называют коэффициентом регрессии ; называютсвободным членом уравнения регрессии.

Полученная прямая является оценкой для теоретической линии регрессии. Имеем

Итак,
являетсяуравнением линейной регрессии.

Регрессия может быть прямой
и обратной
.

ОПРЕДЕЛЕНИЕ: Обратная регрессия означает, что при росте одного параметра, значения другого параметра уменьшаются.



Новое на сайте

>

Самое популярное