Многофакторный корреляционный и регрессионный анализ. Многофакторный корреляционный анализ

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

хорошую работу на сайт">

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://сайт

Многофакторная модель корреляционно-регрессионного ан а лиза

С помощью корреляционно-регрессионного анализа мы сможем определить динамику стоимости недвижимости, и влияние отдельных факторов на стоимость недвижимости, а так же установим, какие из этих факторов оказывают наибольшее влияние на стоимость недвижимости.

Система факторов всегда формируется на стадии логического анализа. Конкретное построение модели осуществляется на основе собранной исходной информации с количественными оценками факторов.

Показатели, включаемые в статистическую модель, должны быть качественно однородны, независимы друг от друга, достаточны по количеству измерителей для статистической обоснованности результатов регрессионного анализа. Количество измерений должно превосходить число факторов не менее чем в 2 раза.

Этапы выполнения работы:

1. Ввод исходных данных;

2. Расчет корреляционной матрицы;

3. Определить коллинеарность;

4. Определить параметры уравнения регрессии;

5. Анализ факторов по коэффициенту эластичности;

6. Оценка параметров уравнения регрессии;

7. Оценить значимость показателей тесноты связи r;

8. Оценка значимости коэффициента детерминации R 2 ;

9. Доверительные интервалы для коэффициентов уравнения регрессии;

10. Доверительные интервалы для средних значений факторных признаков;

11. Автокорреляция

Пример расчета

1. Ввод исходных данных

Систему функциональных показателей формируем на стадии логического анализа.

При построении многофакторной модели прогнозирования стоимости недвижимости, могут быть включены следующие факторы:

Результирующий признак: Y -стоимость недвижимости, $;

Факторные признаки:

Х 1 -стоимость одного квадратного метра объекта, $;

Х 2 - валютный курс;

Х 3 - уровень доходности населения, $;

Х 4 - социально-политическое положение, баллы;

Х 5 - инфраструктура, баллы;

Х 6 - состояние объекта, ремонт, баллы;

Х 7 - количество телефонов, штук;

Х 8 - количество телефонов

Так как для статистического анализа требуется ввести факторы за какой-то промежуток времени, то нами была составлена таблица данных факторов для нескольких наблюдений за 10 лет, которая представлена ниже:

2. Расчет корреляционной матрицы

Введем составленную матрицу в Excel. С помощью надстройки Анализ данных в меню Сервис рассчитаем корреляционную матрицу. Для этого в появившемся окне “Анализ данных” в поле “Инструменты анализа” активизируем строку “Корреляция”. В окне “Корреляция” введем входной интервал, выделяя с помощью мыши столбы и строки исходной таблицы, включая заголовки (за исключением столбца годы); установим флаг на “Метки в первой строке”; затем в поле “Выходной интервал” укажем левую верхнюю ячейку, начиная с которой должна появиться матрица результатов - корреляционная матрица.

Корреляционная матрица:

Корреляционная матрица - симметричная матрица, в которой относительно главной диагонали, на пересечении i-ой строки и j-го столбца, расположены коэффициенты парной корреляции между i-мы и j-ми факторами. По главной диагонали коэффициенты равны 1.

В последней строке корреляционной матрицы расположены коэффициенты парной корреляции между факторными и результирующим признаками.

Учитывая, что, при r < 0 связь обратная, при r > 0 - связь прямая.

Анализируя первый столбец корреляционной матрицы, отберем факторы, влияющие на результирующий признак.

Если коэффициент корреляции, то связь между i-ым фактором и результирующим признаком тесная, тогда этот фактор влияет на среднемесячную заработную плату и остается в модели. В соответствии с этим выпишем соответствующие коэффициенты корреляции:

Вывод: Анализ последней строчки корреляционной матрицы показывает, что факторы Х2 , Х4 , Х5 , Х6 , Х8 исключаются из модели, так как коэффициент корреляции, а для дальнейшего рассмотрения в данной модели остаются факторы Х1 , Х3 , Х7 .

3 . Определение колинеарности

Колинеарность - это зависимость факторных признаков между собой. Связь между факторными и результирующим признаками должна быть более тесная, чем связь между самими факторами, то есть для любой пары отобранных факторов должно выполнять отношение:

Если соотношения данной системы выполняются, то оба фактора остаются в модели. Если соотношения не выполняются, то один из факторов нужно исключить из модели. Обычно исключаются факторы с меньшим коэффициентом корреляции, зависимость которых с результирующим меньше. Но при удалении факторов в каждой конкретной задаче необходимо смотреть смысловое содержание факторов. Формальный подход не допустим.

Определяем колинеарность между факторами:

условие выполняется, оба фактора остаются в модели;

условие не выполняется, фактор Х 7 исключается, так как;

Вывод: Таким образом, в результате анализа, для составления прогнозируемой функции оставляем фактор Х 1 , Х 3 . Тогда уравнение регрессии приобретает следующий вид:

Y 0 + a 1 x 1 + a 2 x 3

4 . Определение параметров уравнения регрессии.

В рабочем поле Excel с помощью команды копирования создадим новую таблицу с исходными данными из оставшихся факторов и найдем средние значения по столбцам:

Для решения полученного уравнения регрессии после активизации сервисной программы Анализ данных в меню Сервис воспользуемся инструментом анализа - Регрессия. В данном диалоговом окне введем с помощью мыши входной интервал Y и X-ов; устанавим флаг на Метки; укажем начальную ячейку для выходного интервала и подтвердим начало расчета кнопкой ОК. В третьей из полученных таблиц ВЫВОДА ИТОГОВ найдем коэффициенты Y-пересечения и Х 1 , Х 3 и подставим полученные значения вместе со средними значениями Х-ов в уравнение регрессии:

Описательная статистика

Стандартная ошибка

Стандартное отклонение

Асимметричность

Интервал

Максимум

Дисперсионный анализ

Значимость F

Регрессия

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Y-пересечение

корреляционный регрессия матрица эластичность

Вывод:

1. Уравнение регресс имеет следующий вид:

2. Зависимость между стоимостью недвижимости (У) и стоимостью одного квадратного метра (Х 1), между стоимостью недвижимости (У) и уровнем доходности населения (Х 3), является более тесной, чем между стоимостью недвижимости и остальными факторами.

5 . Анализ факторов по коэффициенту эластичности

О значимости факторов нельзя судить по значению коэффициента регрессии. Анализ осуществляется по коэффициенту эластичности.

Коэффициент эластичности показывает, на сколько процентов изменяется резул ьтирующий признак при изменении факторного признака на 1%. Обычно берется 10%. Знак коэффициента эластичности всегда совпадает со знаком коэффициентов регрессии. Чем больше по модулю значение коэффициента эластичности, тем большее влияние оказывает этот фактор на результирующий признак.

.

Увеличим каждый фактор на 10%:

Подставляя средние значения факторов Х 1 , Х 3, а также их последовательно увеличенные на 10% значения в соответствующие уравнения регрессии, вычислим коэффициенты эластичности:

Коэффициент эластичности принято изображать графически.

Зависимость между Х 1 (стоимостью одного метра квадратного) и Y (стоимостью недвижимости объекта):

Вывод: при увеличении факторного признака Х 1 на 10 % результативный признак увеличивается на 11,91 %.

Зависимость между Х 3 (уровнем доходности населения) и Y (стоимостью недвижимости объекта)

Вывод: при увеличении факторного признака Х 3 на 10 % результативный признак сокращается на 3,42 %.

ВЫВОД: Анализ факторов по коэффициенту эластичности показал, что наибольшее влияние на стоимость недвижимости оказывает стоимость одного метра квадратного (фактор Х 1), затем уровень доходности населения (фактор Х 3).

6 . Оценка параметров уравнения регрессии

Для того, чтобы оценить параметры уравнения регрессии используется t- критерий Стьюдента. В таблице «дисперсионный анализ», в графе «t- статистика» содержатся рассчитанные на компьютере данные:

Эти значения сравниваются t - критическим, учитывая принятый уровень значимости б = 0,05 и k - число степеней свободы k = n-m-1; k=10-2-1=7, затем по таблице Стьюдента определяем, что: t кр = 2,365, либо рассчитываем это значение в Excel с помощью вставки функции < fx > в поле «Категория» выбираем Статистические в поле «выберите функцию» активизируем строку СТЮДРАСПОБР , с помощью которой компьютер возвращает t-значение распределения Стьюдента как функцию вероятности и числа степеней свободы, затем нажимаем «ОК». Компьютер запрашивает аргументы функции: в поле вероятность ставим значение 0,05, а в поле степень свободы -7

Параметры уравнения регрессии признаются типичными, если выполняются неравенства:

Подставим имеющие данные для сравнения:

Условие не выполняется

Условие не выполняется.

Вывод: Анализ параметров уравнения регрессии показал, что рассчитанные на компьютере данные не удовлетворяют условию сравнения. Поэтому математическая формула регрессии не может быть использована для прогнозирования стоимости недвижимости, а может быть использована только для практических расчетов.

7. Оценить значимость показателей тесноты связи r

Для этого применяется t- критерий Стьюдента. Расчетные значения t r для факторов Х 1 , Х 3 определяется по формуле:

где r - значения, рассчитанные в корреляционной матрице (столбец У) для объясняющих факторов

n - количество наблюдений.

Подставляя имеющиеся данные в формулу, получаем:

Рассчитанные значения надо сравнить с t- критическим равное 2,365. Показатели тесноты связи признаются типичными, если

Подставляя полученные данные, получим:

Условие выполняется

Условие выполняется

Вывод: все коэффициенты корреляции, соответствующие оставшимся факторам, признаются типичным, так как условие неравенства выполняется.

8 . Оценка значимости коэффициента детерминации R 2

Для этого используется F- критерий Фишера, величина которого берется из таблицы Фишера со степенями свободы:

к 1 = m = 2 - число объясняющих факторов.

к 2 = n-m-1= 10-2-1=7

Либо рассчитываем это значение в Excel с помощью вставки функции < fx > в поле «Категория» выбираем Статистические в поле «выберите функцию» активизируем строку F РАСПОБР , с помощью которой компьютер возвращает обратное значение для F-распределения вероятностей, затем нажимаем «ОК». Компьютер запрашивает аргументы функции: в поле вероятность ставим значение 0,05, в поле степень свободы1 ставим число объясняющих факторов, т.е. 2, а в поле степень свободы2 вводим к 2 = 7

Для определения статистической значимости коэффициента детерминации R 2 используется неравенство:

Значение F R рассчитывается по формуле:

Подставляя данные в неравенство получим: F расч =337,55 F крит. =4,737

Вывод:

Коэффициент детерминации R 2 является значимым, так как неравенство выполняется;

Величина R 2 =0,990- это означает, что 99 % общей вариации результативного признака объясняется изменением факторных признаков Х 1 ,Х 3 , а 1 % объясняется изменениями других факторов.

9. Доверительные интервалы для коэффициентов уравнения регрессии

Доверительные интервалы для коэффициентов множественной регрессии определяются:

а=499,986; Sa=29,254; tкрит.= 2,365

a 2 =-779,762; Sa 2 =644,425; tкрит.= 2,365

Вывод:

95% коэффициента регрессии а 1 лежит в интервале, а 5% вне этого интервала.

95% коэффициента регрессии а 2 лежит в интервале, а 5% вне этого интервала.

10 . Доверительные интервалы для средних значений факторных призн а ков

Доверительные интервалы для средних значений факторных признаков определяются:

где -стандартное отклонение (среднеквадратическое отклонение);

n - число наблюдений;

t находится по функции таблицы Лапласа

95% факторного признака (стоимость 1 м 2) лежит в интервале, а 5% вне этого интервала.

95% факторного признака (уровень доходности населения) лежит в интервале, а 5% вне этого интервала.

1 1 . Автокорреляция

А) Для определения величины коэффициента автокорреляции используются значения остатков, которые имеют следующий вид:

ВЫВОД ОСТАТКА

Дополнительные расчеты

Наблюдение

Предсказанное Y

Остатки i

Для определения величины коэффициента автокорреляции используется формула Дарвина - Оутсона:

использование, которой связано с дополнительными расчетами. Подставим данные в формулу и получим:

Коэффициент корреляции изменяется в пределах 0?dw?4.

Значит и размер автокорреляционного поля должен иметь эти же пределы.

Б) В автокорреляции содержатся (слева направо):

1. Зона положительной автокорреляции

2. Зона неопределенности

3. Зона отсутствия автокорреляции

4. Зона неопределенности

5. Зона отрицательной автокорреляции.

Размер зон неопределенности зависят от показателей таблицы Дарвина-Оутсона.

Для того чтобы найти в таблице нужные показатели надо знать номер столбца и строки.

Номер нужного столбца - это число объясняющих факторов уравнения регрессии: k=m=2;

Номер строки- это количество наблюдений: n=10.

В таблице находятся показатели d l и d u:

В левой половине автокорреляционного поля:

Нижняя граница зоны равна d l =0,697

Верхняя граница зоны равна d u = 1,641

Для правой половины автокорреляционного поля границы неопределенности надо рассчитать:

Верхняя граница зоны равна 4-d u = 4-1,641= 2,359

Нижняя граница зоны равна 4-d l =4-0,697= 3,303

Общая картина автокорреляционного поля может быть представлена в виде:

В) Коэффициент автокорреляции, его значение соответствует зоне отсутствия автокорреляции.

Размещено на сайт

Подобные документы

    Сущность корреляционно-регрессионного анализа и его использование в сельскохозяйственном производстве. Этапы проведения корреляционно-регрессионного анализа. Области его применения. Анализ объекта и разработка числовой экономико-математической модели.

    курсовая работа , добавлен 27.03.2009

    Расчет стоимости оборудования с использованием методов корреляционного моделирования. Метод парной и множественной корреляции. Построение матрицы парных коэффициентов корреляции. Проверка оставшихся факторных признаков на свойство мультиколлинеарности.

    задача , добавлен 20.01.2010

    Расчёт параметров линейного уравнения регрессии. Оценка регрессионного уравнения через среднюю ошибку аппроксимации, F-критерий Фишера, t-критерий Стьюдента. Анализ корреляционной матрицы. Расчёт коэффициентов множественной детерминации и корреляции.

    контрольная работа , добавлен 29.08.2013

    Сущность корреляционно-регрессионного анализа и экономико-математической модели. Обеспечение объема и случайного состава выборки. Измерение степени тесноты связи между переменными. Составление уравнений регрессии, их экономико-статистический анализ.

    курсовая работа , добавлен 27.07.2015

    Построение регрессионных моделей. Смысл регрессионного анализа. Выборочная дисперсия. Характеристики генеральной совокупности. Проверка статистической значимости уравнения регрессии. Оценка коэффициентов уравнения регрессии. Дисперсии случайных остатков.

    реферат , добавлен 25.01.2009

    Построение математической модели выбранного экономического явления методами регрессионного анализа. Линейная регрессионная модель. Выборочный коэффициент корреляции. Метод наименьших квадратов для модели множественной регрессии, статистические гипотезы.

    курсовая работа , добавлен 22.05.2015

    Ознакомление с основами модели простой регрессии. Рассмотрение основных элементов эконометрической модели. Характеристика оценок коэффициентов уравнения регрессии. Построение доверительных интервалов. Автокорреляция и гетероскедастичность остатков.

    лекция , добавлен 23.12.2014

    Статистический анализ по выборке. Проведение регрессионного анализа исходных данных и выбор аналитической формы записи производственной функции. Выполнение экономического анализа в выбранной регрессионной модели на основе коэффициентов эластичности.

    курсовая работа , добавлен 22.07.2015

    Оценка корреляционной матрицы факторных признаков. Оценки собственных чисел матрицы парных коэффициентов корреляции. Анализ полученного уравнения регрессии, определение значимости уравнения и коэффициентов регрессии, их экономическая интерпретация.

    контрольная работа , добавлен 29.06.2013

    Расчет параметров линейной регрессии. Сравнительная оценка тесноты связи с помощью показателей корреляции, детерминации, коэффициента эластичности. Построение поля корреляции. Определение статистической надежности результатов регрессионного моделирования.

Линейный многофакторный регрессионный анализ На практике при анализе результатов научных исследований часто имеет место ситуация, когда количественное изменение изучаемого явления (функции отклика) зависит не от одного, а от нескольких причин (факторов). При проведении экспериментов в такой множественной ситуации исследователь записывает показания приборов о состоянии функции отклика (y) и всех факторов, от которых она зависит (x). Результатами наблюдений являются уже не два вектор-столбца (x и y), как при проведении однофакторного регрессионного анализа, а матрица результатов наблюдений. где yi – значение функции отклика в i-ом эксперименте, Xij – значение j-го фактора на i-ом эксперименте, n – количество экспериментов, p – количество факторов Задача многофакторного линейного регрессионного анализа состоит в построении такого уравнении плоскости в (p+1)-мерном пространстве, отклонения результатов наблюдений yi от которой были бы минимальными.

Или, другими словами, следует вычислить значения коэффициентов b 0, bj в уравнении на которых достигается минимум Для отыскания минимума необходимо найти частные производные по всем неизвестным b 0, bj и приравнять их нулю. Полученные уравнения образуют систему нормальных уравнений, которая в матричной форме имеет вид где Из этого уравнения можем найти вектор-столбец коэффициентов регрессии: , каждый элемент которого можно найти по формуле: В которой cij – элементы обратной матрицы (XTX)-1.

Проверка значимости коэффициентов регрессии Проверка значимости уравнения регрессии мало отличается от соответствующей проверки однофакторной регрессии. Вычисляют остаточную дисперсию по формуле: которую сравнивают с дисперсией среднего Фишера: с помощью критерия с числом степеней свободы в числителе (n-1) и в знаменателе (n-р-1). Значимость коэффициентов регрессии b 0, bj проверяют по критерию Стьюдента: (, где - диагональные элементы матрицы).

Парные коэффициенты корреляции Корреляционный анализ начинают с вычисления парных коэффициентов корреляции, характеризующих тесноту связи между двумя величинами. В многофакторной ситуации вычисляют два типа парных коэффициентов корреляции: 1) - коэффициенты, определяющие тесноту связи между функцией отклика и одним из факторов; 2) - коэффициенты, показывающие тесноту связи между одним из факторов и фактором (). , где Значимость парных коэффициентов корреляции можно проверить по критерию Стьюдента: , где

Корреляционная матрица Значение парного коэффициента корреляции изменяется от - 1 до +1. Если, например, коэффициент - величина отрицательная, то это значит, что уменьшается с увеличением. Если положителен, то увеличивается с увеличением. Если один из коэффициентов окажется равным 1, то это означает, что факторы и функционально связаны между собой и тогда целесообразно один из них исключить из рассмотрения, причем оставляют тот фактор, у которого коэффициент больше. После вычисления всех парных коэффициентов корреляции и исключения из рассмотрения того или иного фактора можно построить матрицу коэффициентов корреляции вида:

Частные коэффициенты корреляции Используя парных коэффициентов корреляции матрицу, можно вычислить частные коэффициенты корреляции, которые показывают степень влияния одного из факторов на функцию отклика при условии, что остальные факторы закреплены на постоянном уровне. Частные коэффициенты корреляции вычисляются по формуле где - определитель матрицы, образованной из матрицы парных коэффициентов корреляции вычеркиванием 1 -й строки j-го столбца, определитель - j-ой строки j-го столбца. Как и парные коэффициенты, частные коэффициенты корреляции изменяются от -1 до +1. Значимость и доверительный интервал для коэффициентов частной корреляции определяются так же, как для коэффициентов парной корреляции с числом степеней свободы v = n – k - 2, где k = р - 1 - порядок частного коэффициента парной корреляции.

Коэффициент множественной корреляции и его значимость Для изучения тесноты связи между функцией отклика и несколькими факторами используют коэффициент множественной корреляции R. Коэффициент множественной корреляции служит и для оценки качества предсказания; R всегда положителен и изменяется от 0 до 1. Чем больше R, тем лучше качество предсказаний данной моделью опытных данных. Коэффициент множественной корреляции вычисляется по формуле Значимость коэффициента множественной корреляции проверяют по критерию Стьюдента: , где - среднеквадратическая погрешность коэффициента множественной корреляции: Значимость R можно проверить также и по критерию Фишера: Полученное значение сравнивают с табличным при выбранном уровне значимости и числах степеней свободы v 1 = n - р - 1 и v 2 = p. Если расчетное значение превышает табличное, то гипотезу o равенстве коэффициента множественной корреляции нулю отвергают и связь считают статистически значимой.

Многофакторный нелинейный регрессионный анализ Первый этап нелинейного многофакторного регрессионного анализа - получение полной квадратичной формы. Для этого определяют коэффициенты регрессии b 0, bk и bjk в полиноме Степень уравнения можно повышать до тех пор, пока уменьшается остаточная дисперсия. Задача нелинейной регрессии сводится к задаче линейной регрессии заменой переменных и т. д. Мерой тесноты связи в нелинейной зависимости служит множественное корреляционное отношение, но используя для вычисления у нелинейную форму уравнения. Сравнение множественного корреляционного отношения с коэффициентом множественной корреляции, вычисленным по линейной форме, дает некоторое представление о «кривизне» изучаемой зависимости.

Выбор оптимальной формы регрессии 1) метод полного перебора 2) метод отсеивания факторов При использовании метода исключения переменных уравнение регрессии расширяют сразу до полной квадратичной или, если возможно, до полной кубической формы. Исключение начинают с фактора, имеющего наименьший критерий Стьюдента. На каждом этапе после исключения каждого фактора для нового уравнения регрессии вычисляют множественный коэффициент корреляции, остаточную дисперсию и F-критерий Фишера. Наибольшую трудность представляет решение вопроса, на каком этапе прекратить исключение факторов. Здесь возможны следующие подходы: a) прекратить исключение факторов, когда остаточная дисперсия начнет увеличиваться; b) назначить уровень значимости (0. 05) при вычислении t-критерия Стьюдента для последнего оставляемого фактора. Во втором случае перед началом отсева факторов строят диаграмму ранжирования t-критериев Стьюдента для всех факторов расширенной модели.

3) метод включения факторов При использовании метода включения факторов в уравнение регрессии последовательно включаются факторы (наиболее значимые) пока остаточная дисперсия не увеличивается.

Пример регрессионного анализа Рассмотрим пример многофакторного регрессионного и корреляционного анализа с выбором оптимальной формы регрессии методом исключения эффектов (факторов и парных взаимодействий) на примере построения модели для вычисления ползучести бетона. В этой задаче строится зависимость удельных относительных деформаций ползучести бетона С(t, т) от десяти факторов: . В матрицу исходных данных включены результаты 367 опытов над бетонными образцами, в которых фиксировались значения у = С(t, т) , и следующих 10 факторов: -отношение массы цемента к массе заполнителя в 1 м 3 бетона (Ц/3); - расход цемента на 1 м 3 бетона (Ц); - влажность среды (W); - масштабный фактор (М); - водоцементное отношение (В/Ц); - возраст бетона в момент загружения (т); - время действия нагрузки (t - т); - нормальная густота цементного теста (НГ); - значение напряжений (); - модуль упругости заполнителя (E 3).

Решение Коэффициент корреляции близок к единице, поэтому фактор исключен из рассмотрения; На первом этапе была построена полная квадратичная модель с 54 эффектами. Критерий Фишера для этой модели получился: Затем был произведен 11 -ступенчатый отсев незначимых эффектов, в процессе которого было исключено 28 статистически незначимых по критерию Стьюдента эффектов, в результате была получена модель с 26 эффектами, для которой критерий Фишера возрос незначительно: а остальные параметры оказались хорошими Значимые, связи для наглядности удобно изображать в виде графа. Используя методы теории графов, можно построить таблицу, наглядно показывающую количество статистически значимых связей между функцией отклика и факторами. Такую таблицу называют еще матрицей смежности вершин.

Явления общественной жизни складываются под воздействием целого ряда факторов, то есть являются многофакторными. Между факторами существуют сложные взаимосвязи, поэтому их нельзя рассматривать как простую сумму изолированных влияний. Изучение связи между тремя и более связанными между собой признаками носит название многофакторного корреляционно-регрессионного анализа.

Впервые это понятие было введено Пирсоном в 1908 году.

Многофакторный корреляционно-регрессионный анализ включает в себя следующие этапы:

Теоретический анализ, направленный на выбор факторных признаков, существенных для поставленной задачи;

    выбор формы связи (уравнения регрессии);

    отбор существенных факторных признаков, удаление из модели несущественных, объединение нескольких факторных признаков в один (этот признак не всегда имеет содержательную интерпретацию);

    вычисление параметров уравнения регрессии и коэффициентов корреляции;

    проверка адекватности полученной модели;

    интерпретация полученных результатов.

На этапе отбора факторных признаков необходимо учитывать, что даже если числовые данные свидетельствуют о наличии связи между двумя величинами, это может быть лишь отражением того факта, что они обе зависят от одной или нескольких величин (например, длина волос – рост – пол; синдром пингвина).

Для любой формы зависимости, особенно в условиях малого объема исследуемой совокупности можно выбрать целый ряд уравнений, которые в той или иной степени будут описывать эти связи. Практика построения многофакторных моделей взаимосвязи показывает, что обычно для описания зависимостей между социально-экономическими явлениями используют линейные, полиномиальные, степенные, гиперболические функции. При выборе модели пользуются опытом предшествующих исследований или исследований в смежных областях.

Преимуществом линейных моделей является простота расчета параметров и экономической интерпретации. Зависимости, нелинейные по переменным (квазилинейные) могут быть приведены к линейной форме путем замены переменных. Параметры уравнения множественной регрессии находятся по методу наименьших квадратов из системы нормальных уравнений. В условиях использования ЭВМ определение параметров, как для линейных, так и для нелинейных зависимостей может быть осуществлено численными методами.

Важным этапом построения уже выбранного уравнения множественной регрессии является отбор факторных признаков. Для адекватного отражения моделируемого процесса в модель необходимо включить максимальное количество факторов, но, с другой стороны, избыточное количество параметров затрудняет работу с моделью. Кроме того, для того, чтобы полученные результаты были достаточно надежными и воспроизводимыми на каждый факторный признак должно приходиться 10-20 наблюдений. Поэтому необходим отбор факторов на основе анализа их значимости.

Отбор факторов может быть проведен на основании:

    метода пошагового исключения;

    метода пошаговой регрессии.

Сущность метода пошагового исключения заключается в последовательном исключении из уравнения регрессии тех факторов, чьи параметры оказались незначимыми при проверке по критерию Стьюдента.

Использование метода пошаговой регрессии заключается в том, что факторы вводятся в уравнение регрессии поочередно, и при этом оценивается изменение суммы квадратов остатков и множественного коэффициента корреляции. Фактор считается незначимым и исключается из рассмотрения, если при его включении в уравнение регрессии не изменилась сумма квадратов остатков , даже если при этом изменились коэффициенты регрессии. Фактор считается значимым и включается в модель, если при этом увеличился коэффициент множественной корреляции и уменьшилась сумма квадратов остатков, даже если при этом коэффициенты регрессии изменились несущественно.

При построении моделей регрессии может возникнуть проблема, связанная с мультиколлинеарностью. Сущность этой проблемы заключается в том, что между факторными признаками существует значительная линейная связь. Мультиколлинеарность возникает в том случае, когда факторы выражают одну и ту же сторону явления или один является составным элементом другого. Это приводит к искажению рассчитываемых параметров регрессии, осложняет выделение существенных факторов и изменяет смысл экономической интерпретации коэффициентов регрессии. Индикатором мультиколлинеарности служат выборочные коэффициенты корреляции () характеризующие тесноту связи между факторамии:

.

Устранение мультиколлинеарности может реализовываться путем исключения из корреляционной модели одного или нескольких линейно-связанных признаков или преобразование исходных факторных признаков в новые, укрупненные факторы.

После построения уравнения регрессии проводится проверка адекватности модели, включающая в себя проверку значимости уравнения регрессии и коэффициентов регрессии.

Вклад каждого фактора в изменение результативного признака оценивают по коэффициентам регрессии, по частным коэффициентам эластичности каждого фактора и по стандартизированным частным- коэффициентам регрессии.

Коэффициент регрессии показывает абсолютный уровень влияния фактора на результативный показатель при среднем уровне всех прочих входящих в модель факторов. Однако тот факт, что коэффициенты измеряются (в общем случае) в разных единицах измерения, не позволяет сравнить степени влияния признаков.

Пример. Сменная добыча угля (т) зависит от мощности пласта (м) и уровня механизации (%):.

Частные коэффициенты эластичности показывают, на сколько процентов в среднем изменяется анализируемый показатель с изменением на 1% каждого фактора при фиксированном положении других:

где - коэффициент регрессии при- том факторе,- среднее значение-того фактора,- среднее значение результативного признака.

Коэффициенты показывают, на какую часть среднего квадратического отклоненияизменяется результативный признакс изменением- того факторного признакана величину его среднего квадратического отклонения.

где - среднее квадратическое отклонение-того фактора,- среднее квадратическое отклонение результативного признака.

Таким образом, по перечисленным показателям выявляют факторы, в которых заложены наибольшие резервы изменения результативного признака .

Кроме того, для выявления экстремальных наблюдений может быть проведен анализ остатков.

В рамках многомерного корреляционного анализа рассматривают две типовые задачи:

    оценка тесноты связи двух переменных при фиксировании или исключении влияния всех остальных;

    оценка тесноты связи одной переменной со всеми остальными.

В рамках решения первой задачи определяются частные коэффициенты корреляции – показатели, характеризующие тесноту связи междутым итым признаками при элиминации всех остальных признаков.

В многомерном корреляционном анализе рассматриваются две типовые задачи:

    Определение тесноты связи одной переменной (результативного признака) с совокупностью всех остальных переменных (факторных признаков), включенных в анализ.

    Определение тесноты связи между двумя переменными при фиксировании или исключении влияния остальных переменных.

Эти задачи решаются при помощи множественных и частных коэффициентов корреляции.

Для их определения может быть использована матрица выборочных коэффициентов корреляции.:

,

где - количество признаков,- выборочный парный коэффициент корреляции.

Тогда теснота взаимосвязи результативного признака с совокупностью факторных признаков в целом может быть измерена при помощи множественного (совокупного) коэффициента корреляции. Оценкой этого показателя является выборочный множественный коэффициент корреляции:

Где- определитель матрицы

С помощью множественного коэффициента корреляции может быть сделан вывод о тесноте взаимосвязи, но не о ее направлении.

Если факторные признаки коррелируют друг с другом, то на величине парного коэффициента корреляции частично сказывается влияние других переменных. В связи с этим возникает задача исследовать частную корреляцию между переменными при исключении (элиминировании) влияния одной или нескольких других переменных. Выборочный частный коэффициент корреляции между переменными может быть рассчитан по формуле

Где- алгебраическое дополнение соответствующего элемента корреляционной матрицы

Частный коэффициент корреляции может принимать значения от -1 до 1.

Основная цель регрессионного анализа состоит в определении аналитической формы связи, в которой изменение результативного признака обусловлено влиянием одного или нескольких факторных признаков, а множество всех прочих факторов, также оказывающих влияние на результативный признак, принимается за постоянные и средние значения.
Задачи регрессионного анализа :
а) Установление формы зависимости. Относительно характера и формы зависимости между явлениями, различают положительную линейную и нелинейную и отрицательную линейную и нелинейную регрессию.
б) Определение функции регрессии в виде математического уравнения того или иного типа и установление влияния объясняющих переменных на зависимую переменную.
в) Оценка неизвестных значений зависимой переменной. С помощью функции регрессии можно воспроизвести значения зависимой переменной внутри интервала заданных значений объясняющих переменных (т. е. решить задачу интерполяции) или оценить течение процесса вне заданного интервала (т. е. решить задачу экстраполяции). Результат представляет собой оценку значения зависимой переменной.

Парная регрессия - уравнение связи двух переменных у и х: , где y - зависимая переменная (результативный признак); x - независимая, объясняющая переменная (признак-фактор).

Различают линейные и нелинейные регрессии.
Линейная регрессия: y = a + bx + ε
Нелинейные регрессии делятся на два класса: регрессии, нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам, и регрессии, нелинейные по оцениваемым параметрам.
Регрессии, нелинейные по объясняющим переменным:

Регрессии, нелинейные по оцениваемым параметрам: Построение уравнения регрессии сводится к оценке ее параметров. Для оценки параметров регрессий, линейных по параметрам, Используют метод наименьших квадратов (МНК). МНК позволяет получить такие оценки параметров, при которых сумма квадратов отклонений фактических значений результативного признака у от теоретических минимальна, т.е.
.
Для линейных и нелинейных уравнений, приводимых к линейным, решается следующая система относительно a и b:

Можно воспользоваться готовыми формулами, которые вытекают из этой системы:

Тесноту связи изучаемых явлений оценивает линейный коэффициент парной корреляции для линейной регрессии :

и индекс корреляции - для нелинейной регрессии:

Оценку качества построенной модели даст коэффициент (индекс) детерминации, а также средняя ошибка аппроксимации .
Средняя ошибка аппроксимации - среднее отклонение расчетных значений от фактических:
.
Допустимый предел значений - не более 8-10%.
Средний коэффициент эластичности показывает, на сколько процентов в среднем по совокупности изменится результат у от своей средней величины при изменении фактора x на 1% от своего среднего значения:
.

Задача дисперсионного анализа состоит в анализе дисперсии зависимой переменной:
,
где - общая сумма квадратов отклонений;
- сумма квадратов отклонений, обусловленная регрессией («объясненная» или «факторная»);
- остаточная сумма квадратов отклонений.
Долю дисперсии, объясняемую регрессией, в общей дисперсии результативного признака у характеризует коэффициент (индекс) детерминации R 2:

Коэффициент детерминации - квадрат коэффициента или индекса корреляции.

F-тест - оценивание качества уравнения регрессии - состоит в проверке гипотезы Но о статистической незначимости уравнения регрессии и показателя тесноты связи. Для этого выполняется сравнение фактического F факт и критического (табличного) F табл значений F-критерия Фишера. F факт определяется из соотношения значений факторной и остаточной дисперсий, рассчитанных на одну степень свободы:
,
где n - число единиц совокупности; m - число параметров при переменных х.
F табл - это максимально возможное значение критерия под влиянием случайных факторов при данных степенях свободы и уровне значимости a. Уровень значимости a - вероятность отвергнуть правильную гипотезу при условии, что она верна. Обычно a принимается равной 0,05 или 0,01.
Если F табл < F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл > F факт, то гипотеза Н о не отклоняется и признается статистическая незначимость, ненадежность уравнения регрессии.
Для оценки статистической значимости коэффициентов регрессии и корреляции рассчитываются t-критерий Стьюдента и доверительные интервалы каждого из показателей. Выдвигается гипотеза Н о о случайной природе показателей, т.е. о незначимом их отличии от нуля. Оценка значимости коэффициентов регрессии и корреляции с помощью t-критерия Стьюдента проводится путем сопоставления их значений с величиной случайной ошибки:
; ; .
Случайные ошибки параметров линейной регрессии и коэффициента корреляции определяются по формулам:



Сравнивая фактическое и критическое (табличное) значения t-статистики - t табл и t факт - принимаем или отвергаем гипотезу Н о.
Связь между F-критерием Фишера и t-статистикой Стьюдента выражается равенством

Если t табл < t факт то H o отклоняется, т.е. a, b и не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл > t факт то гипотеза Н о не отклоняется и признается случайная природа формирования а, b или .
Для расчета доверительного интервала определяем предельную ошибку D для каждого показателя:
, .
Формулы для расчета доверительных интервалов имеют следующий вид:
; ;
; ;
Если в границы доверительного интервала попадает ноль, т.е. нижняя граница отрицательна, а верхняя положительна, то оцениваемый параметр принимается нулевым, так как он не может одновременно принимать и положительное, и отрицательное значения.
Прогнозное значение определяется путем подстановки в уравнение регрессии соответствующего (прогнозного) значения . Вычисляется средняя стандартная ошибка прогноза :
,
где
и строится доверительный интервал прогноза:
; ;
где .

Пример решения

Задача №1 . По семи территориям Уральского района За 199Х г. известны значения двух признаков.
Таблица 1.
Требуется: 1. Для характеристики зависимости у от х рассчитать параметры следующих функций:
а) линейной;
б) степенной (предварительно нужно произвести процедуру линеаризации переменных, путем логарифмирования обеих частей);
в) показательной;
г) равносторонней гиперболы (так же нужно придумать как предварительно линеаризовать данную модель).
2. Оценить каждую модель через среднюю ошибку аппроксимации и F-критерий Фишера.

Решение (Вариант №1)

Для расчета параметров a и b линейной регрессии (расчет можно проводить с помощью калькулятора).
решаем систему нормальных уравнений относительно а и b:
По исходным данным рассчитываем :
y x yx x 2 y 2 A i
l 68,8 45,1 3102,88 2034,01 4733,44 61,3 7,5 10,9
2 61,2 59,0 3610,80 3481,00 3745,44 56,5 4,7 7,7
3 59,9 57,2 3426,28 3271,84 3588,01 57,1 2,8 4,7
4 56,7 61,8 3504,06 3819,24 3214,89 55,5 1,2 2,1
5 55,0 58,8 3234,00 3457,44 3025,00 56,5 -1,5 2,7
6 54,3 47,2 2562,96 2227,84 2948,49 60,5 -6,2 11,4
7 49,3 55,2 2721,36 3047,04 2430,49 57,8 -8,5 17,2
Итого 405,2 384,3 22162,34 21338,41 23685,76 405,2 0,0 56,7
Ср. знач. (Итого/n) 57,89 54,90 3166,05 3048,34 3383,68 X X 8,1
s 5,74 5,86 X X X X X X
s 2 32,92 34,34 X X X X X X


Уравнение регрессии: у = 76,88 - 0,35х. С увеличением среднедневной заработной платы на 1 руб. доля расходов на покупку продовольственных товаров снижается в среднем на 0,35 %-ных пункта.
Рассчитаем линейный коэффициент парной корреляции:

Связь умеренная, обратная.
Определим коэффициент детерминации:

Вариация результата на 12,7% объясняется вариацией фактора х. Подставляя в уравнение регрессии фактические значения х, определим теоретические (расчетные) значения . Найдем величину средней ошибки аппроксимации :

В среднем расчетные значения отклоняются от фактических на 8,1%.
Рассчитаем F-критерий:

поскольку 1< F < ¥ , следует рассмотреть F -1 .
Полученное значение указывает на необходимость принять гипотезу Но о случайной природе выявленной зависимости и статистической незначимости параметров уравнения и показателя тесноты связи.
1б. Построению степенной модели предшествует процедура линеаризации переменных. В примере линеаризация производится путем логарифмирования обеих частей уравнения:


где Y=lg(y), X=lg(x), C=lg(a).

Для расчетов используем данные табл. 1.3.

Таблица 1.3

Y X YX Y 2 X 2 A i
1 1,8376 1,6542 3,0398 3,3768 2,7364 61,0 7,8 60,8 11,3
2 1,7868 1,7709 3,1642 3,1927 3,1361 56,3 4,9 24,0 8,0
3 1,7774 1,7574 3,1236 3,1592 3,0885 56,8 3,1 9,6 5,2
4 1,7536 1,7910 3,1407 3,0751 3,2077 55,5 1,2 1,4 2,1
5 1,7404 1,7694 3,0795 3,0290 3,1308 56,3 -1,3 1,7 2,4
6 1,7348 1,6739 2,9039 3,0095 2,8019 60,2 -5,9 34,8 10,9
7 1,6928 1,7419 2,9487 2,8656 3,0342 57,4 -8,1 65,6 16,4
Итого 12,3234 12,1587 21,4003 21,7078 21,1355 403,5 1,7 197,9 56,3
Среднее значение 1,7605 1,7370 3,0572 3,1011 3,0194 X X 28,27 8,0
σ 0,0425 0,0484 X X X X X X X
σ 2 0,0018 0,0023 X X X X X X X

Рассчитаем С иb:


Получим линейное уравнение:.
Выполнив его потенцирование, получим:

Подставляя в данное уравнение фактические значения х, получаем теоретические значения результата. По ним рассчитаем показатели: тесноты связи - индекс корреляции и среднюю ошибку аппроксимации

Характеристики степенной модели указывают, что она несколько лучше линейной функции описывает взаимосвязь.

. Построению уравнения показательной кривой

предшествует процедура линеаризации переменных при логарифмировании обеих частей уравнения:

Для расчетов используем данные таблицы.

Y x Yx Y 2 x 2 A i
1 1,8376 45,1 82,8758 3,3768 2034,01 60,7 8,1 65,61 11,8
2 1,7868 59,0 105,4212 3,1927 3481,00 56,4 4,8 23,04 7,8
3 1,7774 57,2 101,6673 3,1592 3271,84 56,9 3,0 9,00 5,0
4 1,7536 61,8 108,3725 3,0751 3819,24 55,5 1,2 1,44 2,1
5 1,7404 58,8 102,3355 3,0290 3457,44 56,4 -1,4 1,96 2,5
6 1,7348 47,2 81,8826 3,0095 2227,84 60,0 -5,7 32,49 10,5
7 1,6928 55,2 93,4426 2,8656 3047,04 57,5 -8,2 67,24 16,6
Итого 12,3234 384,3 675,9974 21,7078 21338,41 403,4 -1,8 200,78 56,3
Ср. зн. 1,7605 54,9 96,5711 3,1011 3048,34 X X 28,68 8,0
σ 0,0425 5,86 X X X X X X X
σ 2 0,0018 34,339 X X X X X X X

Значения параметров регрессии A и В составили:


Получено линейное уравнение: . Произведем потенцирование полученного уравнения и запишем его в обычной форме:

Тесноту связи оценим через индекс корреляции :

В экономических исследованиях результативный признак У формируется под влиянием нескольких факторных признаков
Х 1 , Х 2 , …, Х р. Уравнение множественной регрессии имеет вид
у = f(х 1 , х 2 , …, х р).

Теоретическое линейное уравнение регрессии имеет вид

Значение каждого регрессионного коэффициента равно среднему изменению y при увеличении x j на одну единицу при условии, что все остальные факторы остались неизменными. Для проведения анализа в рамках линейной модели множественной регрессии необходимо выполнение ряда предпосылок МНК, некоторые из них аналогичны парной регрессии:

1 0 . E (ε i) = 0 (i=1,...,n).

2 0 .

Первая строчка означает гомоскедастичность остатков, вторая предполагает отсутствие автокорреляции.

3 0 . X 1 , ... , Х п –неслучайные величины.

4 0 . Модель является линейной относительно параметров.

5 0 . Отсутствие мультиколлинеарности: между объясняющими переменными отсутствует строгая линейная зависимость, что играет важную роль в отборе факторов при решении проблемы спецификации модели.

6 0 . Ошибки имеют нормальное распределение . Выполнимость этого условия нужна для проверки статистических гипотез и построения интервальных оценок.

Для нахождения коэффициентов линейной множественной регрессии представим данные наблюдений и параметры модели в матричной форме:

n -мерный транспонированный вектор – столбец наблюдений зависимой переменной;

– (p+1) -мерный транспонированный вектор – столбец параметров уравнения регрессии;

n -мерный транспонированный вектор – столбец отклонений выборочных значений y i .

Тогда значения независимых переменных запишем в виде прямоугольной матрицы размерности :

В этих обозначениях эмпирическое уравнение регрессии выглядит так: . Тогда функционал, который минимизируется по МНК, равен: Наилучшей оценкой является вектор .

Уравнение регрессии в стандартизованном масштабе имеет вид

где ,

σ -среднее квадратичное отклонение, β j – стандартизованные коэффициенты регрессии, которые показывают, насколько значений средних квадратичных отклонений (с.к.о.) изменится в среднем результат, если соответствующий фактор х j изменится на одно с.к.о. при неизменном среднем уровне других факторов.

Применяя МНК, после соответствующих преобразований получим систему нормальных уравнений:

Сравнивая коэффициенты β j между собой, можно ранжировать факторы по силе их воздействия на результат, а также использовать коэффициенты при отсеве факторов – из модели исключаются факторы с наименьшим значением β j .



Коэффициенты «чистой» регрессии b j связаны с
β -коэффициентами формулой .

Как и в случае парной регрессии, проверка гипотезы о статистической значимости уравнения регрессии осуществляется на основе дисперсионного анализа: Н 0: D факт = D ост против альтернативной гипотезы Н 1: D факт > D ост . При этом строится
F -статистика:

.

Если F наб > F табл (α; р; n p 1) , то Н о отклоняется, т. е. факторная дисперсия превышает остаточную, уравнение регрессии является статистически значимым.

Для проверки общего качества уравнения регрессии используется также коэффициент детерминации R 2 , который рассчитывается аналогично парой регрессии. Анализ статистической значимости коэффициента детерминации проводится на основе проверки Н 0 : R 2 = 0 против альтернативной гипотезы Н 1 : R 2 > 0. Для проверки данной гипотезы используется следующая
F -статистика:

.

Если F наб > F табл (α; р; n p 1) , то Н о отклоняется, что равносильно статистической значимости R 2 .

Наряду с коэффициентом детерминации используется скорректированный коэффициент детерминации

.

Статистическая значимость параметров множественной линейной регрессии с р факторами: Н 0: b j = 0 проверяется на основе t -статистики:

, ,

где - j -й диагональный элемент обратной матрицы , . Если |t наб | < t таб (1 α ; n p 1 ), параметр считается статистически незначимым и Н 0 не может быть отвергнута, фактор х j линейно не связан с результатом, поэтому переменную х j рекомендуется исключить из уравнения регрессии.

Доверительные интервалы для значимых коэффициентов находятся по формуле

Пусть объясняющие переменные принимают значение
Х Т 0 = (1; х 1 0 ; х 2 0 ;…;х р 0). Тогда доверительный интервал для функции регрессии равен

где .

Доверительный интервал для индивидуальных значений зависимой переменной:

где .

При исключении или добавлении факторов для проверки статистической значимости оставшихся коэффициентов используют статистику Фишера. Проверяя гипотезу , можно определить, существенно ли ухудшилось качество описания поведения зависимой переменной. Для этого используют статистику



.

Если F наб > , то Н о должна быть отклонена. В этом случае одновременное исключение из рассмотрения k объясняющих переменных некорректно.

Для оценки тесноты между признаками применяются парные, частные и множественные коэффициенты корреляции и детерминации.

Для линейной регрессии множественный коэффициент корреляции можно определить по формулам:

- , где Δr – определитель матрицы парных коэффициентов корреляции: ,

а Δr 11 – определитель, который остаётся после вычеркивания из матрицы коэффициентов парной корреляции первого столбца и первой строки;

Для модели, в которой присутствуют две независимые переменные, формула упрощается .

Коэффициенты частной корреляции для трехфакторной модели рассчитаем по формулам , , .

Существует тесная связь между коэффициентом частной корреляции и коэффициентом детерминации R 2 :

.

Пример 2. Исследуется зависимость между стоимостью грузовой автомобильной перевозки Y (тыс. р.), весом груза X 1 (т) и расстоянием Х 2 (тыс. км) по 20 транспортным компаниям. Исходные данные приведены в табл. 6.

Таблица 6

Y X 1 X 2 Y X 1 X 2
1,3
1,1 0,35
2,55 5,8 1,65
7,5 1,7 13,8 3,5 2,9
2,4 6,2 2,8 0,75
1,55 7,9 0,6
11,5 0,6 5,4 3,4 0,9
2,3 2,5
15,8 1,4 25,5 2,2
2,1 7,1 4,5 0,95

Требуется:

1. Построить выборочное уравнение линейной множественной регрессии. Привести полученное уравнение к стандартизированному виду, сделать выводы о влиянии факторов на результирующий фактор. Определить коэффициенты эластичности.

2. Проверить статистическую значимость уравнения регрессии с помощью дисперсионного анализа и через коэффициент детерминации.

3. Проверить статистическую значимость параметров уравнения регрессии и для значимых коэффициентов построить доверительные интервалы.

5. Определите парные и частные коэффициенты корреляции, проверить их на значимость. Для значимых коэффициентов постройте доверительные интервалы.

7. Найти прогнозное значение у i , если х 1 =10, х 2 =5 , и доверительные интервалы для среднего и индивидуального значения у 0 .

Решение

1. Модель специфицируем в виде линейной функции:

Вектор В найдем по формуле :

Матрица Х Х Т

1,1 4,5
1,1 2,2 0,95
2,2
4,5 0,95

Х Т *Х (Х Т *Х) -1 Х Т *У

277,2 31,8 0,344766 -0,00562 -0,13643 454,5
277,2 5860,9 459,235 -0,00562 0,000503 -0,00085 8912,57
31,8 459,235 61,455 -0,13643 -0,00085 0,093251 908,555
-17,3133
1,156057
5,10401

Следовательно, уравнение регрессии имеет вид

Y = 17,31 + 1,16 X 1 + 15,10 Х 2 .

Для приведения к стандартному виду построим вспомогательную таблицу (табл. 7).

Таблица 7

Y X 1 X 2 Y 2 X 2 1 X 2 2
1,1 1,21
2,55 6,5025
7,5 1,7 56,25 2,89
2,4 5,76
1,55 2,4025
11,5 0,6 132,25 0,36
2,3 5,29
15,8 1,4 249,64 1,96
2,1 4,41
1,3 1,69
0,35 0,1225
5,8 1,65 33,64 2,7225
13,8 3,5 2,9 190,44 12,25 8,41
6,2 2,8 0,75 38,44 7,84 0,5625

Окончание табл.7

Y X 1 X 2 Y 2 X 2 1 X 2 2
7,9 0,6 62,41 0,36
5,4 3,4 0,9 29,16 11,56 0,81
2,5 6,25
25,5 2,2 650,25 4,84
7,1 4,5 0,95 50,41 20,25 0,9025
Σ 454,5 277,2 31,8 18206,89 5860,9 61,45

; 0,74;

= 0,77; = 0,56;

t Y = 0,77t x1 + 0,56t x2 .

То есть с ростом веса груза на одну сигму при неизменном расстоянии стоимость грузовых автомобильных перевозок увеличивается в среднем на 0,77 сигмы. С ростом расстояния на одну сигму при неизменном весе груза стоимость грузовых автомобильных перевозок увеличивается в среднем на 0,56 сигмы. Поскольку 0,77 > 0,56, то влияние веса груза на стоимость грузовых автомобильных перевозок больше, чем фактора расстояния.

Найдем коэффициенты эластичности:

= ,

= 1,05.

С увеличением среднего веса груза на 1% от его среднего уровня средняя стоимость перевозок возрастет на 0,71% от своего среднего уровня. При увеличении среднего расстояния перевозок на 1% средняя стоимость доставки груза увеличится на 1,05%. Поскольку 0,71 < 1,05, то влияние веса груза на стоимость грузовых автомобильных перевозок меньше, чем фактора расстояния. Различия в силе влияния факторов на результат, полученные при сравнении уравнения регрессии в стандартизованном масштабе и коэффициентов эластичности, объясняются тем, что коэффициент эластичности рассчитывается исходя из соотношения средних, а стандартизованные коэффициенты регрессии - из соотношения средних квадратических отклонений.

2. Проверим на значимость уравнение регрессии, для этого составим таблицу (табл. 8).

Таблица 8

|(y-y р)/y|
53,45 799,193 6,00 0,0462095
17,82 45,293 3,31 0,1123748
42,04 2628,613 1021,76 0,4322848
10,64 231,953 9,86 0,4234144
35,13 105,473 4,537 0,0642756
44,34 10,693 336,17 0,7018371
14,91 126,113 11,63 0,2930625
46,38 856,7329 31,58 0,10909
18,87 48,025 9,43 0,193736
16,68 216,973 75,34 1,0896515
26,64 10,693 0,41 0,0230416
0,695 279,893 28,143 0,8850491
11,045 286,625 27,51 0,9097353
30,5 79,7449 278,89 1,2126453
-2,777 273,241 80,587 1,4432832
11,43 219,929 12,461 0,4432973
0,184 300,329 27,207 0,9609482
48,24 1106,893 60,218 0,1394274
26,31 7,673 0,6561 0,0321573
2,215 244,297 23,863 0,684825
Сум. 454,732 7878,378 2049,568 10,200346

Проверка с помощью дисперсионного анализа:

Н 0: D факт = D ост ; Н 1: D факт > D ост ;

Q об = 7878,378; Q ост =2049,558; Q факт = 5828,82;

F н = (5828,82/2049,56)·(17/2) = 24,17.

Так как F н > F кр (0,05; 2; 17) = 3,59 , то нулевая гипотеза отклоняется и уравнение множественной регрессии статистически значимо.

Проверка с помощью коэффициента детерминации:

; .

Он показывает, что 74% различий стоимости всех перевозок объясняется вариацией их грузоподъемности и расстояния, а
16% - другими, неучтенными факторами. Скорректированный коэффициент детерминации достаточно велик, следовательно, смогли учесть в модели наиболее существенные факторы, определяющие стоимость перевозки:

Н 0 : R 2 = 0 ; Н 1 : R 2 > 0.

.

Так как F фак > F кр (0,05; 2; 17) = 3,59, то Н 0 отклоняется, коэффициент детерминации отличается от нуля, следовательно, уравнение регрессии статистически значимо.

3. Проверим статистическую значимость коэффициентов регрессии:

Н 0: b 0 = 0; Н 1: b 0 ≠ 0.

; ;

; t кр (0,95; 17)= 2,11.

Так как t наб > t крит , следовательно, коэффициент значимо отличается от нуля, доверительный интервал (– 30,92; – 3,71).

Н 0: b 1 = 0; Н 1: b 1 ≠ 0.

; t кр (0,95; 17)= 2,11.

Так как t наб > t крит , следовательно, коэффициент значимо отличается от нуля,доверительный интервал (0,64; 1,68).

Н 0: b 2 = 0; Н 1: b 2 ≠ 0.

; t кр (0,95; 17)= 2,11.

Так как t наб > t крит , следовательно, коэффициент значимо отличается от нуля,доверительный интервал (8,03; 22,18).

4.Определим ошибку аппроксимации А = = 51%. Фактические значения стоимости перевозок от расчетных данных по уравнению регрессии в среднем отличаются на 51% .

5.Определим парные и частные коэффициенты корреляции. Для этого построим таблицу (табл. 9).

Таблица 9

Y X 1 X 2 Y 2 x 1 2 x 2 2 yx 1 yx 2 х 1 x 2
1,1 1,21 17,6 17,6
2,55 6,5025 188,7 45,9
7,5 1,7 56,25 2,89 12,75 3,4
2,4 5,76 79,2 33,6
1,55 2,4025 40,3 51,15
11,5 0,6 132,25 0,36 6,9
2,3 5,29 119,6 57,5
15,8 1,4 249,64 1,96 205,4 22,12 18,2
2,1 4,41 16,8 4,2
1,3 1,69 33,8 27,3
0,35 0,1225 2,1 3,85
5,8 1,65 33,64 2,7225 17,4 9,57 4,95
13,8 3,5 2,9 190,44 12,25 8,41 48,3 40,02 10,15
6,2 2,8 0,75 38,44 7,84 0,5625 17,36 4,65 2,1
7,9 0,6 62,41 0,36 134,3 4,74 10,2
5,4 3,4 0,9 29,16 11,56 0,81 18,36 4,86 3,06
2,5 6,25
25,5 2,2 650,25 4,84 229,5 56,1 19,8
7,1 4,5 0,95 50,41 20,25 0,9025 31,95 6,745 4,275
Ср. знач. 22,73 13,86 1,59 910,34 293,05 3,07 445,63 45,43 22,96

Матрица парных коэффициентов корреляции имеет вид .

Проверим их на значимость Н 0: ρ = 0 при Н 1: ρ ≠ 0

> t кр (0,05; 18) = 2,1 -гипотеза Н 0 ;

> t кр (0,05; 18) = 2,1 -гипотеза Н 0 отвергается, коэффициент корреляции статистически значим;

< t кр (0,05; 18) = 2,1 -гипотеза Н 0 не отвергается, коэффициент корреляции статистически не значим.

На основе матрицы корреляции найдем еще раз коэффициент детерминации: Δ = 0,256; Δ 11 = 0,984; R 2 = 1 – 0,246/0,984 =
= 0,74; .
Величина множественного коэффициента детерминации свидетельствует о сильной взаимосвязи стоимости перевозки с весом груза и расстоянием, на которое он перевозится. Множественный коэффициент детерминации можно рассчитать по формулам

Рассчитаем частные коэффициенты корреляции. Коэффициенты частной корреляции характеризуют тесноту связи между двумя переменными, исключив влияние третьей переменной:

;

;

.

Связь между стоимостью перевозок и весом груза прямая и тесная, между стоимостью перевозок и расстоянием прямая и тесная, между весом груза и расстоянием обратная и средняя. Проверим их на значимость Н 0: ρ = 0 при Н 1: ρ ≠ 0

> t кр (0,05; 18) = 2,1 -гипотеза Н 0

> t кр (0,05; 18) = 2,1 -гипотеза Н 0 отвергается, коэффициент корреляции статистически значим;

> t кр (0,05; 18) = 2,1 -гипотеза Н 0 отвергается, коэффициент корреляции статистически значим.

Для значимых коэффициентов корреляции построим доверительный интервал. Для этого вычислим ; ; ; ; .

Тогда ;

6. Рассчитаем частные F -критерии Фишера и оценим целесообразность включения в уравнение одного из факторов после другого:

Н 0: R 2 = r 2 yx1 ; Н 1: R 2 ≠ r 2 yx1.

F часх1 = > F кр = 4,45 , следовательно, приходим к выводу о целесообразности включения в модель фактора х 2 после фактора х 1 .

Н 0: R 2 = r 2 yx2 ; Н 1: R 2 ≠ r 2 yx2.

F часх2 = > F кр = 4,45 , следовательно, приходим к выводу о нецелесообразности включения в модель фактора х 1 после фактора х 2 .

7. Стоимость грузовых перевозок при весе груза 10 т и расстояние 5 км , т.е. x 0 T =(1; 10; 5), составит y 0 = – 17,31 + 1,16 10 +
+ 15,10 5 = 69,77 тыс. р.

Доверительный интервал для среднего составит
(44,77; 94,76 ), где Х 0 Т ·(Х Т ·Х) -1 ·Х о = 1,16; ; t кр (0,95; 17) = 2,11.

Доверительный интервал для индивидуального значения ― (35,69; 103,85 ), где .

Вопросы для самоконтроля

1. Перечислите предпосылки МНК. Каковы последствия их невыполнимости либо выполнимости? В чем суть наилучших линейных несмещенных оценок?

2. Сформулируйте алгоритм определения коэффициентов регрессии в матричной форме. Что характеризуют коэффициенты регрессии?

3. Опишите схему проверки гипотез о величинах коэффициентов регрессии. В чем суть статистической значимости коэффициентов регрессии? Опишите «грубое» правило анализа статистической значимости коэффициентов регрессии.

4. Как определяются стандартные ошибки регрессии и коэффициентов регрессии? Приведите схему определения интервальных оценок коэффициентов регрессии.

5. Как осуществляется анализ качества эмпирического уравнения множественной линейной регрессии?

6. Объясните суть коэффициента детерминации множественной регрессии. В каких пределах он изменяется? Сформулируйте схему проверки статистической значимости коэффициента детерминации.

7. Чем скорректированный коэффициент детерминации отличается от обычного?

8. Как строится и что позволяет определить доверительный интервал для условного математического ожидания зависимой переменной? В чем суть предсказания индивидуальных значений зависимой переменной?

9. Сформулируйте критерий проверки целесообразности включения или исключения независимых факторов.

10. Что называется линейным коэффициентом множественной корреляции и как с помощью матрицы парных коэффициентов корреляции его можно определить?

11. Как определяются частные коэффициенты корреляции? Как связаны коэффициент частной корреляции и коэффициент детерминации?

12. Что представляет собой фиктивная переменная? Каковы основные причины использования фиктивных переменных в регрессионных моделях? В чем суть «ловушки» фиктивных переменных?

13. Что представляют собой ANOVA-модели? Что представляют собой ANCOVA-модели? Приведите примеры их использования.

14. Объясните значение термина «мультиколлинеарность». В чем отличие совершенной и несовершенной мультиколлинеарности? Каковы последствия мультиколлинеарности?

15. Как можно обнаружить и устранить мультиколлинеарность?

16. В чем сущность гетероскедастичности? Сформулируйте последствия гетероскедастичности.

17. Приведите схемы теста ранговой корреляции Спирмена и Голдфелда – Квандта для проверки на гомоскедастичность.

18. В чем суть метода взвешенных наименьших квадратов?

19. Что такое автокорреляция? Каковы причины и последствия автокорреляции?

20. Опишите схему использования статистики Дарбина – Уотсона. Перечислите ограничения ее использования.


Временные ряды

Экономические процессы и явления, их связи и зависимости могут рассматриваться как в пространстве, так и во времени, путем построения и анализа одного или нескольких временных рядов.

Временной ряд (динамический ряд или ряд динамики) ― совокупность изучаемого показателя в последовательные моменты времени. Отдельные наблюдения называются уровнями ряда у t , t=1,…,n, где n – число уровней. Под длиной ряда понимают время, прошедшее от начального момента наблюдения до конечного. Каждый уровень временного ряда формируется под воздействием большого числа факторов, которые можно условно разделить на три группы:

Факторы, формирующие тенденцию ряда (Т ). Тенденция характеризует долговременное воздействие факторов на динамику показателя. Тенденция может быть возрастающей или убывающей;

Факторы, формирующие циклические колебания ряда (S ). Циклические колебания могут носить сезонный характер или отражать динамику конъюнктуры рынка, а также фазу бизнес-цикла, в которой находится экономика страны;

Случайные факторы (E ), отражающие влияние, не поддающееся учету и регистрации.

Модель, в которой временной ряд представлен как сумма перечисленных выше компонент, называется аддитивной моделью временного ряда (), в случае произведения – мультипликативной моделью ().

Основная задача эконометрического исследования временного ряда – выявление количественного выражения каждой из компонент и использование полученной информации для прогноза будущих значений ряда или построение модели взаимосвязи двух или более временных рядов.

Для выявления наличия той или иной неслучайной компоненты исследуется корреляционная зависимость между последовательными уровнями временного ряда, или автокорреляция уровней ряда

где

Число периодов, по которым рассчитывается коэффициент автокорреляции, называют лагом. Последовательность коэффициентов автокорреляции уровней различных порядков, начиная с первого, называется автокорреляционной функцией временного ряда. График зависимости ее значений от величины лага называется коррелограммой.

Если наиболее высоким является коэффициент автокорреляции первого порядка, очевидно, исследуемый ряд содержит только тенденцию. Если наиболее высоким оказался коэффициент автокорреляции порядка τ , ряд содержит циклические колебания с периодичностью в τ моментов времени. Если ни один из коэффициентов автокорреляции не является значимым, то либо ряд не содержит тенденции и циклических колебаний и имеет только случайную составляющую, либо ряд содержит сильную нелинейную тенденцию, для исследования которой нужно провести дополнительный анализ.

В случае, если при анализе структуры временного ряда обнаружена только тенденция и отсутствуют циклические колебания, следует приступать к моделированию тенденции. Если же во временном ряде имеют место и циклические колебания, прежде всего следует исключить именно циклическую составляющую и лишь затем приступать к моделированию тенденции.

Построение аналитической функции для моделирования тенденции (тренда) временного ряда называют аналитическим выравниванием временного ряда. Тенденция во времени может принимать разные формы, для ее формализации используются следующие функции:

Линейная: ;

Полиномиальная: , где
а 1 - линейный прирост, а 2 - ускорение роста, а 3 - изменение ускорения роста;

Гипербола: ;

Экспоненциальный тренд: (или ), где а - начальный уровень, e b - средний за единицу времени коэффициент роста;

Степенной тренд: .

Параметры каждого из трендов можно определить обычным МНК, используя в качестве независимой переменной время t , а в качестве зависимой переменной – фактические уровни временного ряда y t . Для нелинейных трендов предварительно проводят стандартную процедуру линеаризации.

Для выявления полиномиального тренда применяется метод последовательных разностей, состоящий в вычислении последовательных разностей Δt к при к = 1, 2,…,n:

Δt = y t - y t-1 ; Δt 2 = Δ t - Δ t-1 ;…; Δt к = Δt (к-1) – Δ(t-1) (к-1) .

Если примерно одинаковы все абсолютные приросты Δt , то имеем линейный тренд; если абсолютные ускорения Δt 2 , то тренд - парабола. Анализ цепных коэффициентов роста К t = y t /y t-1 позволяет выявить наличие экспоненциального или степенного тренда.

Пример 3. Пусть имеются данные (табл. 10) об объёмах потребления электроэнергии жителями района за 16 кварталов, м. квт.-ч:

Таблица 10

t y t t y t
4,4 5,6
6,4
7,2
4,8 6,6
10,8

Требуется:

1. Построить график временного ряда и определить автокорреляционную функцию. Определить составляющие временного ряда.

2. Если ряд содержит сезонную компоненту, то выявить и устранить ее с помощью статистических методов, построив аддитивную модель.