Корреляционно-регрессионный анализ: пример, задачи, применение. Метод корреляционно-регрессионного анализа. Многофакторный регрессионный и корреляционный анализ линейный многофакторный

Явления общественной жизни складываются под воздействием целого ряда факторов, то есть являются многофакторными. Между факторами существуют сложные взаимосвязи, поэтому их нельзя рассматривать как простую сумму изолированных влияний. Изучение связи между тремя и более связанными между собой признаками носит название многофакторного корреляционно-регрессионного анализа.

Впервые это понятие было введено Пирсоном в 1908 году.

Многофакторный корреляционно-регрессионный анализ включает в себя следующие этапы:

  • - теоретический анализ, направленный на выбор факторных признаков, существенных для поставленной задачи;
  • - выбор формы связи (уравнения регрессии);
  • - отбор существенных факторных признаков, удаление из модели несущественных, объединение нескольких факторных признаков в один (этот признак не всегда имеет содержательную интерпретацию);
  • - вычисление параметров уравнения регрессии и коэффициентов корреляции;
  • - проверка адекватности полученной модели;
  • - интерпретация полученных результатов.

На этапе отбора факторных признаков необходимо учитывать, что даже если числовые данные свидетельствуют о наличии связи между двумя величинами, это может быть лишь отражением того факта, что они обе зависят от одной или нескольких величин (например, длина волос - рост - пол; синдром пингвина).

Для любой формы зависимости, особенно в условиях малого объема исследуемой совокупности можно выбрать целый ряд уравнений, которые в той или иной степени будут описывать эти связи. Практика построения многофакторных моделей взаимосвязи показывает, что обычно для описания зависимостей между социально-экономическими явлениями используют линейные, полиномиальные, степенные, гиперболические функции. При выборе модели пользуются опытом предшествующих исследований или исследований в смежных областях.

Преимуществом линейных моделей является простота расчета параметров и экономической интерпретации. Зависимости, нелинейные по переменным (квазилинейные) могут быть приведены к линейной форме путем замены переменных. Параметры уравнения множественной регрессии находятся по методу наименьших квадратов из системы нормальных уравнений. В условиях использования ЭВМ определение параметров, как для линейных, так и для нелинейных зависимостей может быть осуществлено численными методами.

Важным этапом построения уже выбранного уравнения множественной регрессии является отбор факторных признаков. Для адекватного отражения моделируемого процесса в модель необходимо включить максимальное количество факторов, но, с другой стороны, избыточное количество параметров затрудняет работу с моделью. Кроме того, для того, чтобы полученные результаты были достаточно надежными и воспроизводимыми на каждый факторный признак должно приходиться 10-20 наблюдений. Поэтому необходим отбор факторов на основе анализа их значимости.

Отбор факторов может быть проведен на основании:

метода пошагового исключения;

метода пошаговой регрессии.

Сущность метода пошагового исключения заключается в последовательном исключении из уравнения регрессии тех факторов, чьи параметры оказались незначимыми при проверке по критерию Стьюдента.

Использование метода пошаговой регрессии заключается в том, что факторы вводятся в уравнение регрессии поочередно, и при этом оценивается изменение суммы квадратов остатков и множественного коэффициента корреляции. Фактор считается незначимым и исключается из рассмотрения, если при его включении в уравнение регрессии не изменилась сумма квадратов остатков, даже если при этом изменились коэффициенты регрессии. Фактор считается значимым и включается в модель, если при этом увеличился коэффициент множественной корреляции и уменьшилась сумма квадратов остатков, даже если при этом коэффициенты регрессии изменились несущественно.

При построении моделей регрессии может возникнуть проблема, связанная с мультиколлинеарностью. Сущность этой проблемы заключается в том, что между факторными признаками существует значительная линейная связь. Мультиколлинеарность возникает в том случае, когда факторы выражают одну и ту же сторону явления или один является составным элементом другого. Это приводит к искажению рассчитываемых параметров регрессии, осложняет выделение существенных факторов и изменяет смысл экономической интерпретации коэффициентов регрессии. Индикатором мультиколлинеарности служат выборочные коэффициенты корреляции () характеризующие тесноту связи между факторами и:

Устранение мультиколлинеарности может реализовываться путем исключения из корреляционной модели одного или нескольких линейно-связанных признаков или преобразование исходных факторных признаков в новые, укрупненные факторы.

После построения уравнения регрессии проводится проверка адекватности модели, включающая в себя проверку значимости уравнения регрессии и коэффициентов регрессии.

Вклад каждого фактора в изменение результативного признака оценивают по коэффициентам регрессии, по частным коэффициентам эластичности каждого фактора и по стандартизированным частным - коэффициентам регрессии.

Коэффициент регрессии показывает абсолютный уровень влияния фактора на результативный показатель при среднем уровне всех прочих входящих в модель факторов. Однако тот факт, что коэффициенты измеряются (в общем случае) в разных единицах измерения, не позволяет сравнить степени влияния признаков. Пример. Сменная добыча угля (т) зависит от мощности пласта (м) и уровня механизации (%):

Частные коэффициенты эластичности показывают, на сколько процентов в среднем изменяется анализируемый показатель с изменением на 1% каждого фактора при фиксированном положении других:

где - коэффициент регрессии при - том факторе, - среднее значение -того фактора, - среднее значение результативного признака.

· коэффициенты показывают, на какую часть среднего квадратического отклонения изменяется результативный признак с изменением - того факторного признака на величину его среднего квадратического отклонения.

где - среднее квадратическое отклонение -того фактора, - среднее квадратическое отклонение результативного признака.

Таким образом, по перечисленным показателям выявляют факторы, в которых заложены наибольшие резервы изменения результативного признака.

Кроме того, для выявления экстремальных наблюдений может быть проведен анализ остатков.

В рамках многомерного корреляционного анализа рассматривают две типовые задачи:

  • - оценка тесноты связи двух переменных при фиксировании или исключении влияния всех остальных;
  • - оценка тесноты связи одной переменной со всеми остальными.

В рамках решения первой задачи определяются частные коэффициенты корреляции - показатели, характеризующие тесноту связи между тым и тым признаками при элиминации всех остальных признаков.

В многомерном корреляционном анализе рассматриваются две типовые задачи:

Определение тесноты связи одной переменной (результативного признака) с совокупностью всех остальных переменных (факторных признаков), включенных в анализ.

Определение тесноты связи между двумя переменными при фиксировании или исключении влияния остальных переменных.

Эти задачи решаются при помощи множественных и частных коэффициентов корреляции.

Для их определения может быть использована матрица выборочных коэффициентов корреляции:

где - количество признаков, - выборочный парный коэффициент корреляции.

Тогда теснота взаимосвязи результативного признака с совокупностью факторных признаков в целом может быть измерена при помощи множественного (совокупного) коэффициента корреляции. Оценкой этого показателя является выборочный множественный коэффициент корреляции:

где - определитель матрицы

С помощью множественного коэффициента корреляции может быть сделан вывод о тесноте взаимосвязи, но не о ее направлении.

Если факторные признаки коррелируют друг с другом, то на величине парного коэффициента корреляции частично сказывается влияние других переменных. В связи с этим возникает задача исследовать частную корреляцию между переменными при исключении (элиминировании) влияния одной или нескольких других переменных. Выборочный частный коэффициент корреляции между переменными может быть рассчитан по формуле:

где - алгебраическое дополнение соответствующего элемента корреляционной матрицы

Частный коэффициент корреляции может принимать значения от -1 до 1.

Линейный многофакторный регрессионный анализ На практике при анализе результатов научных исследований часто имеет место ситуация, когда количественное изменение изучаемого явления (функции отклика) зависит не от одного, а от нескольких причин (факторов). При проведении экспериментов в такой множественной ситуации исследователь записывает показания приборов о состоянии функции отклика (y) и всех факторов, от которых она зависит (x). Результатами наблюдений являются уже не два вектор-столбца (x и y), как при проведении однофакторного регрессионного анализа, а матрица результатов наблюдений. где yi – значение функции отклика в i-ом эксперименте, Xij – значение j-го фактора на i-ом эксперименте, n – количество экспериментов, p – количество факторов Задача многофакторного линейного регрессионного анализа состоит в построении такого уравнении плоскости в (p+1)-мерном пространстве, отклонения результатов наблюдений yi от которой были бы минимальными.

Или, другими словами, следует вычислить значения коэффициентов b 0, bj в уравнении на которых достигается минимум Для отыскания минимума необходимо найти частные производные по всем неизвестным b 0, bj и приравнять их нулю. Полученные уравнения образуют систему нормальных уравнений, которая в матричной форме имеет вид где Из этого уравнения можем найти вектор-столбец коэффициентов регрессии: , каждый элемент которого можно найти по формуле: В которой cij – элементы обратной матрицы (XTX)-1.

Проверка значимости коэффициентов регрессии Проверка значимости уравнения регрессии мало отличается от соответствующей проверки однофакторной регрессии. Вычисляют остаточную дисперсию по формуле: которую сравнивают с дисперсией среднего Фишера: с помощью критерия с числом степеней свободы в числителе (n-1) и в знаменателе (n-р-1). Значимость коэффициентов регрессии b 0, bj проверяют по критерию Стьюдента: (, где - диагональные элементы матрицы).

Парные коэффициенты корреляции Корреляционный анализ начинают с вычисления парных коэффициентов корреляции, характеризующих тесноту связи между двумя величинами. В многофакторной ситуации вычисляют два типа парных коэффициентов корреляции: 1) - коэффициенты, определяющие тесноту связи между функцией отклика и одним из факторов; 2) - коэффициенты, показывающие тесноту связи между одним из факторов и фактором (). , где Значимость парных коэффициентов корреляции можно проверить по критерию Стьюдента: , где

Корреляционная матрица Значение парного коэффициента корреляции изменяется от - 1 до +1. Если, например, коэффициент - величина отрицательная, то это значит, что уменьшается с увеличением. Если положителен, то увеличивается с увеличением. Если один из коэффициентов окажется равным 1, то это означает, что факторы и функционально связаны между собой и тогда целесообразно один из них исключить из рассмотрения, причем оставляют тот фактор, у которого коэффициент больше. После вычисления всех парных коэффициентов корреляции и исключения из рассмотрения того или иного фактора можно построить матрицу коэффициентов корреляции вида:

Частные коэффициенты корреляции Используя парных коэффициентов корреляции матрицу, можно вычислить частные коэффициенты корреляции, которые показывают степень влияния одного из факторов на функцию отклика при условии, что остальные факторы закреплены на постоянном уровне. Частные коэффициенты корреляции вычисляются по формуле где - определитель матрицы, образованной из матрицы парных коэффициентов корреляции вычеркиванием 1 -й строки j-го столбца, определитель - j-ой строки j-го столбца. Как и парные коэффициенты, частные коэффициенты корреляции изменяются от -1 до +1. Значимость и доверительный интервал для коэффициентов частной корреляции определяются так же, как для коэффициентов парной корреляции с числом степеней свободы v = n – k - 2, где k = р - 1 - порядок частного коэффициента парной корреляции.

Коэффициент множественной корреляции и его значимость Для изучения тесноты связи между функцией отклика и несколькими факторами используют коэффициент множественной корреляции R. Коэффициент множественной корреляции служит и для оценки качества предсказания; R всегда положителен и изменяется от 0 до 1. Чем больше R, тем лучше качество предсказаний данной моделью опытных данных. Коэффициент множественной корреляции вычисляется по формуле Значимость коэффициента множественной корреляции проверяют по критерию Стьюдента: , где - среднеквадратическая погрешность коэффициента множественной корреляции: Значимость R можно проверить также и по критерию Фишера: Полученное значение сравнивают с табличным при выбранном уровне значимости и числах степеней свободы v 1 = n - р - 1 и v 2 = p. Если расчетное значение превышает табличное, то гипотезу o равенстве коэффициента множественной корреляции нулю отвергают и связь считают статистически значимой.

Многофакторный нелинейный регрессионный анализ Первый этап нелинейного многофакторного регрессионного анализа - получение полной квадратичной формы. Для этого определяют коэффициенты регрессии b 0, bk и bjk в полиноме Степень уравнения можно повышать до тех пор, пока уменьшается остаточная дисперсия. Задача нелинейной регрессии сводится к задаче линейной регрессии заменой переменных и т. д. Мерой тесноты связи в нелинейной зависимости служит множественное корреляционное отношение, но используя для вычисления у нелинейную форму уравнения. Сравнение множественного корреляционного отношения с коэффициентом множественной корреляции, вычисленным по линейной форме, дает некоторое представление о «кривизне» изучаемой зависимости.

Выбор оптимальной формы регрессии 1) метод полного перебора 2) метод отсеивания факторов При использовании метода исключения переменных уравнение регрессии расширяют сразу до полной квадратичной или, если возможно, до полной кубической формы. Исключение начинают с фактора, имеющего наименьший критерий Стьюдента. На каждом этапе после исключения каждого фактора для нового уравнения регрессии вычисляют множественный коэффициент корреляции, остаточную дисперсию и F-критерий Фишера. Наибольшую трудность представляет решение вопроса, на каком этапе прекратить исключение факторов. Здесь возможны следующие подходы: a) прекратить исключение факторов, когда остаточная дисперсия начнет увеличиваться; b) назначить уровень значимости (0. 05) при вычислении t-критерия Стьюдента для последнего оставляемого фактора. Во втором случае перед началом отсева факторов строят диаграмму ранжирования t-критериев Стьюдента для всех факторов расширенной модели.

3) метод включения факторов При использовании метода включения факторов в уравнение регрессии последовательно включаются факторы (наиболее значимые) пока остаточная дисперсия не увеличивается.

Пример регрессионного анализа Рассмотрим пример многофакторного регрессионного и корреляционного анализа с выбором оптимальной формы регрессии методом исключения эффектов (факторов и парных взаимодействий) на примере построения модели для вычисления ползучести бетона. В этой задаче строится зависимость удельных относительных деформаций ползучести бетона С(t, т) от десяти факторов: . В матрицу исходных данных включены результаты 367 опытов над бетонными образцами, в которых фиксировались значения у = С(t, т) , и следующих 10 факторов: -отношение массы цемента к массе заполнителя в 1 м 3 бетона (Ц/3); - расход цемента на 1 м 3 бетона (Ц); - влажность среды (W); - масштабный фактор (М); - водоцементное отношение (В/Ц); - возраст бетона в момент загружения (т); - время действия нагрузки (t - т); - нормальная густота цементного теста (НГ); - значение напряжений (); - модуль упругости заполнителя (E 3).

Решение Коэффициент корреляции близок к единице, поэтому фактор исключен из рассмотрения; На первом этапе была построена полная квадратичная модель с 54 эффектами. Критерий Фишера для этой модели получился: Затем был произведен 11 -ступенчатый отсев незначимых эффектов, в процессе которого было исключено 28 статистически незначимых по критерию Стьюдента эффектов, в результате была получена модель с 26 эффектами, для которой критерий Фишера возрос незначительно: а остальные параметры оказались хорошими Значимые, связи для наглядности удобно изображать в виде графа. Используя методы теории графов, можно построить таблицу, наглядно показывающую количество статистически значимых связей между функцией отклика и факторами. Такую таблицу называют еще матрицей смежности вершин.

Основная цель регрессионного анализа состоит в определении аналитической формы связи, в которой изменение результативного признака обусловлено влиянием одного или нескольких факторных признаков, а множество всех прочих факторов, также оказывающих влияние на результативный признак, принимается за постоянные и средние значения.
Задачи регрессионного анализа :
а) Установление формы зависимости. Относительно характера и формы зависимости между явлениями, различают положительную линейную и нелинейную и отрицательную линейную и нелинейную регрессию.
б) Определение функции регрессии в виде математического уравнения того или иного типа и установление влияния объясняющих переменных на зависимую переменную.
в) Оценка неизвестных значений зависимой переменной. С помощью функции регрессии можно воспроизвести значения зависимой переменной внутри интервала заданных значений объясняющих переменных (т. е. решить задачу интерполяции) или оценить течение процесса вне заданного интервала (т. е. решить задачу экстраполяции). Результат представляет собой оценку значения зависимой переменной.

Парная регрессия - уравнение связи двух переменных у и х: , где y - зависимая переменная (результативный признак); x - независимая, объясняющая переменная (признак-фактор).

Различают линейные и нелинейные регрессии.
Линейная регрессия: y = a + bx + ε
Нелинейные регрессии делятся на два класса: регрессии, нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам, и регрессии, нелинейные по оцениваемым параметрам.
Регрессии, нелинейные по объясняющим переменным:

Регрессии, нелинейные по оцениваемым параметрам: Построение уравнения регрессии сводится к оценке ее параметров. Для оценки параметров регрессий, линейных по параметрам, Используют метод наименьших квадратов (МНК). МНК позволяет получить такие оценки параметров, при которых сумма квадратов отклонений фактических значений результативного признака у от теоретических минимальна, т.е.
.
Для линейных и нелинейных уравнений, приводимых к линейным, решается следующая система относительно a и b:

Можно воспользоваться готовыми формулами, которые вытекают из этой системы:

Тесноту связи изучаемых явлений оценивает линейный коэффициент парной корреляции для линейной регрессии :

и индекс корреляции - для нелинейной регрессии:

Оценку качества построенной модели даст коэффициент (индекс) детерминации, а также средняя ошибка аппроксимации .
Средняя ошибка аппроксимации - среднее отклонение расчетных значений от фактических:
.
Допустимый предел значений - не более 8-10%.
Средний коэффициент эластичности показывает, на сколько процентов в среднем по совокупности изменится результат у от своей средней величины при изменении фактора x на 1% от своего среднего значения:
.

Задача дисперсионного анализа состоит в анализе дисперсии зависимой переменной:
,
где - общая сумма квадратов отклонений;
- сумма квадратов отклонений, обусловленная регрессией («объясненная» или «факторная»);
- остаточная сумма квадратов отклонений.
Долю дисперсии, объясняемую регрессией, в общей дисперсии результативного признака у характеризует коэффициент (индекс) детерминации R 2:

Коэффициент детерминации - квадрат коэффициента или индекса корреляции.

F-тест - оценивание качества уравнения регрессии - состоит в проверке гипотезы Но о статистической незначимости уравнения регрессии и показателя тесноты связи. Для этого выполняется сравнение фактического F факт и критического (табличного) F табл значений F-критерия Фишера. F факт определяется из соотношения значений факторной и остаточной дисперсий, рассчитанных на одну степень свободы:
,
где n - число единиц совокупности; m - число параметров при переменных х.
F табл - это максимально возможное значение критерия под влиянием случайных факторов при данных степенях свободы и уровне значимости a. Уровень значимости a - вероятность отвергнуть правильную гипотезу при условии, что она верна. Обычно a принимается равной 0,05 или 0,01.
Если F табл < F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл > F факт, то гипотеза Н о не отклоняется и признается статистическая незначимость, ненадежность уравнения регрессии.
Для оценки статистической значимости коэффициентов регрессии и корреляции рассчитываются t-критерий Стьюдента и доверительные интервалы каждого из показателей. Выдвигается гипотеза Н о о случайной природе показателей, т.е. о незначимом их отличии от нуля. Оценка значимости коэффициентов регрессии и корреляции с помощью t-критерия Стьюдента проводится путем сопоставления их значений с величиной случайной ошибки:
; ; .
Случайные ошибки параметров линейной регрессии и коэффициента корреляции определяются по формулам:



Сравнивая фактическое и критическое (табличное) значения t-статистики - t табл и t факт - принимаем или отвергаем гипотезу Н о.
Связь между F-критерием Фишера и t-статистикой Стьюдента выражается равенством

Если t табл < t факт то H o отклоняется, т.е. a, b и не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл > t факт то гипотеза Н о не отклоняется и признается случайная природа формирования а, b или .
Для расчета доверительного интервала определяем предельную ошибку D для каждого показателя:
, .
Формулы для расчета доверительных интервалов имеют следующий вид:
; ;
; ;
Если в границы доверительного интервала попадает ноль, т.е. нижняя граница отрицательна, а верхняя положительна, то оцениваемый параметр принимается нулевым, так как он не может одновременно принимать и положительное, и отрицательное значения.
Прогнозное значение определяется путем подстановки в уравнение регрессии соответствующего (прогнозного) значения . Вычисляется средняя стандартная ошибка прогноза :
,
где
и строится доверительный интервал прогноза:
; ;
где .

Пример решения

Задача №1 . По семи территориям Уральского района За 199Х г. известны значения двух признаков.
Таблица 1.
Требуется: 1. Для характеристики зависимости у от х рассчитать параметры следующих функций:
а) линейной;
б) степенной (предварительно нужно произвести процедуру линеаризации переменных, путем логарифмирования обеих частей);
в) показательной;
г) равносторонней гиперболы (так же нужно придумать как предварительно линеаризовать данную модель).
2. Оценить каждую модель через среднюю ошибку аппроксимации и F-критерий Фишера.

Решение (Вариант №1)

Для расчета параметров a и b линейной регрессии (расчет можно проводить с помощью калькулятора).
решаем систему нормальных уравнений относительно а и b:
По исходным данным рассчитываем :
y x yx x 2 y 2 A i
l 68,8 45,1 3102,88 2034,01 4733,44 61,3 7,5 10,9
2 61,2 59,0 3610,80 3481,00 3745,44 56,5 4,7 7,7
3 59,9 57,2 3426,28 3271,84 3588,01 57,1 2,8 4,7
4 56,7 61,8 3504,06 3819,24 3214,89 55,5 1,2 2,1
5 55,0 58,8 3234,00 3457,44 3025,00 56,5 -1,5 2,7
6 54,3 47,2 2562,96 2227,84 2948,49 60,5 -6,2 11,4
7 49,3 55,2 2721,36 3047,04 2430,49 57,8 -8,5 17,2
Итого 405,2 384,3 22162,34 21338,41 23685,76 405,2 0,0 56,7
Ср. знач. (Итого/n) 57,89 54,90 3166,05 3048,34 3383,68 X X 8,1
s 5,74 5,86 X X X X X X
s 2 32,92 34,34 X X X X X X


Уравнение регрессии: у = 76,88 - 0,35х. С увеличением среднедневной заработной платы на 1 руб. доля расходов на покупку продовольственных товаров снижается в среднем на 0,35 %-ных пункта.
Рассчитаем линейный коэффициент парной корреляции:

Связь умеренная, обратная.
Определим коэффициент детерминации:

Вариация результата на 12,7% объясняется вариацией фактора х. Подставляя в уравнение регрессии фактические значения х, определим теоретические (расчетные) значения . Найдем величину средней ошибки аппроксимации :

В среднем расчетные значения отклоняются от фактических на 8,1%.
Рассчитаем F-критерий:

поскольку 1< F < ¥ , следует рассмотреть F -1 .
Полученное значение указывает на необходимость принять гипотезу Но о случайной природе выявленной зависимости и статистической незначимости параметров уравнения и показателя тесноты связи.
1б. Построению степенной модели предшествует процедура линеаризации переменных. В примере линеаризация производится путем логарифмирования обеих частей уравнения:


где Y=lg(y), X=lg(x), C=lg(a).

Для расчетов используем данные табл. 1.3.

Таблица 1.3

Y X YX Y 2 X 2 A i
1 1,8376 1,6542 3,0398 3,3768 2,7364 61,0 7,8 60,8 11,3
2 1,7868 1,7709 3,1642 3,1927 3,1361 56,3 4,9 24,0 8,0
3 1,7774 1,7574 3,1236 3,1592 3,0885 56,8 3,1 9,6 5,2
4 1,7536 1,7910 3,1407 3,0751 3,2077 55,5 1,2 1,4 2,1
5 1,7404 1,7694 3,0795 3,0290 3,1308 56,3 -1,3 1,7 2,4
6 1,7348 1,6739 2,9039 3,0095 2,8019 60,2 -5,9 34,8 10,9
7 1,6928 1,7419 2,9487 2,8656 3,0342 57,4 -8,1 65,6 16,4
Итого 12,3234 12,1587 21,4003 21,7078 21,1355 403,5 1,7 197,9 56,3
Среднее значение 1,7605 1,7370 3,0572 3,1011 3,0194 X X 28,27 8,0
σ 0,0425 0,0484 X X X X X X X
σ 2 0,0018 0,0023 X X X X X X X

Рассчитаем С иb:


Получим линейное уравнение:.
Выполнив его потенцирование, получим:

Подставляя в данное уравнение фактические значения х, получаем теоретические значения результата. По ним рассчитаем показатели: тесноты связи - индекс корреляции и среднюю ошибку аппроксимации

Характеристики степенной модели указывают, что она несколько лучше линейной функции описывает взаимосвязь.

. Построению уравнения показательной кривой

предшествует процедура линеаризации переменных при логарифмировании обеих частей уравнения:

Для расчетов используем данные таблицы.

Y x Yx Y 2 x 2 A i
1 1,8376 45,1 82,8758 3,3768 2034,01 60,7 8,1 65,61 11,8
2 1,7868 59,0 105,4212 3,1927 3481,00 56,4 4,8 23,04 7,8
3 1,7774 57,2 101,6673 3,1592 3271,84 56,9 3,0 9,00 5,0
4 1,7536 61,8 108,3725 3,0751 3819,24 55,5 1,2 1,44 2,1
5 1,7404 58,8 102,3355 3,0290 3457,44 56,4 -1,4 1,96 2,5
6 1,7348 47,2 81,8826 3,0095 2227,84 60,0 -5,7 32,49 10,5
7 1,6928 55,2 93,4426 2,8656 3047,04 57,5 -8,2 67,24 16,6
Итого 12,3234 384,3 675,9974 21,7078 21338,41 403,4 -1,8 200,78 56,3
Ср. зн. 1,7605 54,9 96,5711 3,1011 3048,34 X X 28,68 8,0
σ 0,0425 5,86 X X X X X X X
σ 2 0,0018 34,339 X X X X X X X

Значения параметров регрессии A и В составили:


Получено линейное уравнение: . Произведем потенцирование полученного уравнения и запишем его в обычной форме:

Тесноту связи оценим через индекс корреляции :

Многофакторный регрессионный анализ в оценке недвижимости

Регрессия в математической статистике – это зависимость среднего значения какой-либо величины от некоторой другой величины или от нескольких величин.

Как известно, явления общественной жизни складываются под воздействием не одного, а целого ряда факторов , т. е. эти явления многофакторны. Между факторами существуют сложные взаимосвязи, поэтому их влияние комплексное и его нельзя рассматривать как простую сумму изолированных влияний.

Факторный анализ позволяет определить, какое влияние на изучаемый показатель оказало изменение того или иного фактора.

При моделировании функциональных факторных моделей необходимо соблюдать ряд требований:

1. Факторы, включаемые в модель, должны реально существовать и иметь конкретноефизическое значение.

2. Факторы, которые входят в систему факторного анализа, должны иметь причинно-следственную связь с изучаемым показателем.

3. Факторная модель должна обеспечивать измерение влияния конкретного фактора на общий результат.

Метод применяется для построения прогноза какого-либо показателя с учетом существующих связей между ним и другими показателями. Сначала в результате качественного анализа выделяется k факторов (X 1 , X 2 ,..., X k), влияющих на изменение прогнозируемого показателя Y , и строится чаще всего линейная регрессионная зависимость типа:

где Ai - коэффициенты регрессии, i = 1,2,...,k.

Значения коэффициентов регрессии (A 0 , A 1 , A 2 ,..., A k) определяются в результате сложных математических вычислений , которые обычно проводятся с помощью стандартных статистических компьютерных программ.

Определяющее значение при использовании данного метода имеет нахождение правильного набора взаимосвязанных признаков, направления причинно-следственной связи между ними и вида этой связи, которая не всегда линейна.

Для успешного применения данного метода необходимо выполнение трёх основных условий :

Ø наличие обширной и достоверной базы данных о сделках купли-продажи с описанием физических и экономических характеристик объектов недвижимости, участвовавших в этих сделках;

Ø наличие критерия подбора аналогов из вышеуказанной базы данных;

Ø существование методологии расчёта соответствующих поправок к стоимости выбранных аналогов.

В основном, при подборе аналогов и внесении поправок эксперты-оценщики руководствуются профессиональным опытом и интуицией , что является заведомо субъективным подходом . Привлечение современных статистических методов для обработки и анализа данных, используемых для сопоставления, позволяет снизить влияние субъективизма оценщика.

Для решения задач, связанных с обработкой и анализом статистической информации применяются методы математической статистики. Эти методы позволяют выявить закономерности на фоне случайностей, делать обоснованные выводы и прогнозы, давать оценку вероятностей их выполнения или невыполнения . В последнее время статистические методы, а в частности методы корреляционного и регрессионного анализа, находят всё более широкое применение в оценочной деятельности, правда. Оценщику, владеющему принципами, методами и навыками статистического моделирования, значительно легче обосновать результаты оценки, а также спрогнозировать рыночную стоимость на базе имеющихся данных.

После того, как выявлены наиболее существенные факторы, влияющие на стоимость рассматриваемых объектов, встает вопрос о подборе вида функциональной зависимости, т. е. виде многофакторной регрессионной модели. От правильности этого выбора зависит то, насколько построенная модель будет адекватна изучаемому явлению, т. е. будет ли она соответствовать ему при заданном уровне точности, что, в свою очередь, предопределяет практическую ценность получаемых результатов.

Запас кривых для описания статистических данных, которыми располагает математический анализ, бесконечно разнообразен . Для выбора той из них, которая наиболее адекватна не только имеющемуся эмпирическому материалу, но и истинной зависимости между изучаемым показателем и обуславливающими его факторами, исходят из соображений самого различного характера - логического, графического и статистического.

При прочих равных условиях предпочтение отдается модели, зависящей от меньшего числа параметров , т. к. для их оценки требуется меньшее количество эмпирических данных.

На практике наибольшее распространение получили линейные (1), степенные (2) и экспоненциальные (3) формы зависимости.

y = a 0 + a 1 x 1 + a 2 x 2 + … + a n x n (1)

y = a 0 x 1 a1 x 2 a2 … x n an (2)

Корреляционный анализ и регрессионный анализ являются смежными разделами математической статистики, и предназначаются для изучения по выборочным данным статистической зависимости ряда величин; некоторые из которых являются случайными. При статистической зависимости величины не связаны функционально, но как случайные величины заданы совместным распределением вероятностей. Исследование взаимосвязи случайных величин биржевых ставок приводит к теории корреляции, как разделу теории вероятностей и корреляционному анализу, как разделу математической статистики. Исследование зависимости случайных величин приводит к моделям регрессии и регрессионному анализу на базе выборочных данных. Теория вероятностей и математическая статистика представляют лишь инструмент для изучения статистической зависимости, но не ставят своей целью установление причинной связи. Представления и гипотезы о причинной связи должны быть привнесены из некоторой другой теории, которая позволяет содержательно объяснить изучаемое явление.

Формально корреляционная модель взаимосвязи системы случайных величин может быть представлена в следующем виде: , где Z - набор случайных величин, оказывающих влияние на

Экономические данные почти всегда представлены в виде таблиц. Числовые данные, содержащиеся в таблицах, обычно имеют между собой явные (известные) или неявные (скрытые) связи.

Явно связаны показатели, которые получены методами прямого счета, т. е. вычислены по заранее известным формулам. Например, проценты выполнения плана, уровни, удельные веса, отклонения в сумме, отклонения в процентах, темпы роста, темпы прироста, индексы и т. д.

Связи же второго типа (неявные) заранее неизвестны. Однако необходимо уметь объяснять и предсказывать (прогнозировать) сложные явления для того, чтобы управлять ими. Поэтому специалисты с помощью наблюдений стремятся выявить скрытые зависимости и выразить их в виде формул, т. е. математически смоделировать явления или процессы. Одну из таких возможностей предоставляет корреляционно-регрессионный анализ.

Математические модели строятся и используются для трех обобщенных целей:

  • - для объяснения;
  • - для предсказания;
  • - для управления.

Представление экономических и других данных в электронных таблицах в наши дни стало простым и естественным. Оснащение же электронных таблиц средствами корреляционно-регрессионного анализа способствует тому, что из группы сложных, глубоко научных и потому редко используемых, почти экзотических методов, корреляционно-регрессионный анализ превращается для специалиста в повседневный, эффективный и оперативный аналитический инструмент. Однако, в силу его сложности, освоение его требует значительно больших знаний и усилий, чем освоение простых электронных таблиц.

Пользуясь методами корреляционно-регрессионного анализа, аналитики измеряют тесноту связей показателей с помощью коэффициента корреляции. При этом обнаруживаются связи, различные по силе (сильные, слабые, умеренные и др.) и различные по направлению (прямые, обратные). Если связи окажутся существенными, то целесообразно будет найти их математическое выражение в виде регрессионной модели и оценить статистическую значимость модели. В экономике значимое уравнение используется, как правило, для прогнозирования изучаемого явления или показателя.

Регрессионный анализ называют основным методом современной математической статистики для выявления неявных и завуалированных связей между данными наблюдений. Электронные таблицы делают такой анализ легко доступным. Таким образом, регрессионные вычисления и подбор хороших уравнений - это ценный, универсальный исследовательский инструмент в самых разнообразных отраслях деловой и научной деятельности (маркетинг, торговля, медицина и т. д.). Усвоив технологию использования этого инструмента, можно применять его по мере необходимости, получая знание о скрытых связях, улучшая аналитическую поддержку принятия решений и повышая их обоснованность.

Корреляционно-регрессионный анализ считается одним из главных методов в маркетинге, наряду с оптимизационными расчетами, а также математическим и графическим моделированием трендов (тенденций). Широко применяются как однофакторные, так и множественные регрессионные модели.

Корреляционный анализ является одним из методов статистического анализа взаимосвязи нескольких признаков.

Он определяется как метод, применяемый тогда, когда данные наблюдения можно считать случайными и выбранными из генеральной совокупности, распределенной по многомерному нормальному закону. Основная задача корреляционного анализа (являющаяся основной и в регрессионном анализе) состоит в оценке уравнения регрессии.

Корреляция - это статистическая зависимость между случайными величинами, не имеющими строго функционального характера, при которой изменение одной из случайных величин приводит к изменению математического ожидания другой.

  • 1. Парная корреляция - связь между двумя признаками (результативным и факторным или двумя факторными).
  • 2. Частная корреляция - зависимость между результативным и одним факторным признаками при фиксированном значении других факторных признаков.
  • 3. Множественная корреляция - зависимость результативного и двух или более факторных признаков, включенных в исследование.

Корреляционный анализ имеет своей задачей количественное определение тесноты связи между двумя признаками (при парной связи) и между результативным признаком и множеством факторных признаков (при многофакторной связи).

Теснота связи количественно выражается величиной коэффициентов корреляции. Коэффициенты корреляции, представляя количественную характеристику тесноты связи между признаками, дают возможность определить “полезность” факторных признаков при построении уравнений множественной регрессии. Величина коэффициентов корреляции служит также оценкой соответствия уравнению регрессии выявленным причинно-следственным связям.

Первоначально исследования корреляции проводились в биологии, а позднее распространились и на другие области, в том числе на социально-экономическую. Одновременно с корреляцией начала использоваться и регрессия. Корреляция и регрессия тесно связаны между собой: первая оценивает силу (тесноту) статистической связи, вторая исследует ее форму. И корреляция, и регрессия служат для установления соотношений между явлениями и для определения наличия или отсутствия связи между ними.

В состав Microsoft Excel входит набор средств анализа данных (так называемый пакет анализа), предназначенный для решения сложных статистических и инженерных задач. Для проведения анализа данных с помощью этих инструментов следует указать входные данные и выбрать параметры; анализ будет проведен с помощью подходящей статистической или инженерной макрофункции, а результат будет помещен в выходной диапазон. Другие средства позволяют представить результаты анализа в графическом виде.

Пример 1.Даны следующие данные:

№ предприя-тия

Уров.издержек обращ.(y)

Грузооборот, тыс.руб(x1)

Фондоемкость руб/тыс.т(x2)

Необходимо провести многофакторный корреляционно-регрессионный анализ.

Чтобы провести многофакторный корреляционно-регрессионный анализ нужно составить следующую таблицу:

Таблица 1

№ предприятия

Уров.издержек обращ.(y)

Грузооборот, тыс.руб(x1)

Фондоемкость руб/тыс.т(x2)

ср. знач-е:

(x1-x1среднее)^2

(x2-x2среднее)^2

(y-y среднее)^2

Исходя из таблицы 1 получаем таблицу 2:

Таблица 2

0,03169Z2-0,6046Z1