<<
>>

53.2. Регрессионный анализ

Регрессионный анализ — это статистический метод исследования зависимости случайной величины у от переменных (аргументов) хj (j = 1, 2,..., k), рассматриваемых в регрессионном анализе как неслучайные величины независимо от истинного закона распределения xj.

Обычно предполагается, что случайная величина у имеет нормальный закон распределения с условным математическим ожиданием = ?(x1, ..., хk), являющимся функцией от аргументов хj и с постоянной, не зависящей от аргументов дисперсией ?2.

Для проведения регрессионного анализа из (k + 1)-мерной генеральной совокупности (у, x1, х2, ..., хj, ..., хk) берется выборка объемом n, и каждое i-е наблюдение (объект) характеризуется значениями переменных (уi, xi1, хi2, ..., хij, ..., xik), где хij — значение j-й переменной для i-го наблюдения (i = 1, 2,..., n), уi — значение результативного признака для i-го наблюдения.

Наиболее часто используемая множественная линейная модель регрессионного анализа имеет вид

(53.8)

где ?j — параметры регрессионной модели;

?j — случайные ошибки наблюдения, не зависимые друг от друга, имеют нулевую среднюю и дисперсию ?2.

Отметим, что модель (53.8) справедлива для всех i = 1,2, ..., n, линейна относительно неизвестных параметров ?0, ?1,…, ?j, …, ?k и аргументов.

Как следует из (53.8), коэффициент регрессии Bj показывает, на какую величину в среднем изменится результативный признак у, если переменную хj увеличить на единицу измерения, т.е.

является нормативным коэффициентом.

В матричной форме регрессионная модель имеет вид

(53.9)

где Y — случайный вектор-столбец размерности п х 1 наблюдаемых значений результативного признака (у1, у2,.... уn); Х— матрица размерности п х (k + 1) наблюдаемых значений аргументов, элемент матрицы х,, рассматривается как неслучайная величина (i = 1, 2, ..., n; j=0,1, ..., k; x0i, = 1); ? — вектор-столбец размерности (k + 1) х 1 неизвестных, подлежащих оценке параметров модели (коэффициентов регрессии); ? — случайный вектор-столбец размерности п х 1 ошибок наблюдений (остатков).

Компоненты вектора ?i не зависимы друг от друга, имеют нормальный закон распределения с нулевым математическим ожиданием (M?i = 0) и неизвестной постоянной ?2 (D?i = ?2).

На практике рекомендуется, чтобы значение п превышало k не менее чем в три раза.

В модели (53.9)

В первом столбце матрицы Х указываются единицы при наличии свободного члена в модели (53.8). Здесь предполагается, что существует переменная x0, которая во всех наблюдениях принимает значения, равные единице.

Основная задача регрессионного анализа заключается в нахождении по выборке объемом п оценки неизвестных коэффициентов регрессии ?0, ?1, …, ?k модели (53.8) или вектора ? в (53.9).

Так как в регрессионном анализе хj рассматриваются как неслучайные величины, a M?i = 0, то согласно (53.8) уравнение регрессии имеет вид

(53.10)

для всех i = 1, 2, ..., п, или в матричной форме:

(53.11)

где — вектор-столбец с элементами 1..., i,..., n.

Для оценки вектора-столбца ? наиболее часто используют метод наименьших квадратов, согласно которому в качестве оценки принимают вектор-столбец b, который минимизирует сумму квадратов отклонений наблюдаемых значений уi от модельных значений i, т.е. квадратичную форму:

где символом «Т» обозначена транспонированная матрица.

Наблюдаемые и модельные значения результативного признака у показаны на рис. 53.1.

Рис. 53.1. Наблюдаемые и модельные значения результативного признака у

Дифференцируя, с учетом (53.11) и (53.10), квадратичную форму Q по ?0, ?1, …, ?k и приравнивая частные производные к нулю, получим систему нормальных уравнений

решая которую получим вектор-столбец оценок b, где b = (b0, b1, ..., bk)T. Согласно методу наименьших квадратов, вектор-столбец оценок коэффициентов регрессии получается по формуле

(53.12)

ХT — транспонированная матрица X;

(ХTХ)-1 — матрица, обратная матрице ХTХ.

Зная вектор-столбец b оценок коэффициентов регрессии, найдем оценку уравнения регрессии

(53.13)

или в матричном виде:

Оценка ковариационной матрицы вектора коэффициентов регрессии b определяется выражением

(53.14)

где

(53.15)

Учитывая, что на главной диагонали ковариационной матрицы находятся дисперсии коэффициентов регрессии, имеем

(53.16)

Значимость уравнения регрессии, т.е.

гипотеза Н0: ? = 0 (?0,= ?1 = ?k = 0), проверяется по F-критерию, наблюдаемое значение которого определяется по формуле

(53.17)

По таблице F-распределения для заданных ?, v 1 = k + l,v2 = n – k - l находят Fкр.

Гипотеза H0 отклоняется с вероятностью ?, если Fнабл > Fкр. Из этого следует, что уравнение является значимым, т.е. хотя бы один из коэффициентов регрессии отличен от нуля.

Для проверки значимости отдельных коэффициентов регрессии, т.е. гипотезы Н0: ?j = 0, где j = 1, 2, ..., k, используют t-критерий и вычисляют tнабл(bj) = bj / bj. По таблице t-распределения для заданного ? и v = п - k - 1 находят tкр.

Гипотеза H0 отвергается с вероятностью ?, если tнабл > tкр. Из этого следует, что соответствующий коэффициент регрессии ?j значим, т.е. ?j ? 0. В противном случае коэффициент регрессии незначим и соответствующая переменная в модель не включается. Тогда реализуется алгоритм пошагового регрессионного анализа, состоящий в том, что исключается одна из незначительных переменных, которой соответствует минимальное по абсолютной величине значение tнабл. После этого вновь проводят регрессионный анализ с числом факторов, уменьшенным на единицу. Алгоритм заканчивается получением уравнения регрессии со значимыми коэффициентами.

Существуют и другие алгоритмы пошагового регрессионного анализа, например с последовательным включением факторов.

Наряду с точечными оценками bj генеральных коэффициентов регрессии ?j регрессионный анализ позволяет получать и интервальные оценки последних с доверительной вероятностью ?.

Интервальная оценка с доверительной вероятностью ? для параметра ?j имеет вид

(53.19)

где t? находят по таблице t-распределения при вероятности ? = 1 - ? и числе степеней свободы v = п - k - 1.

Интервальная оценка для уравнения регрессии в точке, определяемой вектором-столбцом начальных условий X0 = (1, x, x,,..., x)T записывается в виде

(53.20)

Интервал предсказания n+1 с доверительной вероятностью у определяется как

(53.21)

где t? определяется по таблице t-распределения при ? = 1 - ? и числе степеней свободы v = п - k - 1.

По мере удаления вектора начальных условий х0 от вектора средних ширина доверительного интервала при заданном значении ? будет увеличиваться (рис. 53.2), где = (1, ).

Рис.

53.2. Точечная и интервальная оценки уравнения регрессии .

Мультиколлинеарность

Одним из основных препятствий эффективного применения множественного регрессионного анализа является мультиколлинеарность. Она связана с линейной зависимостью между аргументами х1, х2, ..., хk. В результате мультиколлинеарности матрица парных коэффициентов корреляции и матрица (XTX) становятся слабообусловленными, т.е. их определители близки к нулю.

Это приводит к неустойчивости оценок коэффициентов регрессии (53.12), завышению дисперсии s, оценок этих коэффициентов (53.14), так как в их выражения входит обратная матрица (XTX)-1, получение которой связано с делением на определитель матрицы (ХTХ). Отсюда следуют заниженные значения t(bj). Кроме того, мультиколлинеарность приводит к завышению значения множественного коэффициента корреляции.

На практике о наличии мультиколлинеарности обычно судят по матрице парных коэффициентов корреляции. Если один из элементов матрицы R больше 0,8, т.е. | rjl | > 0,8, то считают, что имеет место мультиколлинеарность, и в уравнение регрессии следует включать один из показателей — хj или xl.

Чтобы избавиться от этого негативного явления, обычно используют алгоритм пошагового регрессионного анализа или строят уравнение регрессии на главных компонентах.

Пример. Построение регрессионного уравнения

Согласно данным двадцати (п = 20) сельскохозяйственных районов, требуется построить регрессионную модель урожайности на основе следующих показателей:

у — урожайность зерновых культур (ц/га);

x1 — число колесных тракторов (приведенной мощности) на 100 га;

х2 — число зерноуборочных комбайнов на 100 га;

х3 — число орудий поверхностной обработки почвы на 100 га;

x4 — количество удобрений, расходуемых на гектар;

х5 — количество химических средств оздоровления растений, расходуемых на гектар.

Исходные данные для анализа приведены в табл. 53.1.

Таблица 53.1

Исходные данные для анализа

Решение.

С целью предварительного анализа взаимосвязи показателей построена матрица R — таблица парных коэффициентов корреляции.

Анализ матрицы парных коэффициентов корреляции показывает, что результативный признак наиболее тесно связан с показателем х4 — количеством удобрений, расходуемых на гектар (ryx4 = 0,58).

В то же время связь между аргументами достаточно тесная. Так, существует практически функциональная связь между числом колесных тракторов (x1) и числом орудий поверхностной обработки почвы x3(rx1x3) = 0,98.

О наличии мультиколлинеарности свидетельствуют также коэффициенты корреляции rx1x2 = 0,85 и rx3x2 = 0,88.

Чтобы продемонстрировать отрицательное влияние мультиколлинеарности, рассмотрим рассчитанное на ЭВМ регрессионное уравнение урожайности, включив в него все исходные показатели:

= 3,515 – 0,006x1 + 15,542x2 + 110x3 + 4,475х4 - 2,932x5. (53.22)

(-0,01) (0,72) (0,13) (2,90) (-0,95)

В скобках указаны tнабл (?j) = tj — расчетные значения t-критерия для проверки гипотезы о значимости коэффициента регрессии Н0: ?j = 0, j = 1, 2, 3, 4, 5. Критическое значение tкр = 1,76 найдено по таблице t-распределения при уровне значимости ? = 0,1 и числе степеней свободы v = 14. Из уравнения следует, что статистически значимым является коэффициент регрессии только при х4, так как |t4| = 2,90 > tкр = 1,76. Не поддаются экономической интерпретации отрицательные значения коэффициентов регрессии при х1 и x5, из чего следует, что повышение насыщенности сельского хозяйства колесными тракторами (х1) и средствами оздоровления растений (x5) отрицательно сказывается на урожайности. Таким образом, полученное уравнение регрессии неприемлемо.

После реализации алгоритма пошагового регрессионного анализа с исключением переменных и учетом того, что в уравнение должна войти только одна из трех тесно связанных переменных (x1, х2 или x3), получаем окончательное уравнение регрессии

= 7,342 + 0,345x1 + 3,294x4.

(53.23)

(11,12) (2,09) (3,02)

Уравнение значимо при ? = 0,05, так как Fнабл = 266 > Fкр = 3,20, найденного по таблице F-распределения при ? = 0,05, v1 = 3 и v2 = 17. Значимы и коэффициенты регрессии ?1 и ?4, так как |tj| > tкр = 2,11 (при ? = 0,05, v = 17). Коэффициент регрессии ?1 следует признать значимым (?1 ? 0) из экономических соображений; при этом t1 = 2,09 лишь незначительно меньше tкр = 2,11. В случае если ? = 0,1, tкр = 1,74 и коэффициент регрессии ?1 статистически значим.

Из уравнения регрессии следует, что увеличение на единицу числа тракторов на 100 га пашни приводит к росту урожайности зерновых в среднем на 0,345 ц/га (b1 = 0,345).

Коэффициенты эластичности Э1 = 0,068 и Э4 = 0,161 (Эj = ) показывают, что при увеличении показателей x1 и х4 на 1% урожайность зерновых повышается соответственно на 0,068% и 0,161%.

Множественный коэффициент детерминации r = 0,469 свидетельствует о том, что только 46,9% вариации урожайности объясняется вошедними в модель показателями (x1 и x4), т.е. насыщенностью растениеводства тракторами и удобрениями. Остальная часть вариации обусловлена действием неучтенных факторов (х2, x3, х5, погодными условиями и др.). Средняя относительная ошибка аппроксимации = 10,5% свидетельствует об адекватности модели, так же как и величина остаточной дисперсии s2 = 1,97.

<< | >>
Источник: М.Г. Назаров. Курс социально-экономической статистики: Учебник для вузов / Под ред. проф. М.Г. Назарова. — М.: Финстатинформ, ЮНИТИ-ДАНА. - 771 с.. 2000

Еще по теме 53.2. Регрессионный анализ:

  1. 7.2. Сущность корреляционно-регрессионного анализа
  2. Основной регрессионный анализ
  3. 7.2. Задачи экономического анализа, решаемые на основе регрессионных эконометрических моделей
  4. Регрессионные методы и способы проверки робастности, использованные в анализе
  5. 7.3. Оценка качества эконометрических регрессионных моделей и прогнозирование на их основе
  6. Фрактальная регрессионная модель валютного кризиса
  7. Анализ показателей себестоимости: ее виды, цели, задачи, последовательность и методика анализа. Анализ затрат на 1 руб. продукции.
  8. Подведение итогов ситуационного анализа. Анализ опасностей и возможностей (SWOT-анализ). (Strength, Weaknesses, Opportunities, Threats)
  9. Методы анализа рыночных цен. Технический анализ. Основные принципы технического анализа
  10. Основные этапы анализа системы показателей и постановка задачи детерминированного анализа
  11. Особенности анализа деятельности организаций, занимающихся закупкой сельскохозяйственной продукции: анализ объемов закупок, анализ закупок сельскохозяйственной продукции по их ассортименту и качеству.
  12. АНАЛИЗ ИСПОЛЬЗОВАНИЯ ТРУДОВЫХ РЕСУРСОВ ПРЕДПРИЯТИЯ. АНАЛИЗ ОПЛАТЫ ТРУДА
  13. АНАЛИЗ ИСПОЛЬЗОВАНИЯ ТРУДОВЫХ РЕСУРСОВ ПРЕДПРИЯТИЯ. АНАЛИЗ ОБЕСПЕЧЕННОСТИ ТРУДОВЫМИ РЕСУРСАМИ
  14. АНАЛИЗ ИСПОЛЬЗОВАНИЯ ТРУДОВЫХ РЕСУРСОВ ПРЕДПРИЯТИЯ. АНАЛИЗ ПРОИЗВОДИТЕЛЬНОСТИ ТРУДА И ТРУДОЕМКОСТИ ПРОДУКЦИИ
  15. АНАЛИЗ ПРОИЗВОДСТВА И РЕАЛИЗАЦИИ ПРОДУКЦИИ. АНАЛИЗ РИТМИЧНОСТИ РАБОТЫ ПРЕДПРИЯТИЯ
  16. Особенности анализа деятельности организаций хлебопечения: методы анализа, оценка показателей.
  17. АНАЛИЗ СЕБЕСТОИМОСТИ. АНАЛИЗ ЗАТРАТ НА ОДИН РУБЛЬ ПРОДУКЦИИ
- Информатика для экономистов - Антимонопольное право - Бухгалтерский учет и контроль - Бюджетна система України - Бюджетная система России - ВЭД РФ - Господарче право України - Государственное регулирование экономики в России - Державне регулювання економіки в Україні - ЗЕД України - Инновации - Институциональная экономика - История экономических учений - Коммерческая деятельность предприятия - Контроль и ревизия в России - Контроль і ревізія в Україні - Кризисная экономика - Лизинг - Логистика - Математические методы в экономике - Микроэкономика - Мировая экономика - Муніципальне та державне управління в Україні - Налоговое право - Организация производства - Основы экономики - Политическая экономия - Региональная и национальная экономика - Страховое дело - Теория управления экономическими системами - Управление инновациями - Философия экономики - Ценообразование - Экономика и управление народным хозяйством - Экономика отрасли - Экономика предприятия - Экономика природопользования - Экономика труда - Экономическая безопасность - Экономическая география - Экономическая демография - Экономическая статистика - Экономическая теория и история - Экономический анализ -