Определение эмпирического корреляционного формула. Коэффициент корреляции и корреляционное отношение, их расчет и области применения

💖 Нравится? Поделись с друзьями ссылкой

Эмпирическое корреляционное отношение

Для измерения тесноты связи применяется несколько показателей. При парной связи теснота связи определяется, прежде всего, корреляционным отношением, которое обозначается η. Квадрат корреляционного отношения – это отношение межгрупповой дисперсии результативного признака, которая выражает влияние различий группировочного факторного признака на среднюю величину результативного признака, к общей дисперсии результативного признака, выражающей влияние на него всех причин и условий. Квадрат корреляционного отношения называется коэффициентом детерминации.

ыми явлениями и их признаками: ­­­­­­­­­­­­­________________ или жестко детермини

где k- число групп

N – число наблюдений

y i – исходные значения результативного признака

y j – средние значения результативного признака для данной группы

y – среднее значение признака

f j – численность группы

Указанная выше формула применяется при расчете показателя тесноты связи по аналитической группировке. При вычислении корреляционного отношения по уровню связи применяется формула:

Сумма квадратов в числителе ­– это объясненная связью с фактором х (факторами) дисперсия результативного признака у. Она вычисляется по индивидуальным данным, полученным для каждой единицы совокупности на основе уравнения регрессии.

Если уравнение выбрано неверно или сделана ошибка при расчете его параметров, то сумма квадратов в числителе может оказаться больше чем в знаменателе, и отношение утратит тот смысл, который должно иметь. Чтобы избежать ошибочного результата, лучше вычислять корреляционное отношение по следующей формуле:

В основе указанной формулы лежит известное правило разложения сумм квадратов отклонений при группировке совокупности:

D общ = D межгр +D внутригр

Согласно этому правилу можно вместо межгрупповой (факторной) дисперсии использовать разность:

D общ –D внутригр

что дает:

При расчете η не по группировке, а по уравнению корреляционной связи (уравнению регрессии) мы используем формулу. В этом случае правило разложения суммы квадратов отклонений результативного признака записывается как

D общ = D кор +D ост

Важнейшее положение, которое следует теперь усвоить любому, желающему правильно применять метод корреляционно-регрессионого анализа, состоит в интерпретации формул (1.2) и (1.3). Это положение гласит:

Уравнение корреляционной связи измеряет зависимость между вариацией результативного признака и вариацией факторного признака (признаков). Меры тесноты связи измеряют долю вариации результативного признака, которая связанна с вариацией факторного признака (признаков).

| следующая лекция ==>

Суть состоит в следующем: этот показатель измеряет меру зависимости вариации одной величины от многих других. Он применяется для оценки качества линейной регрессии.

Формула расчета:

R^2 \equiv 1-{\sum_i (y_i — f_i)^2 \over \sum_i (y_i-\bar{y})^2},

  • \bar{y} – ср. арифметическое зависимой переменной;
  • fi – знач. зависимой переменной, предполагаемое по уравнению регрессии;
  • yi – значение исследуемой зависимой переменной.

Детерминация, что это такое — определение

Коэффициент детерминации – часть дисперсии переменной (зависимой), которая обуславливается конкретной моделью зависимости. Так эта единица поможет вычесть долю необъясненной дисперсии в дисперсии зависимой переменной.

Данный показатель может принимать значения в пределах от 0 до 1. Чем его значение ближе к 1, тем связаннее результативный признак с исследуемыми факторами.

Т.к. преступление является результатом связи поведения и личностных качеств, этот показатель в деятельности заинтересованных органов рассчитывается для оценки качества преступного поведения, дает представление, что послужило вероятностной причиной преступления, что является мотивацией, какие этому были причины и условия.

Коэффициент детерминации, что показывает?

Этот коэффициент показывает варианты результативного признака от влияния факторного признака, он тесно связан с числом корреляции. Если связь отсутствует, то показатель равняется нулю, при ее наличии – единице.
Есть определение детерминизма как принципа устройства мира. Основой этого представления является взаимосвязанность всех явления. Это учение отрицает существование вещей вне взаимосвязи с миром.

Противоположностью является индетерминизм, он связан с отрицанием объективных отношений детерминации, или отрицанием причинности.

Генетический детерминизм – вера в то, что любой организм развивается под генетическим контролем.

Под детерминантами преступности в криминологии понимают социальные явления, действия которых могут вызвать преступность.

С помощью расчетов такого рода можно оценить вероятностное социокультурное влияние различных факторов на развитие личности и предположить, как себя будет вести человек, например, в деловом общении, объективно оценить, подходит ли он для государственного управления, или воинской службы.

Так же коэффициент определяет, правильно ли выбран индекс для подсчета коэффициентов бета и альфа. Если в % цифра ниже 75 к определенному индексу, значения бета и альфа к нему будут некорректны.

Индекс детерминации

Индекс детерминации – это квадрат инд. корреляции нелинейных связей. Этим значением характеризуют, на какое количество процентов моделью регрессии объясняются варианты показателей результативной переменной по отношению к своему среднему уровню.

Формула



Коэффициент детерминации скорректированный

Суть данного понятия состоит в следующем: этот индекс показывает долю дисперсии (общей) результативной переменной, объясняющей вариантами факторных переменных, включаемых в модель регрессии: (с увеличением, уменьшением).

ОТВЕТ

Количественная оценка тесноты связи по эмпирическим данным состоит в расчете показателей тесноты связи:

· Эмпирический коэффициент детерминации (эмпирическое дисперсионное отношение) - r 2 .

Данный показатель рассчитывается по данным аналитической группировки (табл.), как отношение межгрупповой дисперсии признака-результата Y (d y 2) к общей дисперсии Y (s y 2):

Согласно теореме о разложении дисперсии межгрупповая дисперсия связана с общей дисперсией: s y 2 =d y 2 +e y 2 . Тогда эмпирический коэффициент детерминации может быть рассчитан через остаточную дисперсию по формуле:

где s j 2 – дисперсия признака-результата Y внутри j-ой группы.

Эмпирический коэффициент детерминации характеризует силу влияния группировочного признака (Х) на образование общей вариации результативного признака Y и показывает процент (долю) вариации признака-результата, обусловленную признаком-фактором, положенным в основу группировки.

Расчет r 2 удобно вести в таблице:

Признак- фактор Х j N j Среднее значение признака-результата s j 2 N j
X 1 N 1 s 1 2 N 1
X 2 N 2 s 2 2 N 2
.... ...
X m N m s m 2 N m
Итого N Х ås j 2

Тогда .

Рассмотрим пример. Пусть дана совокупность из 20 рабочих, характеризующихся признаками: Y - выработка рабочего (шт./смену) и Х- квалификация (разряд). Исходные данные представлены в таблице:

X
Y

Требуется оценить тесноту связи между признаками с помощью эмпирического коэффициента детерминации (r 2).

Для расчета r 2 произведем аналитическую группировку совокупности. В качестве признака-фактора возьмем Х (разряд рабочего), в качестве признака-результата – Y выработку рабочего). Аналитическая группировка производится по признаку Х. В данном случае она будет дискретная (т.к. значения признака Х довольно часто повторяются). Количество групп равно числу значений признака Х в совокупности, т.е. 6. Результаты группировки и расчета r 2 сведем в таблицу:

Признак-фактор Х Признак-результат Y Количество единиц в группе, N j Среднее значение признака-результата в группе, ( - ) 2 ·N j Дисперсия признака-результата в группе, s 2 j s 2 j ·N j
(10+12+13)/3=11,7 (11,7-17,1) 2 3=88,56 s 2 1 =((10-11,7) 2 +(12-11,7) 2 +(13-11,7) 2)/3=1,56 4,7
(11+14)/2=12,5 (12,5-17,1) 2 2=42,3 s 2 2 =((11-12,5) 2 +(14-12,5) 2)/2=2,25 4,5
(12+13+15+16)/4= 14 (14-17,1) 2 4=38,4 s 2 3 =((12-14) 2 +(13-14) 2 +(15-14) 2 +(16-14) 2)/4=2,5
(15+17+17+18)/4= 16,75 (16,75-17,1) 2 4=0,49 s 2 4 =((15-16,75) 2 +(17-16,75) 2 ++(17-16,75) 2 +(18-16,75) 2)/4=1,9 4,75
(18+20+22)/3=20 (20-17,1) 2 3=25,23 s 2 5 =((18-20) 2 +(20-20) 2 +(22-20) 2)/3=2,7
(23+24+27+25)/4= 24,75 (24,75-17,1) 2 4=234,1 s 2 6 =((23-24,75) 2 +(24-24,75) 2 +(27-24,75) 2 +(25-24,75) 2)/4=2,19 8,75
=17,1 429,1 40,7

Эмпирический коэффициент детерминации равен отношению межгрупповой дисперсии признака-результата (d y 2) к общей дисперсии признака-результата (s y 2): r 2 = d y 2 /s y 2 = d y 2 /(d y 2 +e y 2).

Межгрупповая дисперсия Y будет равна: d y 2 = å( - ) 2 ·N j / N = 429,1/20=21,45.

Остаточная дисперсия Y будет равна: e y 2 = ås 2 j ·N j / N= 40,7/20= 2,035.

Тогда: r 2 =21,45/(21,45+2,035)= 429,1/(429,1+40,7)=0,913.

Вывод: 91,3% вариации выработки рабочих обусловлена влиянием фактора разряд.

· Эмпирическое корреляционное отношение - r.

Данный показатель представляет собой корень из эмпирического коэффициента детерминации. Оно показывает тесноту связи (не только линейной!) между группировочным и результативным признаками. Область допустимых значений эмпирического корреляционного отношения от 0 до +1.

Максимально тесная связь – это связь функциональная, когда каждое значение признака-результата Y однозначно определяется значением признака-фактора Х (т.е. результатом группировки). В этом случае дисперсия групповых средних (d y 2) равна общей дисперсии (s y 2), т.е. внутригрупповой вариации не будет. При этом остаточная дисперсия (e y 2) равна 0, а эмпирический коэффициент детерминации равен 1.

Если связь между признаками отсутствует, то все групповые средние равны между собой, межгрупповой вариации не будет (d y 2 =0), а эмпирический коэффициент детерминации равен 0.

Рассчитаем эмпирическое корреляционное отношение для нашего примера: r= 0,9555. Вывод: признаки «выработка рабочего» и «разряд» связаны довольно тесной связью.

Показатели r и r 2 определяются не только наличием связи признаков Х и Y, но и фактом группировки первичных данных. С ростом числа групп m межгрупповая дисперсия d 2 растет и приближается к общей дисперсии. Если число групп меньше количества единиц совокупности N, то значения r и r 2 никогда не будут равны 1, даже при строгой функциональной связи.

Заметим, что сама по себе величина показателя тесноты связи не является доказательством наличия причинно-следственной связи между исследуемыми признаками, а является оценкой степени взаимной согласованности в изменениях признаков. Установлению причинно-следственной зависимости должен обязательно предшествовать анализ качественной природы явлений.

Эмпирическое корреляционное отношение измеряет, какую часть общей колеблемости результативного признака вызывает изучаемый фактор. Эмпирическое корреляционное среднее варьирует от 0 до 1.

Находят эмпирическое корреляционное отношение обычно в следующих типах задач:

  • 1) когда по двум рядам данным X и Y необходимо произвести аналитическую группировку
  • 2) группировка уже произведена, необходимо проверить правило сложения дисперсий
  • 3) по двум рядам данным X и Y необходимо найти уравнение регрессии и оценить его значимость

Формула дисперсии альтернативного признака

Исходя из изложенного выше, можно вывести формулу нахождения дисперсии альтернативного признака, если нам известна процентная доля такого признака в общем объеме выборки.

Изначально мы предполагаем, что признак принимает только два значения.

Таким образом, сумма доли элементов, в которых элементы статистического ряда имеют значение признака "нет" и элементов ряда, которые имеют значение признака "да" - равно единице.

Для нахождения среднего значения ряда, подставим значения альтернативных признаков (0 и 1) в формулу нахождения среднего взвешенного значения статистического ряда. Откуда, совершенно очевидно, в знаменателе будет единица, а в числителе - процентное значение элементов "1". То есть ровно процентное значение элементов с признаком "1". (Формула 2)

Формула дисперсии - это средневзвешенное значение квадратов отклонений каждого значения ряда данных. (Формула 3)

Поскольку в нашем ряду данные имеют только два типа значений - "0" и "1", то формула нахождения дисперсии для ряда, имеющего альтернативный признак сводится к Формуле 4. Пояснение. поскольку мы только что вывели, что среднее значение выборки равно р (Формула 2), то значение квадрата разности значения (0/1) и среднего значения, согласно Формулы 1, будет в первом случае (1-p)2 , а во втором случае (1-q)2 , теперь, применив следствие из первой формулы: q = 1 - p, p = 1- q . Получим p2 и q2 . Соответственно, доля значений "0" и "1" равна p и q, в результате в числителе и получается q2 p и p2 q. Сумма долей признаков значений "0" и "1" согласно Формуле 1 равна 1. В итоге Формула 4 и принимает значение pq, которое и будет равно значению дисперсии альтернативного признака. Исходя из найденного значения величины дисперсии альтернативного признака, найдем среднеквадратичное отклонение (Формула 5). Поставив значение из Формулы 1 в Формулу 5, получим формулу среднеквадратичного отклонения для дисперсии ряда с альтернативным признаком.

Эмпирический коэффициент детерминации широко используется в задачах статистики и является показателем, который представляет долю в общей дисперсии результативного признака и характеризует силу влияния группировочного признака на образование общей вариации. Он может быть рассчитан по формуле:

Данный коэффициент показывает долю вариации результативного признака у под влиянием фактора х. При отсутствии связи эмпирический коэффициент детерминации равен нулю, а при функциональной сильной связи - единице.

Представляется как корень квадратный из эмпирического коэффициента детерминации. Оно показывает тесноту связи между статистическими данными и определяется по формуле:

где числитель - дисперсия групповых средних;
знаменатель - общая дисперсия.

Корреляционное отношение равно нулю, если связи между данными нет. В таком случае все групповые средние будут равны между собой и межгрупповой вариации не будет.

Корреляционное отношение равно единице тогда, когда связь функциональная. В этом случае дисперсия групповых средних будет равна общей дисперсии, т. е. внутригрупповой вариации не будет.

Чем значения корреляционного отношения ближе к единице, тем сильнее, ближе к функциональной зависимости связь между признаками.

Вычисляется по формуле:

где fэ и fт - эмпирические и теоретические частоты.

С помощью критерия Пирсона по таблицам определяют вероятность P(х^2). Входами в таблицу являются значения х^2 и число степеней свободы k = n — р -1.

Если Р > 0,05, то считается, что эмпирические и теоретические распределения близки. При Р принадлежащим совпадение между ними удовлетворительное, а в других случаях - недостаточное.

Рассчитывается по формуле:

где числитель - центральный момент третьего порядка.

б^3 - куб среднего квадратичного отклонения.

Коэффициент асимметрии является безмерной величиной, что позволяет использовать его для различных распределений. При левосторонней асимметрии Mо > Mt > xср, при правосторонней - обратные соотношения. Это позволяет применять наиболее простой показатель асимметрии:

Эксцесс в статистике

Есть степень крутости эмпирического распределения по отношению к нормальному. Он определяется по формуле:

где числитель - центральный момент четвертого порядка

Когда распределение островершинное по отношению к нормальному, эксцесс будет положительным, если плосковершинное - отрицательным. Для нормального распределения Е = 0.



Рассказать друзьям