Связь между переменными. Переменные. Их виды. Виды связи между зависимыми и независимыми переменными

Очень часто маркетолог ищет ответы на вопросы типа: «Увели­чится ли показатель рыночной доли при увеличении числа дилеров?», «Есть ли связь между объемом сбыта и рекламой?» Такие связи не всегда имеют причинно-следственный характер, а могут иметь просто статисти­ческую природу. В поставленных вопросах можно определенно говорить о влиянии одного фактора на другой. Однако степень влияния изучаемых факторов может быть различной; скорее всего, влияние могут оказывать также какие-то другие факторы. Выделяют четыре типа связей между двумя переменными: немонотонная, монотонная, линейная и криволи­нейная.

Немонотонная связь характеризуется тем, что присутствие (отсут­ствие) одной переменной систематически связано с присутствием (отсут­ствием) другой переменной, но ничего неизвестно о направлении этого взаимодействия (приводит ли, например, увеличение одной переменной к увеличению или уменьшению другой). Например, известно, что посети­тели закусочных в утренние часы предпочитают заказывать кофе, а в се­редине дня - чай.

Немонотонная связь просто показывает, что утренние посетители предпочитают также заказывать яйца, бутерброды и бисквиты, а в обе­денное время скорее заказывают мясные блюда с гарниром.

Монотонная связь характеризуется возможностью указать только общее направление связи между двумя переменными без использования каких-либо количественных характеристик. Нельзя сказать, насколько, например, определенное увеличение одной переменной приводит к уве­личению другой переменной. Существуют только два типа таких связей: увеличение и уменьшение. Например, владельцу обувного магазина из­вестно, что более взрослые дети обычно требуют обувь бoльших размеров. Однако невозможно четко установить связь между конкретным возрастом и точным размером обуви.

Линейная связь характеризует прямолинейную зависимость между двумя переменными. Знание количественной характеристики одной пе­ременной автоматически предопределяет знание величины другой пере­менной:

у=а+bх, (4.3)

где у - оцениваемая или прогнозируемая зависимая переменная (ре­зультативный признак);

а - свободный член уравнения;

b - коэффициент регрессии, измеряющий среднее отношение от­клонения результативного признака от его средней величины к отклонению факторного признака от его средней величины на одну единицу его измерения - вариация у, приходящаяся на единицу вариации х;

х - независимая переменная (факторный признак), используемая для определения зависимой переменной.

Коэффициенты а и b рассчитываются на основе наблюдений вели­чин у и х с помощью метода наименьших квадратов .

Предположим, что торговый агент продает детские игрушки, по­сещая квартиры случайным образом. Отсутствие посещения какой-то квартиры означает отсутствие продажи, или а = 0. Если в среднем каж­дый десятый визит сопровождается продажей на 62 доллара, то стоимость продажи на один визит составит 6,2 доллара, или b = 6,2.

у=0 + 6,2х.

Таким образом, можно ожидать, что при 100 визитах доход соста­вит 620 долларов. Надо помнить, что эта оценка не является обязатель­ной, а носит вероятностный характер.

Криволинейная связь характеризует связь между переменными, носящую более сложный характер по сравнению с прямой линией. На­пример, связь между переменными может описываться 5-образной кри­вой (см. раздел 7.3).

В зависимости от своего типа связь может быть охарактеризована путем определения: ее присутствия (отсутствия), направления и силы (тесноты) связи.

Присутствие характеризует наличие или отсутствие систематиче­ской связи между двумя изучаемыми переменными; оно имеет статисти­ческую природу. Проведя испытание статистической значимости, опреде­ляют, существует ли зависимость между данными. Если результаты ис­следования отвергают нулевую гипотезу, это говорит о том, что зависи­мость между данными существует.

В случае монотонных линейных связей последние могут быть опи­саны с точки зрения их направления - в сторону увеличения или уменьшения.

Связь между двумя переменными может быть сильной, умеренной, слабой или отсутствовать. Сильная зависимость характеризуется высокой вероятностью существования связи между двумя переменными, слабая - малой вероятностью.

Существуют специальные процедуры для определения указанных выше характеристик связей. Первоначально надо решить, какой тип свя­зей может существовать между двумя изучаемыми переменными. Ответ на этот вопрос зависит от выбранной шкалы измерений.

Шкала низкого уровня (наименований) может отразить только не­точные связи, в то время как шкала отношений, или интервальная, - очень точные связи. Определив тип связи (монотонная, немонотонная), надо установить, существует ли эта связь для генеральной совокупности в целом. Для этого проводятся статистические испытания.

После того как найдено, что для генеральной совокупности суще­ствует определенный тип связи, устанавливается ее направление. Нако­нец, необходимо установить силу (тесноту) связи.

Для определения, существует или нет немонотонная зависимость, используется таблица сопряженности двух переменных и критерий хи-квадрат. Как правило, критерий хи-квадрат применяется для анализа таб­лиц сопряженности номинальных признаков, однако он может использо­ваться и при анализе взаимосвязи порядковых, или интервальных, пере­менных. Если, скажем, было выяснено, что две переменные не связаны друг с другом, то их дальнейшим исследованием заниматься не стоит. Некоторые указания на связь скорее были обусловлены ошибкой выбор­ки. Если же тест на хи-квадрат указал на связь, то она существует в ре­альности для генеральной совокупности и ее, возможно, следует изучать. Однако этот анализ не указывает на характер связи.

Предположим, что изучалась лояльность к определенной марке пи­ва среди служащих и рабочих (двумя переменными, измеренными в шка­ле наименований). Результаты опроса затабулированы в следующем виде (табл. 4.16).

Таблица 4.16

Матрицы сопряженности частоты

Результаты первоначальной табуляции

Первоначальные процентные данные (деление на 200)

Проценты по колонкам

Первая из приведенных матриц содержит наблюдаемые частоты, которые сравниваются с ожидаемыми частотами, определяемыми как теоретические частоты, вытекающие из принимаемой гипотезы об отсут­ствии связи между двумя переменными (выполняется нулевая гипотеза). Величина отличия наблюдаемых частот от ожидаемых выражается с по­мощью величины х-квадрата. Последняя сравнивается с ее табличным значением для выбранного уровня значимости. Когда величина хи-квадрата мала, то нулевая гипотеза принимается, а следовательно, счита­ется, что две переменные являются независимыми и исследователю не стоит тратить время на выяснение связи между ними, поскольку связь является результатом выборочной ошибки.

Вернемся к нашему примеру и рассчитаем ожидаемые частоты, пользуясь таблицей частот:

=

где f ni - наблюдаемая частота в ячейке i;

f ai - ожидаемая частота в ячейке i;

n - число ячеек матрицы.

Из таблицы критических значений х-квадрата вытекает, что для степени свободы, равной в нашем примере 1, и уровня значимости альфа =0,05 критическое значение х-квадрата равно 3,841 . Видно, что рас­четное значение х-квадрата существенно больше его критического значе­ния. Это говорит о существовании статистически значимой связи между родом деятельности и лояльностью к исследованной марке пива, и не только для данной выборки, но и для совокупности в целом. Из таблицы следует, что главная связь заключается в том, что рабочие покупают пиво данной марки реже по сравнению со служащими.

Теснота связи и ее направление определяются путем расчета коэф­фициента корреляции, который изменяется от -1 до +1. Абсолютная ве­личина коэффициента корреляции характеризует тесноту связи, а знак указывает на ее направление .

Вначале определяется статистическая значимость коэффициента корреляции. Безотносительно к его абсолютной величине коэффициент корреляции, не обладающий статистической значимостью, бессмыслен. Статистическая значимость проверяется с помощью нулевой гипотезы, которая констатирует, что для совокупности коэффициент корреляции равен нулю. Если нулевая гипотеза отвергается, это означает, что коэф­фициент корреляции для выборки является значимым и его значение для совокупности не будет равно нулю. Существуют таблицы, с помощью которых, для выборки определенного объема, можно определить наи­меньшую величину значимости для коэффициента корреляции.


Таблица 4.17

Сила связи в зависимости от величины коэффициента корреляции

Рассмотрим пример. Исследуется возможная взаимосвязь между суммарными продажами компании на отдельных двадцати территориях и числом сбытовиков, осуществляющих эти продажи. Были рассчитаны средние величины продаж и средние квадратические отклонения. Сред­няя величина продаж составила 200 миллионов долларов, а среднее квадратическое отклонение - 50 миллионов долларов. Среднее число сбыто­виков равнялось 12 при среднем квадратическом отклонении, равном 4. Для стандартизации полученных чисел в целях проведения унифици­рованных сравнений объемы продаж в каждом регионе переводятся в величины средних квадратических отклонений от средней величины для всех регионов (путем вычитания объема продаж для каждого региона из среднего для регионов объема продаж и деления полученных величин на среднее квадратическое отклонение). Такие же расчеты проводятся и для сбытовиков, обслуживающих разные регионы (рис. 4.7). Из рис. 4.7 вид­но, что две линии изменяются подобным образом. Это говорит о поло­жительной, очень тесной связи двух исследуемых переменных.

Рис. 4.7. Корреляция между числом сбытовиков и объемами продаж

Исходные данные в рассматриваемом примере также возможно представить по-другому (рис. 4.8). Из рис. 4.8 вытекают относительно слабый разброс точек (если бы все они легли на одну линию, коэффици­ент корреляции был бы равен +1) и достаточно большой угол наклона воображаемой кривой, проведенной через эти точки, что говорит о силь­ном влиянии численности сбытовиков на объем продаж.

Корреляционная зависимость – предполагает взаимную согласованность изменений переменных величин. Эти изменения можно измерить однократно или многократно

Кластерный анализ.

Функциональное воздействие – изменения независимой переменной сопровождаются все ускоряющимися изменениями зависимой.

Функциональная зависимость – изменение одной переменной оказывает воздействие на изменение другой переменной, которая воздействует на первую переменную. Корреляционный анализ.

26. Корреляционный анализ. Проблема ложной корреляции. Коэффициенты корреляции.

Применяется для выяснения взаимодействия и тенденций изменения характеристик изучаемого явления. Корреляция – наличие статистической взаимосвязи признаков. Корреляционный анализ выясняет функциональную зависимость между переменными величинами, которая характеризуется тем, что каждому значению одной из них соответствует вполне определенное значение другой.

Парная (характеризует тип, форму, плотность связи между 2 признаками) и множественная корреляция (между несколькими).

Зависимость чаще всего возникает там, где одно явление находится под воздействием большого числа факторов, действующих с разной силой, поэтому есть специальные меры корреляционной связи – коэффициенты корреляции. Они показывают степень зависимости одного социального явления от другого (плотность связи). Чем выше коэффициент между 2 переменными, тем точнее можно предсказать значения одной из них по значениям другой. Коэффициент не содержит информации о том, является ли данная связь причинно-следственной или сопутствующей (порожденной одной причиной). Величина коэффициента позволяет определить плотность связи как меньшую или больную. По знаку для порядковых рядов можно сказать, является ли связь обратной или прямой, для номинальных знак не несет смысловой нагрузки. Для установления корреляционной связи между 2 признаками надо доказать, что все другие переменные не оказывают воздействия на отношения 2 переменных. Иначе возникает ситуация ложной корреляции. Чтобы избежать ошибки в ситуации ложной корреляции используют анализ взаимосвязи между двумя перемен-ными с помощью контрольного фактора. Корреляц. анализ позволяет отбросить несуществующие связи.

Корреляционному анализу предшествует стадия расчет статистики Х 2 . она позволяет проверить нулевую гипотезу о наличии связи между 2 рядами признаков. Нулевая гипотеза – утверждение, отрицающее зависимость между рядами переменных. Доказательство ее ложности говорит о том, что связь есть.

таблица с данными опроса.

таблица распределения вероятностных признаков. Значение в ячейках равно отношению произведения соответствующего итогового столбца и строки к общему числу опрошенных.

полученной значение необходимо сравнить с табличным критически значением Х 2 . для этого надо определить степень свободы (df).

Df = (r – 1)(c – 1)

5. определить уровень статистической значимости. Он оказывает, насколько вероятна связь, зафиксированная между 2 признаками. = 0, 05.

6. сравнить расчетное значение хи-квадрат с табличным.

7. нулевая гипотеза отвергается, если расчетное значение хи-квадрат больше, чем табличное.

Если изучается связь между альтернативными признаками, то таблица 4-клеточная. Коэффициент Юла (Q) и коэффициент контингенции (Ф).

Коэффициент Юла

Q = ac bd / ac + bd . При Q = 0 связи между признаками нет. При Q = 0, 59 существует неустойчивая связь. При Q больше или равно 1, корреляция полная. Односторонняя связь.

Для измерения двусторонней связи коэффициент контингенции. Ф всегда меньше Q.

Ф = ac bd / √ (a + d )(b + c )(a + b )(c + d )

Коэффициент корреляции Пирсона – стандартный.

P = √ X 2 / X 2 + N . N - количество опрошенных.

Если P больше или равен 0, 37, то связь есть.

Коэффициент Чупрова.

Т = √ X 2 / N √ (C -1)(C – 1). T больше или равен 0, 5.

Коэффициенты ранговой корреляции. Ранговые шкалы. Спирмен

Р = 1 – 6 ∑ d 2 / N (N 2 – 1)

D – разность между рангами. N - количество рангов.

Цель: выявление сходства распределения ответов 2 групп опрашиваемых на один и тот же вопрос. При р= - 1 порядок распределения ответом по 2 группам прямо противоположен, а при р= +1 он совпадает. Сравнивает идентичность распределения ответов 2 групп. Также есть коэффициент ранговой корреляции Кендалла и множественный коэффициент корреляции.

Согласно исследованию научных публикаций в наиболее престижных зарубежных журналах, посвященных социальным и поведенческим наукам (Ч.Теддли, М.Элайс, 2010), 77% всех социологических исследований проведены в рамках количественного подхода. Из них 71% является корреляционными исследованиями или исследованиями, посвященными изучению связей между социальными явлениями.

Самый простой вид корреляционных исследований - изучение парных взаимосвязей или совместной изменчивости двух переменных. Такого рода исследования пригодны для решения двух научных задач:

а) доказательства существования причинно-следственной связи между переменными (наличие связи является важным, но не единственным, условием причинно-следственной зависимости);

б) предсказания: в случае наличия связи между переменными можно с определенным уровнем точности предсказывать значения одной переменной, если нам известно значение другой.

Связь между двумя переменными есть в том случае, когда изменение категории одной переменной ведет к изменению распределения второй:

Легко заметить, что в зависимости от категории переменной "Удовлетворенность работой" переменная "Продуктивность труда" меняет свое распределение. Следовательно, мы можем сделать вывод о существовании связи между переменными.

Также из этого примера видно, что каждому из значений одной переменной отвечает несколько значений другой. Такие связи называются статистическими или вероятностными. В данном случае, связь между переменными не является абсолютной. В нашем случае это означает, что кроме удовлетворенности работой есть и другие факторы, влияющие на продуктивность труда.

В случае же, когда одному значению первой переменной соответствует лишь одно значение второй, говорят о функциональных связях. Вместе с тем, даже когда есть основания говорить о функциональной связи, невозможно на все 100% продемонстрировать ее в эмпирической действительности по двум причинам: а) из-за погрешности измерительных инструментов; б) из-за невозможности контроля всех условий окружающей среды, влияющих на эту связь. И поскольку в социальных науках ученые имеют дело именно с вероятностными связями, постольку ниже речь пойдет именно о них.

Парные связи владеют тремя характеристиками: силой, направлением и формой.

Сила показывает насколько согласованна изменчивость двух переменных. Сила связи может изменяться в диапазоне от 0 до +1 (если хотя бы одна из переменных относится к номинальной шкале) или от -1 до +1 (если обе переменные относятся, по крайней мере, к порядковой шкале). При этом 0 и близкие к ней величины говорят об отсутствии связи между переменными, а величины близкие к +1 (прямая связь) или -1 (обратная связь) - о сильной связи. Один из вариантов интерпретации связи, с точки зрения ее силы, выглядит следующим образом:

Все значения в таблице приведены в модуле, т.е. должны анализироваться безотносительно к знаку. Так, например, связь -0,67 и +0,67 являются одинаковыми по силе, но разными по направлению.

Сила связи определяется с помощью коэффициентов корреляции. К коэффициентам корреляции относятся, например, фи и V-крамера (номинальные переменные, мало категорий/табличный вид), Гамма (порядковые переменные, мало категорий/табличный вид), Кендалла и Спирмена (порядковые переменные, много категорий), Пирсона (метрические переменные, много категорий).

Направление говорит о характере взаимного изменения категорий переменных. Если с увеличением значений одной переменной значения другой переменной также увеличиваются, то связь является прямой (или положительной). Если же ситуация противоположная и увеличение значений одной переменной ведет к уменьшению значений второй, то связь обратная (или отрицательная).

Направление связи может иметь место только в тех случаях, когда речи идет о порядковых и/или метрических переменных, то есть тех переменных, значения которых можно упорядочить от меньших к большим или наоборот. Таким образом, если хотя бы одна переменная относится к номинальной шкале, то можно говорить только о силе связи и ее форме, но не о направлении.

Направление связи можно определить либо с помощью таблиц сопряженности (мало категорий), либо с помощью диаграммы рассеяния (много категорий), либо с помощью знака коэффициента корреляции (количество категорий переменных не имеет значения):

А. Определение направления связи с помощью таблицы сопряженности.

Б. Определение направления связи с помощью диаграммы рассеяния.

В. Определение направления связи с помощью коэффициентов корреляции.

Форма связи указывает на особенности совместной изменчивости двух переменных. В зависимости от того, к какой шкале относится переменная, форму связи можно проанализировать либо с помощью столбчатой диаграммы/таблицы сопряженности (если хотя бы одна переменная является номинальной), либо с помощью диаграммы рассеяния (для порядковых и метрических шкал).

Выделяют несколько видов связи между переменными.

· Корреляционная зависимость предполагает взаимную согласованность изменений переменных величин, а также то, что эти изменения можно измерить однократно или многократно (в данном случае говорят о плотности связи переменных, но не о причинно-следственных связях); например, в современном российском обществе чем выше возраст, тем ниже социальный статус человека; отдельные проявления геронтократии эту закономерность не нарушают



· Функциональное воздействие предполагает, что изменения независимой переменной сопровождаются все более ускоряющимися изменениями зависимой переменной (причинно-следственные связи фиксируют влияние независимой переменной на зависимую); например, чем более радикальными политическими взглядами обладает человек, тем в большей степени он не приемлет существующий политический режим; в то же время нельзя утверждать, что чем в большей степени человек негативно оценивает власть, тем более радикальными взглядами он обладает

· Функциональная зависимость - связь переменных, означающая, что изменение одной переменной оказывает воздействие на изменение другой, которая в свою очередь воздействует на первую переменную, т.е. это связи взаимодействия; например, информированность человека

о политике напрямую связана с интересом к ней; чем больше человек политикой интересуется, тем больше в ней разбирается. Связь может быть нелинейной и немонотонной

Каким бы в итоге ни оказался тип связи между переменными, необходимо убедиться в ее наличии в принципе. Корреляционный анализ применяется для выяснения взаимодействия и тенденций изменения характеристик изучаемого явления.

Корреляция - наличие статистической взаимосвязи признаков, когда каждому определенному значению одного признака X соответствует определенное значение Y (или комплекс значений У-ряда распределения). Корреляционный анализ выясняет функциональную зависимость между переменными величинами, которая характеризуется тем, что каждому значению одной из них соответствует вполне определенное значение другой. Однако корреляционный анализ не предполагает выявления каузальных связей, поэтому при интерпретации результатов формулировки типа «переменная х влияет на переменную у» или «переменная х зависит от переменной у» недопустимы. Различают парную и множественную корреляции. Парная корреляция

характеризует тип, форму и плотность связи между двумя признаками, множественная - между несколькими. Корреляционная зависимость возникает чаще всего там, где одно явление находится под воздействием большого числа факторов, действующих с разной силой, поэтому существуют специальные меры корреляционной связи, называемые коэффициентами корреляции. Коэффициенты (в статистике их общее количество исчисляется десятками) показывают степень взаимосвязи явлений (плотность корреляционной связи, иногда исследователи говорят об интенсивности связи) и характер этой связи (направленность). Связь может быть прямой и обратной. Например, чем старше избиратель, тем более активно он участвует в выборах. Чем выше уровень доходов людей, тем в меньшей степени они склонны участвовать в выборах в качестве избирателей (обратная связь). Чем выше коэффициент корреляции между двумя переменными, тем точнее можно предсказать значения одной из них по значениям другой. Характер связи также определяется в категориях «монотонная» (направление изменения одной переменной не меняется при изменении второй переменной) и «немонотонная» связь. Помимо оценки плотности и направленности связи необходимо учитывать надежность (достоверность) связи.

44 . Корреляционный анализ. Проблема ложной корреляции. Коэффициенты корреляции: виды и условия использования.

Корреляционный анализ применяется для выяснения взаимодействия и тенденций изменения характеристик изучаемого явления.

Первоначальной стадией его развития считается период 1870- 1880-х годов, а автором понятия «коэффициент корреляции» - Фрэнсис Гальтон. Наиболее серьезные разработки в области корреляционного анализа на рубеже XIX-XX вв. выполнил Карл Пирсон. Традиционно корреляционный анализ используется для проверки гипотезы о статистической зависимости двух или нескольких переменных. В качестве вспомогательного средства анализ корреляций можно использовать при проверке пригодности экспериментальных гипотез и для включения переменных в факторный и регрессионный анализ.

Корреляционный анализ осуществляется с помощью сравнения и сопоставления рядов распределения, построенных на основании группировок по различным признакам.

Корреляция - наличие статистической взаимосвязи признаков, когда каждому определенному значению одного признака X соответствует определенное значение Y (или комплекс значений У-ряда распределения). Корреляционный анализ выясняет функциональную зависимость между переменными величинами, которая характеризуется тем, что каждому значению одной из них соответствует вполне определенное значение другой. Однако корреляционный анализ не предполагает выявления каузальных связей, поэтому при интерпретации результатов формулировки типа «переменная х влияет на переменную у» или «переменная х зависит от переменной у» недопустимы. Различают парную и множественную корреляции. Парная корреляция характеризует тип, форму и плотность связи между двумя признаками, множественная - между несколькими. Корреляционная зависимость возникает чаще всего там, где одно явление находится под воздействием большого числа факторов, действующих с разной силой, поэтому существуют специальные меры корреляционной связи, называемые коэффициентами корреляции. Коэффициенты (в статистике их общее количество исчисляется десятками) показывают степень взаимосвязи явлений (плотность корреляционной связи, иногда исследователи говорят об интенсивности связи) и характер этой связи (направленность). Связь может быть прямой и обратной. Например, чем старше избиратель, тем более активно он участвует в выборах. Чем выше уровень доходов людей, тем в меньшей степени они склонны участвовать в выборах в качестве избирателей (обратная связь). Чем выше коэффициент корреляции между двумя переменными, тем точнее можно предсказать значения одной из них по значениям другой. Характер связи также определяется в категориях «монотонная» (направление изменения одной переменной не меняется при изменении второй переменной) и «немонотонная» связь. Помимо оценки плотности и направленности связи необходимо учитывать надежность (достоверность) связи.

Корреляционный анализ последовательно решает три практические задачи:

1) определение корреляционного поля и составление корреляционной (в данном случае это комбинированная) таблицы;

2) вычисление выборочных корреляционных отношений или коэффициентов корреляции;

3) проверка статистической гипотезы значимости связи.

Коэффициент корреляции не содержит информации о том, является ли данная связь между ними причинно-следственной или сопутствующей (порожденной общей причиной).

Для установления корреляционной связи между двумя признаками необходимо доказать, что все другие переменные не оказывают воздействия на отношения двух переменных, являющихся предметом изучения. В противном случае возникает ситуация ложной корреляции. Секрет возникновения ложной корреляции заключается в том, что у двух явлений, связь которых формально подкрепляется наличием статистической связи, есть общая причина, в равной степени влияющая на каждое из них.

Во многих случаях статистически фиксируемая связь между признаками может быть объяснена третьей переменной.

Для выяснения типа связи является перспективным представление данных в виде графика, который позволяет визуально оценить степень рассеяния значений переменных. Особое внимание следует обратить на наличие «выбросов» (экстремально большие или малые значения признака), показывающих существенные отклонения от линии регрессии - условной прямой, которая показывает характер связи между

признаками на графике. Для выяснения факторов, определяющих причинно-следственную связь между переменными, прибегают к пат-анализу. Чтобы избежать ошибки в ситуации ложной корреляции, используют анализ взаимосвязи двух переменных с помощью контрольного (опосредующего) фактора. Итак, корреляционный анализ позволяет отбросить несуществующие или несущественные связи.

Специально следует оговорить, что для получения достоверных данных необходимо обеспечить достаточно большое число наблюдений, поскольку необоснованно сокращая объем выборки, мы снижаем уровень надежности полученных выводов о статистических зависимостях. Следовательно, необходимы специальные знания статистических расчетов. Операции по расчету коэффициентов корреляции осуществляют программы PC, но необходимо хотя бы иметь представление об элементарных процедурах анализа.

Корреляционному анализу предшествует стадия расчета статистики х2- Но на основании полученного значения статистики х2 мы ничего не можем сказать о плотности связи анализируемых переменных.

Для решения такой задачи необходимо обратиться к коэффициентам корреляционной связи.

Различные коэффициенты корреляции могут принимать значения от - 1 до + 1 или от 0 до +1. Специально следует оговорить, что значения коэффициентов, которые принимаются как статистически значимые, значительно разнятся между собой для различных видов коэффициентов корреляции

качестве предварительного замечания отметим, что принято признавать «сверхсильной» связью показатели корреляции свыше |±0,8|, «сильной» - от |±0,6| до |±0,8|, «умеренной» - от |±0,4| до |±0,6|, «слабой » - от |±0,2| до |±0,4|, связь отсутствует при показателях коэффициентов корреляции до |±0,2|. Применительно к значению коэффициента корреляции, приближающемуся к +1, обычно используют обозначение «строгая положительная корреляция» (perfect positive correlation), а к коэффициенту корреляции, равному -1, - «строгая отрицательная корреляция» {perfect negative correlation). А. Бююль и П. Цёфель, а также А. С. Ахременко предлагают несколько иной вариант интерпретации: до |±0,2| - очень слабая корреляция, от |+0,2| до |±0,5| - слабая корреляция, от |+0,5| до 1+0,7| - средняя корреляция, от |±0,7| до |±0,9| - высокая корреляция, свыше |±0,9| - очень высокая корреляция. Отметим, что высокие значения корреляции в реальных политических исследованиях встречаются крайне редко. И действительной исследовательской удачей является обнаружение просто статистически значимого коэффициента корреляции.

Важным показателем оценки коэффициента корреляции является показатель уровня значимости. Для корреляционного анализа он, как и для статистики хи-квадрат, не должен превышать 0,05 (р < 0,05), т.е. вероятность ошибки - подмена устойчивой статистически обоснованной случайной связи - не превышает 5%. Показатель уровня значимости является расчетным, однако как для статистики х2, так и для корреляционного анализа этот показатель формально принимают за константу.

Анализ данных начинается с перевода «сырых» данных в осмысленную информации и включает их введение в компьютер, проверку на предмет ошибок, кодирование, представление в матричной форме (табулирование). Все это называется преобразованием исходных данных.

Далее проводится статистический анализ, т.е. определяются средние величины, частоты, корреляционные и регрессионные соотношения, осуществляется анализ трендов. После сбора данных необходимо их преобразовать, т.е. привести к более сжатому виду, удобному для анализа и обладающему достаточной для заказчика информацией. Обычно закодированные исходные данные представляются в виде матрицы, столбцы которой содержат ответы на различные вопросы анкеты, а ряды -- респондентов или изучаемые ситуации. Преобразование заключается в описании данных матрицы на языке ограниченного числа мер, характеризующих собранные данные. Табулирование помогает исследователю понять, что означают собранные данные. Одновременный анализ двух и более категорий опрашиваемых называется перекрестной табуляцией. Исследователь, осуществляя преобразование, старается найти зави­симости среди собранных данных и в то же время достигнуть наиболее высокого уровня обобщения.

Выделяют, по крайней мере, следующие четыре функции преобра­зования данных: обобщение, определение концепции (концептуализация), перевод результатов статистического анализа на понятный для менеджера язык (коммуникация), определение степени соответствия полученных результатов всей совокупности (экстраполяция). Из-за неспособности человека анализировать большие массивы ин­формации необходимо исходные собранные данные представить в удобном для осмысления виде, т.е. их необходимо обобщить, выразить через ограниченное число понятных параметров.

Большинство статистических мер основано на конкретных предпо­ложениях, которые определяют базу анализа собранных данных. Концептуализация направлена на оценку результатов обобщения. Например, слабый разброс оценок определенной марки продукта вырабатывает у исследователя одно суждение (концепцию), сильный -- другое.

Коммуникация предполагает при интерпретации полученных результатов использование понятных для заказчика категорий. Например, если для него понятна такая статистическая мера, как «мода», то она исполь­зуется при представлении полученных результатов, если нет, то результаты описываются на общепринятом языке.

Экстраполяция в данном случае предполагает определение, в какой степени данные выборки можно обобщить на всю совокупность. Определение и интерпретация связей между двумя переменными В связях не всегда имеются причинно-следственный характер, а могут иметь просто статистическую природу. В поставленных вопросах можно определенно говорить о влиянии одного фактора на другой. Однако степень влияния изучаемых факторов может быть различной; скорее всего, влияние могут оказывать также какие-то другие факторы. Выделяют четыре типа связей между двумя переменными: немонотонная, монотонная, линейная и криволинейная.

Немонотонная связь характеризуется тем, что присутствие (отсутствие) одной переменной систематически связано с присутствием (отсут­ствием) другой переменной, но ничего неизвестно о направлении этого взаимодействия (приводит ли, например, увеличение одной переменной к увеличению или уменьшению другой). Например, известно, что посетители закусочных в утренние часы предпочитают заказывать кофе, а в середине дня -- чай.

Немонотонная связь просто показывает, что утренние посетители предпочитают также заказывать яйца, бутерброды и бисквиты, а в обеденное время скорее заказывают мясные блюда с гарниром.

Монотонная связь характеризуется возможностью указать только общее направление связи между двумя переменными без использования каких-либо количественных характеристик. Нельзя сказать, насколько, например, определенное увеличение одной переменной приводит к увеличению другой переменной.

Существуют только два типа таких связей: увеличение и уменьшение. Например, владельцу обувного магазина известно, что более взрослые дети обычно требуют обувь больших размеров. Однако невозможно четко установить связь между конкретным возрастом и точным размером обуви.

Линейная связь характеризует прямолинейную зависимость между двумя переменными. Знание количественной характеристики одной переменной автоматически предопределяет знание величины другой переменной:

Где у -- оцениваемая или прогнозируемая зависимая переменная (ре­зультативный признак); а -- свободный член уравнения; х -- независимая переменная (факторный признак), используемая для определения зависимой переменной. b -- коэффициент регрессии, измеряющий среднее отношение от­клонения результативного признака от его средней величины к отклонению факторного признака от его средней величины на одну единицу его измерения -- вариация у, приходящаяся на единицу вариации х.

Коэффициенты а и b рассчитываются на основе наблюдений величин у и х с помощью метода наименьших квадратов.

Криволинейная связь характеризует связь между переменными, носящую более сложный характер по сравнению с прямой линией. Например, связь между переменными может описываться S-об разно и кривой.

В зависимости от своего типа связь может быть охарактеризована путем определения: ее присутствия (отсутствия), направления и силы (тесноты) связи. Присутствие характеризует наличие или отсутствие систематической связи между двумя изучаемыми переменными; оно имеет статистическую природу. Проведя испытание статистической значимости, определяют, существует ли зависимость между данными. Если результаты исследования отвергают нулевую гипотезу, это говорит о том, что зависимость между данными существует.

В случае монотонных линейных связей последние могут быть описаны с точки зрения их направления -- в сторону увеличения или уменьшения. Связь между двумя переменными может быть сильной, умеренной, слабой или отсутствовать. Сильная зависимость характеризуется высокой вероятностью существования связи между двумя переменными, слабая -- малой вероятностью.

Существуют специальные процедуры для определения указанных выше характеристик связей. Первоначально надо решить, какой тип связей может существовать между двумя изучаемыми переменными. Ответ на этот вопрос зависит от выбранной шкалы измерений.

Шкала низкого уровня (наименований) может отразить только не­точные связи, в то время как шкала отношений, или интервальная, -- очень точные связи. Определив тип связи (монотонная, немонотонная), надо установить, существует ли эта связь для генеральной совокупности в целом. Для этого проводятся статистические испытания.

После того как найдено, что для генеральной совокупности суще­ствует определенный тип связи, устанавливается ее направление. Наконец, необходимо установить силу (тесноту) связи.


Наиболее распространенным способом социологического анализа является выявление взаимосвязи между переменными.

Термин переменная заимствован социологией из области математики и логики. Однако используется он в социологии в ином значении. Если в математике под переменной используется символ, вместо которого могут быть подставлены любые числа, то в социологии под переменной понимается то свойство или отношение исследуемых социальных явлений, которое может иметь большую или меньшую степень интенсивности и тем самым может быть редуцировано к числу. Так, свойство «возраст» может иметь множество значений. Свойство «биологический пол» имеет два значения

Понятие переменной относительно, так как зависит и от природы исследуемого свойства, допускающей тот или иной спектр дробления, и от принятой системы измерения.

Для переменных в социологии существует определенная классификация, использование которой значительно облегчает задачи выравнивания условий функционирования экспериментальной и контрольных групп и последующий контроль за ними в ходе эксперимента.

В процессе исследования следует различать Экспериментальные и Не экспериментальные Переменные. Экспериментальные переменные в свою очередь, делятся на Зависимые И Независимые переменные.

Независимую переменную можно рассматривать как причину (фактор), а зависимую как следствие (результат) воздействия независимой переменной.

Неэкспериментальные Переменные отражают те свойства и отношения исследуемого объекта, которые в равной степени действуют и в экспериментальной и в контрольной группах. Поэтому их называют Нейтральными.

Среди нейтральных переменных выделяются Неизменяющиеся и изменяющиеся переменные. К первым относятся те характеристики объекта, о которых известно, что в течение всего периода исследования они останутся без изменения. Следовательно, они требуют меньшего контроля. Ко вторым - те переменные, изменения которых возможны, и часто трудно прогнозируемы. Основное внимание (в отношении контроля) должно быть уделено этим переменным. Типологию переменных Г. А.Андреева представила в следующей схеме:

Связь различных переменных специфику и механизм функционирования исследуемого объекта. Социолог прослеживает, как изменяются одни переменные с изменением других. Если увеличение, например, такой независимой переменной как возраст ведет к увеличению производительности труда (зависимая переменная), то можно прийти к выводу о положительной (прямой) зависимости между переменными. Обратная зависимость (большеи меньше) свидетельствует об отрицательной связи.

Однако существует опасность прийти к ложному выводу, если не учитываетсяСкрытая переменная - незамеченная причина (обстоятельство), влияющее на исследуемое свойство. Так, у женщин, или у молодых рабочих могут оказаться низкие показатели в труде, что может дать повод к выводу об определяющей роли пола и возраста в труде. В то же время могут оказаться незамеченными исследователем такие скрытые независимые переменные, как квалификация и опыт.

Макс Вебер обнаружил у англичан - протестантов более высокую степень предпринимательской активности чем у англичан - католиков. Отсюда он пришел к выводу об определяющей роли протестантской этики в развитии капитализма. Однако он не учитывал такую Скрытую Переменную, как отстранение в XVIII веке протестантов от государственной деятельности, что способствовало ориентации их активности на другие сферы, в том числе и предпринимательскую.

социологический исследование выборка

Очень часто маркетолог ищет ответы на вопросы типа: «Увели­чится ли показатель рыночной доли при увеличении числа дилеров?», «Есть ли связь между объемом сбыта и рекламой?» Такие связи не всегда имеют причинно-следственный характер, а могут иметь просто статисти­ческую природу. В поставленных вопросах можно определенно говорить о влиянии одного фактора на другой. Однако степень влияния изучаемых факторов может быть различной; скорее всего, влияние могут оказывать также какие-то другие факторы. Выделяют четыре типа связей между двумя переменными: немонотонная, монотонная, линейная и криволи­нейная.

Немонотонная связь характеризуется тем, что присутствие (отсут­ствие) одной переменной систематически связано с присутствием (отсут­ствием) другой переменной, но ничего неизвестно о направлении этого взаимодействия (приводит ли, например, увеличение одной переменной к увеличению или уменьшению другой). Например, известно, что посети­тели закусочных в утренние часы предпочитают заказывать кофе, а в се­редине дня - чай.

Немонотонная связь просто показывает, что утренние посетители предпочитают также заказывать яйца, бутерброды и бисквиты, а в обе­денное время скорее заказывают мясные блюда с гарниром.

Монотонная связь характеризуется возможностью указать только общее направление связи между двумя переменными без использования каких-либо количественных характеристик. Нельзя сказать, насколько, например, определенное увеличение одной переменной приводит к уве­личению другой переменной. Существуют только два типа таких связей: увеличение и уменьшение. Например, владельцу обувного магазина из­вестно, что более взрослые дети обычно требуют обувь бoльших размеров. Однако невозможно четко установить связь между конкретным возрастом и точным размером обуви.

Линейная связь характеризует прямолинейную зависимость между двумя переменными. Знание количественной характеристики одной пе­ременной автоматически предопределяет знание величины другой пере­менной:

у=а+bх, (4.3)

где у - оцениваемая или прогнозируемая зависимая переменная (ре­зультативный признак);

а - свободный член уравнения;

b - коэффициент регрессии, измеряющий среднее отношение от­клонения результативного признака от его средней величины к отклонению факторного признака от его средней величины на одну единицу его измерения - вариация у, приходящаяся на единицу вариации х;

х - независимая переменная (факторный признак), используемая для определения зависимой переменной.

Коэффициенты а и b рассчитываются на основе наблюдений вели­чин у и х с помощью метода наименьших квадратов .

Предположим, что торговый агент продает детские игрушки, по­сещая квартиры случайным образом. Отсутствие посещения какой-то квартиры означает отсутствие продажи, или а = 0. Если в среднем каж­дый десятый визит сопровождается продажей на 62 доллара, то стоимость продажи на один визит составит 6,2 доллара, или b = 6,2.

у=0 + 6,2х.

Таким образом, можно ожидать, что при 100 визитах доход соста­вит 620 долларов. Надо помнить, что эта оценка не является обязатель­ной, а носит вероятностный характер.

Криволинейная связь характеризует связь между переменными, носящую более сложный характер по сравнению с прямой линией. На­пример, связь между переменными может описываться 5-образной кри­вой (см. раздел 7.3).

В зависимости от своего типа связь может быть охарактеризована путем определения: ее присутствия (отсутствия), направления и силы (тесноты) связи.

Присутствие характеризует наличие или отсутствие систематиче­ской связи между двумя изучаемыми переменными; оно имеет статисти­ческую природу. Проведя испытание статистической значимости, опреде­ляют, существует ли зависимость между данными. Если результаты ис­следования отвергают нулевую гипотезу, это говорит о том, что зависи­мость между данными существует.

В случае монотонных линейных связей последние могут быть опи­саны с точки зрения их направления - в сторону увеличения или уменьшения.

Связь между двумя переменными может быть сильной, умеренной, слабой или отсутствовать. Сильная зависимость характеризуется высокой вероятностью существования связи между двумя переменными, слабая - малой вероятностью.

Существуют специальные процедуры для определения указанных выше характеристик связей. Первоначально надо решить, какой тип свя­зей может существовать между двумя изучаемыми переменными. Ответ на этот вопрос зависит от выбранной шкалы измерений.

Шкала низкого уровня (наименований) может отразить только не­точные связи, в то время как шкала отношений, или интервальная, - очень точные связи. Определив тип связи (монотонная, немонотонная), надо установить, существует ли эта связь для генеральной совокупности в целом. Для этого проводятся статистические испытания.

После того как найдено, что для генеральной совокупности суще­ствует определенный тип связи, устанавливается ее направление. Нако­нец, необходимо установить силу (тесноту) связи.

Для определения, существует или нет немонотонная зависимость, используется таблица сопряженности двух переменных и критерий хи-квадрат. Как правило, критерий хи-квадрат применяется для анализа таб­лиц сопряженности номинальных признаков, однако он может использо­ваться и при анализе взаимосвязи порядковых, или интервальных, пере­менных. Если, скажем, было выяснено, что две переменные не связаны друг с другом, то их дальнейшим исследованием заниматься не стоит. Некоторые указания на связь скорее были обусловлены ошибкой выбор­ки. Если же тест на хи-квадрат указал на связь, то она существует в ре­альности для генеральной совокупности и ее, возможно, следует изучать. Однако этот анализ не указывает на характер связи.

Предположим, что изучалась лояльность к определенной марке пи­ва среди служащих и рабочих (двумя переменными, измеренными в шка­ле наименований). Результаты опроса затабулированы в следующем виде (табл. 4.16).

Таблица 4.16

Матрицы сопряженности частоты

Результаты первоначальной табуляции

Первоначальные процентные данные (деление на 200)

Проценты по колонкам

Первая из приведенных матриц содержит наблюдаемые частоты, которые сравниваются с ожидаемыми частотами, определяемыми как теоретические частоты, вытекающие из принимаемой гипотезы об отсут­ствии связи между двумя переменными (выполняется нулевая гипотеза). Величина отличия наблюдаемых частот от ожидаемых выражается с по­мощью величины х-квадрата. Последняя сравнивается с ее табличным значением для выбранного уровня значимости. Когда величина хи-квадрата мала, то нулевая гипотеза принимается, а следовательно, счита­ется, что две переменные являются независимыми и исследователю не стоит тратить время на выяснение связи между ними, поскольку связь является результатом выборочной ошибки.

Вернемся к нашему примеру и рассчитаем ожидаемые частоты, пользуясь таблицей частот:

=

где f ni - наблюдаемая частота в ячейке i;

f ai - ожидаемая частота в ячейке i;

n - число ячеек матрицы.

Из таблицы критических значений х-квадрата вытекает, что для степени свободы, равной в нашем примере 1, и уровня значимости альфа =0,05 критическое значение х-квадрата равно 3,841 . Видно, что рас­четное значение х-квадрата существенно больше его критического значе­ния. Это говорит о существовании статистически значимой связи между родом деятельности и лояльностью к исследованной марке пива, и не только для данной выборки, но и для совокупности в целом. Из таблицы следует, что главная связь заключается в том, что рабочие покупают пиво данной марки реже по сравнению со служащими.

Теснота связи и ее направление определяются путем расчета коэф­фициента корреляции, который изменяется от -1 до +1. Абсолютная ве­личина коэффициента корреляции характеризует тесноту связи, а знак указывает на ее направление .

Вначале определяется статистическая значимость коэффициента корреляции. Безотносительно к его абсолютной величине коэффициент корреляции, не обладающий статистической значимостью, бессмыслен. Статистическая значимость проверяется с помощью нулевой гипотезы, которая констатирует, что для совокупности коэффициент корреляции равен нулю. Если нулевая гипотеза отвергается, это означает, что коэф­фициент корреляции для выборки является значимым и его значение для совокупности не будет равно нулю. Существуют таблицы, с помощью которых, для выборки определенного объема, можно определить наи­меньшую величину значимости для коэффициента корреляции.


Таблица 4.17

Сила связи в зависимости от величины коэффициента корреляции

Рассмотрим пример. Исследуется возможная взаимосвязь между суммарными продажами компании на отдельных двадцати территориях и числом сбытовиков, осуществляющих эти продажи. Были рассчитаны средние величины продаж и средние квадратические отклонения. Сред­няя величина продаж составила 200 миллионов долларов, а среднее квадратическое отклонение - 50 миллионов долларов. Среднее число сбыто­виков равнялось 12 при среднем квадратическом отклонении, равном 4. Для стандартизации полученных чисел в целях проведения унифици­рованных сравнений объемы продаж в каждом регионе переводятся в величины средних квадратических отклонений от средней величины для всех регионов (путем вычитания объема продаж для каждого региона из среднего для регионов объема продаж и деления полученных величин на среднее квадратическое отклонение). Такие же расчеты проводятся и для сбытовиков, обслуживающих разные регионы (рис. 4.7). Из рис. 4.7 вид­но, что две линии изменяются подобным образом. Это говорит о поло­жительной, очень тесной связи двух исследуемых переменных.

Рис. 4.7. Корреляция между числом сбытовиков и объемами продаж

Исходные данные в рассматриваемом примере также возможно представить по-другому (рис. 4.8). Из рис. 4.8 вытекают относительно слабый разброс точек (если бы все они легли на одну линию, коэффици­ент корреляции был бы равен +1) и достаточно большой угол наклона воображаемой кривой, проведенной через эти точки, что говорит о силь­ном влиянии численности сбытовиков на объем продаж.

error: