|
Таблицы сопряженности 2x2
Назначение
Кросстабуляция - это
процесс объединения двух (или нескольких) таблиц частот так, что каждая ячейка
(клетка) в построенной таблице представляется единственной комбинацией значений
или уровней табулированных переменных. Таким образом, кросстабуляция позволяет
совместить частоты появления наблюдений на разных уровнях рассматриваемых
факторов. Исследуя эти частоты, можно определить связи между табулированными
переменными. Обычно табулируются категориальные (номинальные) переменные или
переменные с относительно небольшим числом значений. Если вы хотите табулировать
непрерывную переменную (например, доход), то вначале ее следует перекодировать,
разбив диапазон изменения на небольшое число интервалов (например, доход:
низкий, средний, высокий).
Простейшая форма кросстабуляции - это таблица сопряженности 2
x 2, в которой значения двух переменных "пересечены" (сопряжены) на разных
уровнях и каждая переменная принимает только два значения, т.е. имеет два уровня
(поэтому таблица называется "2 на 2").
Таблицы сопряженности позволяют измерить связи между
кросстабулированными переменными.
Подготовка
Для проведения
данной процедуры необходимо выделить диапазон размером
2x2 вызвать команду
Статистика→Непараметрическая
статистика →Таблицы сопряженности 2x2
Результаты
Хи-квадрат Пирсона -
это наиболее простой критерий проверки значимости связи между двумя
категоризованными переменными. Критерий Пирсона основывается на том, что в
двувходовой таблице ожидаемые частоты при гипотезе "между переменными нет
зависимости" можно вычислить непосредственно. Представьте, что 20 мужчин и 20
женщин опрошены относительно выбора газированной воды (марка A или марка B).
Если между предпочтением и полом нет связи, то естественно ожидать равного
выбора марки A и марки B для каждого пола.
Значение статистики хи-квадрат и ее уровень значимости
зависит от общего числа наблюдений и количества ячеек в таблице. В соответствии
с принципами, обсуждаемыми в разделе Элементарные понятия статистики,
относительно малые отклонения наблюдаемых частот от ожидаемых будет доказывать
значимость, если число наблюдений велико.
Имеется только одно существенное ограничение использования
критерия хи-квадрат (кроме очевидного предположения о случайном выборе
наблюдений), которое состоит в том, что ожидаемые частоты не должны быть очень
малы. Это связано с тем, что критерий хи-квадрат по своей природе проверяет
вероятности в каждой ячейке; и если ожидаемые частоты в ячейках, становятся,
маленькими, например, меньше 5, то эти вероятности нельзя оценить с достаточной
точностью с помощью имеющихся частот. Дальнейшие обсуждения см. в работах
Everitt (1977), Hays (1988) или Kendall and Stuart (1979).
Йетса хи-квадрат. Аппроксимация статистики хи-квадрат для таблиц 2x2 с
малыми числом наблюдений в ячейках может быть улучшена уменьшением абсолютного
значения разностей между ожидаемыми и наблюдаемыми частотами на величину 0.5
перед возведением в квадрат (так называемая поправка Йетса). Поправка Йетса,
делающая оценку более умеренной, обычно применяется в тех случаях, когда таблицы
содержат только малые частоты, например, когда некоторые ожидаемые частоты
становятся меньше 10 (дальнейшее обсуждение см. в Conover, 1974; Everitt, 1977;
Hays, 1988; Kendall and Stuart, 1979 и Mantel, 1974).
После значения критерия (в следующем
столбце) выводится уровень значимости.
Точный критерий Фишера(критерий
Фишера — Ирвина, точный метод Фишера) . Этот критерий применим только для таблиц 2x2.
Критерий основан на следующем рассуждении. Даны маргинальные частоты в таблице,
предположим, что обе табулированные переменные независимы. Зададимся вопросом:
какова вероятность получения наблюдаемых в таблице частот, исходя из заданных
маргинальных? Оказывается, эта вероятность вычисляется точно подсчетом всех
таблиц, которые можно построить, исходя из маргинальных. Таким образом, критерий
Фишера вычисляет точную вероятность появления наблюдаемых частот при нулевой
гипотезе (отсутствие связи между табулированными переменными). В таблице
результатов приводятся как односторонние, так и двусторонние уровни.
Фи-квадрат представляет собой
меру связи между двумя переменными в таблице 2x2. Его значения изменяются от 0
(нет зависимости между переменными; хи-квадрат = 0.0) до 1 (абсолютная
зависимость между двумя факторами в таблице). Подробности см. в Castellan and
Siegel (1988, стр. 232).
Copyright ©Alexey Simachov, 2001-2005
|