Шкалирование
В пакете SPSS для каждой переменной надо определить одну из трех шкал. Аналитик задает для переменной тип шкалы, для того чтобы указать пакету SPSS, какие операции разрешены, а какие нет при анализе данной переменной.
Почему некоторые операции могут быть запрещены?
Если ученик решает на уроке математики задачу и получает ответ «Для выполнения работы в течение часа требуется полтора землекопа», то он понимает, что с решением что-то не так.
С другой стороны, ответ «Работа будет выполнена за полтора часа» не будет абсурдным. Получается, что иногда число 1,5 допустимо, разрешено, а иногда запрещено.
Приведем другой пример. При опросе покупателей регистрировалось место жительства респондента, при этом ответ «Я житель Всеволожска» кодировался числом 1, ответ «Я житель Выборга» — числом 2, а ответ «Я житель Петербурга» — числом 3. Вдобавок во всех городах было опрошено одинаковое количество респондентов. Среднее арифметическое ответов на вопрос «В каком городе вы живете?» будет равно 2, т.е. в среднем все опрошенные живут в Выборге. Ответ бессмысленный, в такой ситуации нельзя вычислять среднее арифметическое, да и складывать коды городов тоже нельзя. Подобные случаи всем вполне понятны.
Итак, есть ситуации, когда человек принимает решение «автоматически». Но статистический анализ проводится вместе с пакетом SPSS, а у пакета нет вашего житейского опыта. На многое ему надо указывать. Чтобы предупредить возможные ошибки с запрещенными числами и операциями, введено понятие шкалы, в которой измерена переменная.
Номинальная шкала задается для переменных, значения которых являются условными именами. Обычно эти имена могут быть пронумерованы, номера используются в качестве кодов.- При этом сам номер не несет никакой смысловой нагрузки.
Типичные примеры переменных, измеренных в номинальной шкале, — имя, фамилия, пол, национальность, цвет, город, номер страхового полиса и т.д. Если переменная измерена в номинальной шкале, то те коды, которые используются для значений этой переменной, никак не характеризуют количественные свойства рассматриваемого объекта. Очевидно, что, сравнивая номера, присвоенные нескольким универмагам, невозможно выяснить, какой из универмагов лучше или хуже остальных. Бессмысленно также искать среднее значение номера универмага. Иногда в литературе вместо термина «номинальная шкала» используется термин «шкала наименований».
При использовании номинальной шкалы единственно доступная операция — это подсчет. Например, рассмотрим выборку из 60 мужчин и 40 женщин, для мужчин выбран код 1, а для
женщин — код 2. В такой ситуации не имеет смысла говорить что среднее значение пола равно 1,4, хотя расчет даст нам именно число 1,4 = (60 ■ 1 + 40 • 2) : 100. Мы можем заключить только, что в выборке больше мужчин или ЧТО 60% выборки составляют мужчины.
В программе SPSS номинальная шкала называется Nominal (Номинальная).
Говорят, что переменная измерена в порядковой (ранговой) шкале, если значения переменной можно сравнивать между собой, но величина разности значений не имеет смысла.
Примерами переменных, измеренных в порядковой шкале, являются сорта товаров (высший сорт, первый сорт, второй сорт); ранги предпочтений покупателей (1 — наиболее привлекательный товар, 2 — малопривлекательный, 3 — непривлекательный товар).
В программе SPSS порядковая шкала называется Ordinal (Порядковая).
Например, в маркетинге часто используется выставление оценок некоторым показателям (товаров, услуг и т.д.) в соответствии с определенной оценочной шкалой. Всевозможные рейтинги, оценка качества услуг в баллах измеряются в порядковой шкале.
Различия между номинальной и порядковой шкалами хорошо видны на примере с тремя переменными — стартовый номер спортсменов-бегунов, место, которое спортсмен занял в результате соревнований
, и время, за которое он пробежал дистанцию. Номера получены спортсменами при жеребьевке до начала соревнования и ничего не означают. Это просто числа, которые произвольным образом приписаны спортсменам, чтобы проще было отличать их друг от друга. Эти числа не имеют никакого отношения к месту, которое позднее займет спортсмен. Переменная «номер» измеряется в номинальной шкале. По окончании забега каждый бегун занимает определенное место среди спортсменов. Переменная «место спортсмена, занятое им на данных соревнованиях» измеряется в порядковой шкале. Важно понимать, что сами по себе места не характеризуют качество спортивного результата. Школьник, занявший первое место на школьных соревнованиях, показывает результат, который будет намного хуже результата, показанного олимпийским чемпионом на такой же дистанции. Более того, на одном соревновании разница во времени между первым и вторым и между вторым и третьим может сильно различаться, хотя разность между местами одна и та же... Обращаем внимание: разность мест дает мало информации о разнице результатов. Результаты бегунов (время преодоления дистанции) измеряются в количественной шкале.
Достаточно часто значения переменной носят условный характер. Например, данные о предпочтениях по отношению к различным товарам среди опрошенных людей. Анализ таких данных требует особой осторожности, так как многие требования классических статистических методов (например, предположение о каком-либо конкретном (скажем, нормальном) законе распределения) для них не выполняются. Например, при анализе анкет с данными о симпатиях к торговым маркам мы можем сказать, что товарная марка, получившая больший балл в анкете, более симпатична респонденту, чем товарная марка (или товар), получившая меньший балл. Но насколько или во сколько раз он более привлекателен, сказать нельзя, так как для предпочтений нет объективной единицы измерения. В этих случаях имеет смысл вообще отказаться от конкретных значений данных, а исследовать только информацию об их взаимной упорядоченности (какое больше, какое меньше). Некоторые статистические методы, например «Совместный анализ», созданы специально для того, чтобы преодолеть такой недостаток.
Другими примерами величин, измеренных в ранговой шкале, будут рейтинги, например место компании в списке 100 лучших компаний.
Количественная шкала позволяет отражать количественные характеристики исследуемых объектов.
Примерами данных, отражаемых в количественной шкале, являются суммы денег, потраченные на покупки в одном универмаге, возраст, рост респондентов, размер их заработной пла-
ты. Чаще всего это характеристики, измеренные в рублях, метрах, секундах, килограммах.
В программе SPSS количественная шкала называется Scale (Количественная).
Часто от исходных числовых данных, измеренных в количественной шкале, переходят к их рангам, т.е. переходят к порядковой шкале. Упорядочение проводится от меньших значений к большим или наоборот, для анализа порядок не существенен. Номер места, которое занимает наблюдение в таком упорядоченном ряду, называется рангом соответствующего наблюдения.
Пример. Выборка состоит из чисел 7, 5, 12, 2, 8, 16. Упорядочение проводим от меньшего к большему. Тогда первый ранг будет иметь число 2 (самое маленькое), второй ранг — 5, третий - 7, четвертый — 8, пятый ранг — 16 (самое большое число).
Процедура перехода от совокупности наблюдений к последовательности их рангов называется ранжированием. Статистические методы, в которых мы делаем выводы о данных на основании их рангов, называются ранговыми (или порядковыми). Они получили широкое распространение, так как надежно работают при очень слабых ограничениях на исходные данные (не требуя, например, чтобы эти данные имели какой-либо конкретный закон распределения).
Заметим, что некоторые авторы выделяют несколько вариантов количественной шкалы. Вслед за разработчиками пакета SPSS мы ограничимся тремя типами переменных.
В табл. 2 приведены основные типы шкал, их характеристики, а также некоторые примеры.
Запоминать коды не нужно, если вы пользуетесь существующими в SPSS «ярлыками значений», описанными в следующем разделе. В этом случае анализ проводится в оптимальном режиме: статистический пакет производит все вычисления с кодами (как ему удобно), а в результатах статистической обработки каждый код будет заменен на соответствующее текстовое описание значения переменной, понятное человеку, анализирующему данные.
Таблица 2 Основные типы шкал
|
1. Задавая вопрос «В среднем сколько сигарет вы выкуриваете в день?», мы получим ответ, измеренный в количественной шкале. Если респондент упорядочивает сорта сигарет в соответствии со своими предпочтениями, то мы получаем ответ в порядковой (ранговой) шкале. Если респондент называет свой любимый сорт сигарет, то мы получаем ответ в номинальной шкале.
2. На вопрос «Сколько времени вам надо, чтобы добраться от вашего места жительства до ближайшего магазина нашей фирмы?» мы получим ответ, измеренный в количественной шкале. Если мы спрашиваем респондента, до какого магазина ему удобнее добираться — нашего или магазина конкурента, то мы получаем ответ в порядковой (ранговой) шкале.
Переменные, измеренные в непрерывной шкале, могут быть преобразованы в порядковую шкалу или в номинальную шкалу.
Для преобразования в номинальную шкалу переменной, ранее измеренной в непрерывной шкале, проводят группировку значений переменной.
Например, непрерывную переменную «возраст» можно преобразовать в номинальную переменную, образуя следующие категории: от 18 до 24, от 25 до 34, от 35 до 44 и т.д.
Для преобразования в порядковую шкалу переменной, ранее измеренной в непрерывной шкале, проводят ранжирование значений переменной.