Кодирование данных опроса

Как и во всех других статистических пакетах, на первом шаге данные необходимо ввести в память компьютера.

При этом требуется, чтобы данные были закодированы. Ко­дирование - это сопоставление значению переменной некото­рого числа, называемого кодом.

Например, для анализа результатов опроса пол опрашивае­мых можно закодировать следующим образом:

0 — мужской;

1 — женский.

При анализе ассортимента виды товаров можно закодиро­вать как:

стул — 10;

стол — 11;

пуф — 12 и т.д.

Процедура кодировки утомительна, но неизбежна. Заметим сразу, что если значения переменной — числа, то их кодировать не нужно, сами числа будут кодами. Если значения переменной — числа, записанные текстом, то их придется кодировать. На­пример, если фиксировались ответы на вопрос анкеты о коли­честве членов семьи (включая опрошенного) и допустимыми ответами были «отказ отвечать», «1», «2», «3», «4 или больше», то возможным вариантом кодировки будет:

-9999 — отказ отвечать;

0   — ноль членов семьи, невозможное значение, ошибка ан­кетера

1 ;

2 — семья из одного человека, т.е. респондент живет один;

3 — семья из двух человек;

4 — семья из трех человек;

5 — семья из четырех или большего числа людей.

При этом нельзя вносить в таблицу данных текстовые зна­чения, например нельзя набирать «три» вместо числа «3».

Как обычно, есть важные исключения. Иногда допустимо и даже полезно применять текстовые значения переменной, на­пример, если именами наблюдений являются фамилии опро­шенных или названия фирм-покупателей.

Во всех остальных случаях начинающему аналитику реко­мендуем проводить кодировку.

Заметим, что кодировка — элемент обыденной жизни, ниче­го особенного в ней нет. Для каждого совершеннолетнего но­мер паспорта — его код. ИНН является другим примером кода. Обратимся к футболу. Номер на майке — код футболиста. Цве­та формы команды — тоже код, на этот раз код страны. Табли­ца перекодировки известна каждому болельщику, например желто-зеленые цвета — Бразилия, оранжевый цвет — Голлан­дия, бело-голубые — Аргентина.

Имеется много причин, которые побуждают рекомендовать начинать исследование с кодировки значений переменной. Среди них то, что прикладная статистика — раздел математи­ки, он разрабатывался в первую очередь в расчете на операции с числами. Кроме того, определенные ограничения связаны с использованием компьютера, который в конечном счете обра­батывает числа. Да и для людей числа наиболее удобны: номе­ра квартир или домов кодируются числами, а не, скажем, цве­тами.

Процесс кодировки пугает, он выглядит трудоемким, скуч­ным и долгим. Все не так страшно, как кажется. При кодировке переменных можно обойтись без монотонной ручной замены текстовых значений переменных на соответствующие коды, по­скольку пакет SPSS содержит средства, облегчающие кодиров­ку переменных. Среди них функции Recode (Перекодировать) и Automatic Recode (Автоматическая перекодировка). В особо тяжелых ситуациях можно рекомендовать не спешить с ис­пользованием пакета SPSS, а сначала преобразовать данные, например в ЕхсеГе. При преобразовании данных Excel мощнее SPSS, поскольку именно для таких действий — для манипуля­ций с таблицами — он и был создан. При статистическом ана­лизе данных заметное преимущество уже у SPSS.

1 2 3 4 5 6 7 8 9  Наверх ↑