Тема 07.ВИБІРКОВИЙ МЕТОД.

Питання теми

1. Сутність вибіркового спостереження.

2. Види та схеми відбору.

3. Помилки вибірки.

4. Визначення необхідної чисельності вибірки.

5. Особливості малої вибірки.

Основні терміни теми: вибірка, власне випадковий відбір, механічний, типовий серійний відбір, помилка репрезентативності, гранична помилка вибірки

Статистика має справу з масовими явищами та процесами. В ряді випадків їх дослідження може виявитись досить трудомістким. Крім того, окремі методи контролю або випробувань пов'язані з руйнуванням зразків, що досліджуються. Виникає питання про заміну суцільного спостереження вибірковим. Теорія і практика вказують на можливість і доцільність такої заміни.

 Вибіркове спостереження — науково обгрунтований засіб несуцільного спостереження, при якому досліджується лише частина сукупності, відібрана за певними правилами вибірки, і який забезпечує результати, що характеризують усю сукупність в цілому.

Сукупність, з якої провадять вибір одиниць, називають генеральною, а відібрану частину — вибіркою.

Характеристики вибіркової сукупності є оцінками відповідних параметрів генеральної сукупності. Але вибірка не точно відтворює генеральну сукупність, і тому оцінки не співпадають із самими параметрами. Розбіжності між ними називаються помилками репрезентативності. Вони бувають систематичними та випадковими. Систематичні помилки виникають, коли при формуванні вибіркової сукупності не був дотриманий принцип випадковості відбору, який забезпечує всім елементам генеральної сукупності рівні можливості потрапити у вибірку. Систематичні помилки для всіх елементів сукупності мають односторонній напрям і тому їх називають помилками зміщення. На відміну від них, помилки, які неминуче виникають і при додержанні принципу випадковості відбору, але не носять тенденційного характеру, мають назву випадкових і не ведуть до зміщення оцінок.

При проведенні вибіркового обстеження важливо уникнути систематичних помилок; властиві вибірковому спостереженню випадкові помилки неминучі, проте теорія дає можливість з певною імовірністю визначити їх межі.

Вибірка буде репрезентативною не тільки тоді, коли кожна одиниця матиме однаковий шанс потрапити до неї, а й коли обсяг її є достатнім.

Існують різні види та схеми відбору, їх особливості впливають на розмір помилки та методи її обчислення.

Розрізняють такі види відбору:

Простий випадковий відбір здійснюють за допомогою жереба або таблиць випадкових чисел. Потребує для свого проведення ретельної підготовки.

Систематичний (механічний) відбір передбачає представлення усієї сукупності у вигляді списку, упорядкованому за деякою нейтральною одиницею. Вибір елементів здійснюється через рівні інтервали. Так, якщо необхідно провести 10-процентну вибірку студентів, то складається список прізвищ за алфавітом і механічно відбирається кожний десятий студент. Початковий елемент вибирають як випадкове число з першого інтервалу, наприклад 6. Тоді вибираємо елементи: 6, 16, 26, і т. д. Можна сказати, що цей метод являє собою різновид попереднього, але його легше організувати.

Типовий (розшарований) відбір орієнтований на забезпечення представництва у вибірці відповідних типових груп генеральної сукупності. При цьому вся сукупність розбивається (розшаровується) на однотипні, однорідні групи. Потім з кожної групи за одним

із вказаних вище методів відбирається кількість одиниць, пропорційних питомій вазі групи в загальній сукупності.

Серійний відбір полягає в тому, що відбираються не окремі одиниці, а цілі групи (серії, гнізда), відібрані випадковим або механічним методом. У кожній такій групі провадять суцільне обстеження, а результати розповсюджують на всю сукупність. Такий спосіб відбору застосовують, наприклад, при перевірці якості продукції того чи іншого цеху (підприємства).

Застосування того чи іншого способу формування вибіркової сукупності залежить від мети вибіркового обстеження, умов його організації та проведення. Найбільш поширені є комбіновані вибірки.

Схеми відбору бувають такими.

Повторний відбір — при цьому кожна відібрана одиниця повертається у сукупність і може знову потрапити у вибірку.

Безповоротний відбір — кожна відібрана одиниця не повертається у сукупність.

На практиці широко застосовують моментні спостереження, при яких обстеженню підлягають усі елементи сукупності (суцільне спостереження), але на певні моменти часу. Тому поняття генеральної і вибіркової сукупності відносяться до часу спостереження, а не до сукупності, яка вивчається. Моментні спостереження широко застосовуються при вивченні структури витрат робочого часу.

Спочатку наведемо основні умовні позначення. Чисельність одиниць генеральної сукупності позначимо через N, вибіркової - n. Узагальнюючі характеристики генеральної сукупності - середня, дисперсія, частка - називаються генеральними і відповідно позначаються  , σ2, р, де р - відношення числа М одиниць, що мають дану ознаку, до загальної чисельності генеральної сукупності (N), р = М/N.

Узагальнюючі характеристики вибіркової сукупності мають назву вибіркових і відповідно позначаються , σ2в, W , де W=m/n.

Теорія обчислення випадкових помилок базується на працях видатних вчених Я.Бернуллі, С. Пуассона, П.Л. Чебишева, А.А. Маркова, А.М. Ляпунова та ін.

Закон великих чисел — загальний принцип, згідно з яким сукупна дія великого числа незалежних факторів призводить до результату, який майже не залежить від випадку. В соціально-економічній статистиці це може бути сформульовано так: кількісні закономірності, які властиві масовим явищам, виразно проявляються лише при достатньо великому числі спостережень.

У кожній окремій вибірці із усіх можливих випадкова помилка вибірки  може приймати різні значення. При великій кількості спостережень розподіл випадкових помилок середньої величини і частки наближається до нормального.

Отже, можна вести мову про середню помилку вибірки. Доведено, що при простому випадковому відборі, проведеному за системою повторного відбору:

  .

Використовуючи функцію нормального розподілу, можна обчислити імовірність граничної помилки певного розміру. Так, імовірність того, що в окремій вибірці помилка не перевищить 2μ, становить 0,954, а не перевищить 3μ — 0,997.

У наведених формулах  та σ2 — характеристики генеральної сукупності, котрі при вибірковому спостереженні невідомі. На практиці їх замінюють вибірковими характеристиками.

При безповторному відборі середня помилка вибірки дорівнює:

 ,

Для вирішення практичних завдань обчислення середньої помилки вибірки недостатньо, тому визначають граничний для певної імовірності розмір вибіркової помилки Δ = t • μ де t — квантиль нормального розподілу, який називають коефіцієнтом довіри.

Розглянемо приклади визначення граничної помилки середньої та частки за наведеними даними.

Приклад 1. Нехай з отари овець загальною чисельністю 1000 голів (N) вибірковій контрольній стрижці було піддано 100 голів (n), середній настриг вовни при цьому становив 4,2 кг на одну вівцю при середньому квадратичному відхиленні 1,5 кг. Визначити межі, в яких знаходиться середній настриг вовни для усіх 1000 голів з імовірністю 0,954 (t = 2).

У даному разі маємо простий випадковий відбір, до того ж, зрозуміло, безповторний. Підставимо дані у відповідні формули:

 ,

 Δ = 2 × 0,142 = 0,284 кг.

Тоді одне із можливих значень, в межах яких може знаходитись середній настриг вовни, розраховується за формулою

 

У загальному вигляді це записується таким чином:

 = 4,2 ± 0,284,

що дорівнює:

3,92  4,48.

Таким чином, на підставі проведеної вибірки гарантуємо, що у 954 випадках із 1000 середній настриг вовни буде знаходитися в межах: від 3,9 до 4,4 кг на одну вівцю.

Приклад 2. Для визначення якості продукції відібрано 500 одиниць з 10000. Серед них виявлено 50 виробів третього сорту. Визначити граничну помилку частки з імовірністю 0,997.

Маємо, що частка виробів третього сорту становить

W= 50/500 =0,1 ,

тоді частка першого та другого сортів становить

р=1- W = 1 - 0,1 =0,9.

Підставимо дані в формулу для простого випадкового безповторного відбору:

  ,

 р= 0,9 ± 3 × 0,0131.

Таким чином, на підставі проведеної вибірки встановлено, що середній відсоток виробів третього сорту становить 10 % з можливим відхиленням в той чи інший бік на 3,9%. З імовірністю 0,997 можна стверджувати, що середній відсоток виробів третього сорту в усій партії буде знаходитись у межах

р = 10% ± 3,9% , тобто 6,1% - 13,9%.

Наведені вище формули середньої та граничної помилки вибірки застосовують при випадковому та механічному відборах.

При типовому відборі гранична помилка визначається за такими формулами:

- при повторному відборі:

 ,

- при безповторному відборі:

  .

Якщо порівняти їх з формулами для випадкового відбору, то виявиться, що замість дисперсії, що визначаються для вибіркової сукупності в цілому, при типовому відборі необхідно обчислити середні з групових дисперсій

Розглянемо визначення меж, в яких знаходиться середній відсоток виконання норм робітниками заводу в цілому на таких даних.

Проведена 10-процентна типова вибірка, пропорційна чисельності відібраних груп робітників.

Визначити з імовірністю 0,954 межі, в яких знаходиться середній відсоток  виконання норм робітниками в цілому. Вибірка безповторна.

Таблиця 7.1. Розподіл робітників за спеціальністю

Групи робітників за спеціальністю   Чисельність, чол.         Середнє виконання норми, %             Середнє квадратичне відхилення, %

Токарі           40        98        2

Слюсарі        50        108       3

Фрезерувальники      60        104       5

Обчислимо загальний середній відсоток виконання норми робітниками, які потрапили у вибірку:

  =(98 • 40 + 108 • 50 + 104 • 60) / 150 = 103,7%

Визначимо середню із групових дисперсій: 

 

Гранична помилка вибіркової середньої для типового відбору:

 

де N = 1500, оскільки вибірка 10-процентна.

Таким чином, з імовірністю 0,954 можна стверджувати, що середній відсоток виконання норм робітниками заводу в цілому знаходиться в межах

 =103,7 ±0,581 ,

звідси

103,1 <  <104,3.

При серійному відборі з рівновеликими серіями гранична помилка визначається за формулами наведеними нижче, де S — загальне число серій у сукупності. У даному випадку кожна серія є одиницею сукупності, і мірою коливання буде міжсерійна вибіркова дисперсія:

δ2 = Σ(  -  ) 2/s ,

де,   — середня для кожної серії;  — загальна вибіркова середня, s — число відібраних серій.

 ,  (повторний відбір)

   (безповторний відбір)

Якщо порівняти їх із формулами для випадкового відбору, то виявиться, що замість дисперсії , яка визначається для вибіркової сукупності в цілому, при серійному відборі необхідно обчислити міжгрупову дисперсію середньої .

Приклад 3. Маємо такі дані для визначення середньої врожайності цукрового буряка в області. Проведена 20-процентна серійна вибірка, до якої відійшло 5 районів із 25. Середня врожайність для кожного району становила: 250, 260, 275, 280, 300 ц/га з площі 800, 1000, 1200, 1200 і 2800 га відповідно. Визначити з ймовірністю 0,954 межі, в яких буде знаходитись середня врожайність цукрового буряка по області.

Спочатку знайдемо загальну середню:

  =  250 • 800+260 • 1000+275 • 1200+280 • 1200+300 • 2800/800+1000

+1200 +1200+2800 = 280 ц/га.

Визначимо міжсерійну дисперсію:

δ2 = Σ(  –  ) 2/s =

= (250 - 280)2 800 + (260 - 280)21000 + (270 - 280)21200 + (280 - 280)2 1200 + +(300 - 280) 2 2800 / 800 +1000 +1200 +1200 +2800 +800 + 1000 +1200 +1200 +2800 =337.

Розрахуємо граничну помилку серійного безповторного вибору:

 ц/га

Отже, з ймовірністю 0,954 можна стверджувати, що середня врожайність цукрового буряка по області буде знаходитись в межах від 272,66 ц/га до 287,34 ц/га. Таким чином розраховуються середня і гранична помилки для частки.

Перед тим, як приступити до проведення вибіркового спостереження, треба визначити необхідну чисельність вибірки, тобто такий обсяг вибіркової сукупності, який забезпечив би необхідну точність результатів.

Необхідна чисельність n визначається на основі формул граничної помилки. Формули для випадкового та механічного відборів  наведені нижче.

Схема відбору          

Повторний    n = t2 σ2х /Δ2х

Безповторний           n =N t2 σ2х /(N Δ2х + t2 σ2х)

Приклад 4. У районі є 2500 корів. Треба визначити необхідний обсяг випадкової вибірки для повторної та безповторної схеми при умові, що гранична помилка обчислення середнього річного надою не буде перевищувати 20 кг при імовірності 0,954 та σх = 300.

Для повторного відбору:

n = 4 × 3002/202 = 900 голів.

Для безповторного відбору:

n = 2500×4×3002/(2500×4+4×3002) = 662 голови.

Малою вибіркою прийнято вважати вибірку, об'єм якої варіює в межах від 5 до 30 одиниць. Мала вибірка є єдиним методом дослідження в тих випадках, коли організація суцільного або великого вибіркового спостережень неможлива. Переважно вибірковим методом користуються у випадку дослідження якості промислової продукції, при встановленні норм виробітку. Однак, слід відмітити, що необхідно бути обережним при використанні малої вибірки.

Як відомо з теорії вибіркового спостереження, репрезентативність вибірки в значній мірі залежить від її обсягу. Випадкові помилки вибірки при достатньо великому обсязі розподіляються нормально. При цьому допускається умова рівності генеральної та вибіркової дисперсії.

За умови малої вибірки цим припущенням користуватись не можна. Її особливість якраз і полягає в тому, що випадкові помилки малої вибірки не підкоряються закону нормального розподілу. Тому для оцінки результатів малої вибірки і можливих границь її випадкової помилки користуються відношенням Стьюдента:

t =  ,

де  μм — стандартна помилка малої вибірки, яка обчислюється за формулою

 .

Як бачимо з цієї формули, в знаменнику береться не n, як у звичайній вибірці, а n-1, що являється принципово важливим у випадку для розрахунку помилки малої вибірки. Гранична ж помилка малої вибірки обчислюється стандартним способом за формулою:

Δ = t μм  ,

де t - це відношення Стьюдента.

Величина t підпорядковується закону розподілу Стьюдента (t вірне тільки для виборок, які взяті із генеральної сукупності з нормальним розподілом ознак). Для визначення ймовірності інтенсивності Р(t) користуються спеціальними таблицями.

Приклад 5. На електроламповому заводі з метою перевірки якості ламп була організована мала вибірка. У випадковому безповторному відборі було відібрано 10 ламп.

Необхідно визначити граничну помилку вибірки і побудувати довірчий інтервал для середньої.

Таблиця 7.2.

Тривалість горіння, год. хі     Число ламп,шт.  fі       хі* fі     хі – х2 (хі – х2}2         (хі – х2}2 fі

1480   2          2960     26        676       1352

1500   4          6000     6          36        144

1520   3          4560     14        196       588

1540   1          1540     34        1156     1156

Разом            10        15060   X         X         3240

Вибіркова середня дорівнює

  = 15060 /10= 1506 год..,

вибіркова дисперсія:

  =3240/10=324,

стандартна помилка:

  год.

В умовах малої вибірки при  к = n – 1=9  і  t = 2,5 з імовірністю Р(t), що дорівнює 0,966, гранична помилка за абсолютною величиною не перевищить

Δм = 2,5 • 6 =15 год.

Імовірність того, що це твердження невірне і помилка може вийти за встановлені межі 15 год., дорівнює: 1 –  0,966 = 0,034.

На основі розрахованих характеристик будуємо довірчий інтервал для генеральної середньої:

1481 ≤  ≤ 1521

Питання для самоперевірки

1. Яке спостереження називають вибірковим?

2. Помилки вибіркового спостереження

3. Види відбору

4. Схеми повторного та без повторного відбору

5. Визначення середніх та граничних помилок при різних видах відбору

6. Від чого залежить гранична помилка вибірки

7. Розповсюдження результатів вибіркового спостереження на генеральну сукупність

8. Визначення необхідної чисельності вибірки

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21  Наверх ↑