2. Кодування даних.
Дані – діалектична складова інформації. Вони являють собою зареєстровані сигнали. При цьому фізичний метод реєстрації може бути довільним: механічним, електричним, магнітним, оптичним, тощо. Відповідно до методу реєстрації дані можуть зберігатись і транспортуватись на носіях різних видів. Самим розповсюдженим видом носія, хоча і не самим економічним та надійним, є папір. В обчислювальній техніці в ролі носіїв інформації виступають різноманітні магнітні диски, стрічки, оптичні диски, тощо.
В ході виконання інформаційного процесу дані перетворюються з одного виду в інший за допомогою методів. Опрацювання даних містить в собі багато операцій, серед яких можна виділити наступні:
· збір даних – накопичення даних з метою забезпечення їх повноти для прийняття рішень;
· формалізація даних – зведення даних, одержаних з різних джерел, до однакової форми;
· фільтрація даних – відкидання “зайвих” даних, які не потрібні для прийняття рішення;
· сортування даних – впорядкування даних за певною ознакою;
· групування даних – об’єднання даних за певною ознакою з метою їх більш зручного використання;
· архівація даних – організація збереження даних в зручній та легкодоступній формі, як правило, в більш економному форматі;
· захист даних – комплекс заходів, направлених на запобігання втрати, модифікації або відтворення даних;
· транспортування даних – прийом та передача даних між віддаленими учасниками інформаційного процесу;
· перетворення даних – перевід даних з однієї форми або однієї структури до іншої.
Повний перелік операцій з даними набагато більший. Тому можна зробити висновок : опрацювання інформації має високу трудомісткість і тому її потрібно автоматизувати.
Для автоматизації опрацювання даних різних типів їх потрібно подати в єдиній формі. Для цього використовують кодування даних. Звичайна людська мова є прикладом кодування даних. Азбука Морзе, нотна грамота, малюнки є також прикладами систем кодування. Своя система існує і в обчислювальній техніці. Вона основана на використанні двійкової системи числення. Для подання інформації використовується дві цифри : 0 та 1. Ці цифри називаються війковими цифрами, або бітами. Таке подання є досить зручним. По-перше, одним бітом може бути виражене одно з двох понять : так (1) або ні (0).Один біт легко подати у вигляді сигналів різної фізичної природи : намагнічено (1) – не намагнічено (0); є струм (1) – немає струму (0); високий рівень напруги (1) – низький рівень напруги (0).
Двома бітами можна подати вже чотири стани, трьома – 8. Всього n бітами можливо подати 2n різних станів. Збільшуючи кількість розрядів на один, ми збільшуємо кількість можливих станів удвічі.
Біт є досить дрібною, а отже, і
незручною одиницею виміру даних. Тому біти об’єднується у групи по 8 біт –
байти. Два байти називаються машинним словом. Байти об’єднуються в кілобайти
(1Кб = 1024 » 1000 байт), мегабайти
(1 Мб = 1024 » 1000 Кб » 1000 000 байт), гігабайти , терабайти і т. д.
Враховуючи сучасні можливості виготовлення носіїв інформації і об’єми даних,
які потрібно зберігати, найбільш вживаними одиницями виміру даних є мегабайти
та гігабайти.
Для кодування числової інформації групи з декількох байт. При цьому як правило, старший біт відповідає за знак числа: 0– сило додатне, 1 – число від’ємне. Так, для цілих чисел використовується два байти, для дійсних чисел - 10 байт. В такому випадку деяка кількість біт відводиться під мантису (тобто, значущі цифри числа), а інші – під порядок (разом за знаком).
Для кодування текстової інформації кожному символу ставиться у відповідність деяке ціле додатне число – його код. Так, одним байтом можна подати 256 різних символів. Цього достатньо для запису всіх символів англійського, російського (українського) алфавітів, цифр та спеціальних символів типу знаків арифметичних операцій, дужок, розділових знаків, тощо. Кодування символів визначається стандартом, яких на даний час існує досить багато. Це призвело до певних суперечностей – текст, поданий в одній кодовій таблиці, неправильно відтворювався в іншій. Для позбавлення цього недоліку в даний час використовується універсальна таблиця кодування UNICODE, яка основана на 16-бітному поданні символів. Цього достатньо для розміщення в одній кодовій таблиці символів більшості мов нашої планети.
Графічне зображення на екрані складається з дрібних точок, які називаються пікселами. Вони утворюють характерний візерунок, який називається растром. Для кодування графічної інформації використовується принцип декомпозиції. Його сутність полягає у тому, що будь-який колір подається у вигляді комбінації трьох основних кольорів: червоного, зеленого та блакитного. Якщо для кодування інтенсивностей кожної складової використовувати 8 біт (256 різних значень), то на кодування однієї точки екрану потрібно 24 розряди. При цьому така система забезпечує кодування близько 16,5 млн. кольорів. Такий режим подання графічного зображення називається повнокольоровим (True Color).
Всі дані зберігаються на зовнішньому носієві. Для одержання швидкого доступу до даних потрібно, щоб вони мали впорядковану структуру. В ролі такої структури використовується об’єкт змінної довжини, який називається файлом. Отже, файл – це послідовність довільної кількості байт, записаних на зовнішньому носієві даних, яка має ім’я. Тип даних визначає тип файлу.
Збереження файлів організовується в ієрархічній структурі, яка називається файловою системою. Для зручності роботи файли групуються в каталоги, які , в свою чергу, можуть містити інші каталоги. Вони являють собою іменовані сукупності файлів. На найвищому рівні ієрархії розташований кореневий каталог. Унікальність імені файлу полягає у тому, що повне ім’я файлу містить як власне його ім’я разом з маршрутом доступу до файлу. Маршрут завжди починається з логічного імені носія. Більш детально цей матеріал буде розглянутий пізніше.
25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49
50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74
75 76 77 78 79 Наверх ↑