Глава 8. Проектирование процессов получения первичной информации, создания и ведения информационной базы

8.1. Проектирование процессов получения первичной информации

В состав операций, выполняемых при получении первичной информации, входят: съем, регистрация, сбор и передача информации.

Съем информации или измерение - это процесс получения количественного значе­ния показателя, характеризующего объекты и процессы хозяйственной деятельности, и по степени автоматизации можно подразделитьна следующие виды:

ручной съем (подсчет);

полуавтоматический (например, с помощью весов-автоматов);

автоматический (например, с использованием счетчиков или датчиков единичных сигналов).

К современным средствам измерения и счета относятся, например, электронные весы модели CAS LP-15], которые предназначены для использования в расфасовочных отделах продовольственных магазинов. С помощью весов можно выполнить операции: взвешивания упаковки с товаром; перемножение веса на цену, печать этикетки со стоимо­стью упакованного товара; передачу сообщений компьютеру, который осуществляет учет движения товаров; приема от компьютера сведений об изменении номенклатуры товаров и цен; накопления данных о выполненных взвешиваниях. Такие весы могут использовать­ся как автономно, так и в составе системы учета движения товаров в магазине.

Счетчики применяют в тех случаях, когда производство имеет крупносерийный или массовый характер. Счетчиками оснащаются производственные автоматы, штампо­вочные прессы, маркировочные машины.

Другими устройствами являются измерители потоков (расходомеры), когда объек­тами измерения представляет жидкость или газ. Примером может послужить топливомер на автоматизированной АЗС, используемый для измерения отпуска количества горючего. К числу такого рода устройств относится также машинка для счета банкнот, средства без­наличного денежного обращения с использование пластиковых карт и др.

Машинка для счета банкнот используется для пересчета различных купюр в пачках до 999 листов и вычисления суммы, установления числа листов, которое необходимо от­считать, выбрасывать мятые и поврежденные купюры.

Средства организации безналичного денежного обращения на основе кредитных карт (КК) позволяют оплачивать, не пользуясь наличными деньгами, различные товары и услуги (телефонные разговоры, проезд в метрополитене и др.) В настоящее время наибо­лее употребительны три вида КК: с магнитными полосками; с памятью на микросхемах; содержащие микропроцессор, полупостоянную и оперативную память, схему защиты (так называемые интеллектуальные карты).

Следующей операцией, выполняемой при получении первичной информации, этапе является операция регистрации первичной информации, т.е. нанесения всех реквизитов - оснований (количественных характеристик) и признаков на какой-либо носитель. Регист­рация информации может выполняться следующими способами:

ручным - заполнение бланков первичных документов на бумажном носителе вручную;

механическим при вводе информации с клавиатуры в экранные формы ЭВМ или при использовании устройств регистрации информации типа пишущих машинок с нане­сением информации в первичные документы и одновременной записью ее на магнитные носители или машинночитаемые документы;

полуавтоматическим, когда часть информации автоматически заносится с маг­нитных носителей или из оперативной памяти устройства (например, при использовании кассовых аппаратов, регистраторов производства или бухгалтерских фактурных машин).

В процессе регистрации информации осуществляется идентификация всех компо­нент, участвующих в хозяйственных операциях, указывается количественная характери­стика процесса, выявленная при съеме информации, а также выполняется привязка всей записи ко времени.

Идентификация компонент хозяйственной операции (станка, рабочего, детали и т.д.) - это определение кода конкретного компонента, который может быть числовым, ал­фавитным или смешанным и который может быть введен в документ вручную по класси­фикатору, с помощью специального считывающего устройства, читающего штрих-код, нанесенный, например, на деталь или путем выборки из списка кодов и наименований компонент, хранящегося в оперативной памяти регистрирующего устройства.

К этой категории относятся устройства регистрации производства, имеющие в сво­ем составе пульты ввода информации с рабочих мест, счетчики единичных сигналов, уст­ройства памяти на дисках, а также электронные кассовые аппараты. Например, кассовый аппарат типа IPC POS-IIS позволяет выполнять такие операции как регистрацию продаж с умножением количества на цену; прием данных с клавиатуры, с электронных весов, от считывателя штрих-кодов, от считывателя магнитных карт; корректировку регистрации с возвратом денег; расчет промежуточных итогов, подсчет сдачи; прием платы наличными деньгами или кредитными картами; пересчет платы в другую валюту; расчет налогов, скидок; ведение денежных и операционных регистров; запись итоговых показаний реги­стров в фискальную память со сроком хранения до 10 лет; выдачу отчетов; выдачу данных в канал связи и на технический носитель. В памяти аппарата могут храниться данные по 10000 товарам, один аппарат могут использовать до 99 кассиров. Первичные данные о продажах фиксируются на машинных носителях и могут быть использованы в системе управления магазином.

Для обеспечения достоверности информации при выполнении операции регистра­ции применяют несколько методов контроля, набор которых наиболее широко представ­лен при полуавтоматическом способе регистрации информации, где можно выделить сле­дующие методы:

визуальный контроль на экране регистратора;

двойной ввод информации;

контроль идентификатора по списку;

контроль вводимой информации по формату;

контроль идентификаторов по модулю (11, 10);

контроль по сумме сообщений;

контрольные суммы по каждому сообщению;

общий аппаратный контроль по модулю 2.

Сбор первичной информации - это операция получения пакета сообщений, «пач­ки» первичных документов или файла на машинных носителях для последующей их пере­дачи и обработки. Эта операция также может быть осуществлена ручным, полуавтомати­ческим и автоматическим способом с централизованной или децентрализованной организацией работ.

Полуавтоматический и автоматический способы сбора информации применяются для получения массовой информации в производственных цехах. Для централизованной организации работ характерен периодический опрос удаленных пунктов регистрации первичной информации, находящихся на рабочих местах, выполняемых автоматически, передача этой информации на центральную ЭВМ вычислительного комплекса для учета, контроля выработки продукции и выдачи нового задания. Децентрализованный метод сбора - это метод, при котором передача информации осуществляется с удаленных пунктов по мере накопления информации или по окончании некоторого периода време­ни, например, смены.

Поскольку первичная информация возникает на рабочих местах, удаленных от пунктов ее обработки, то возникает проблема в организации системы передачи этой ин­формации. Помимо первичной информации в процессе управления организацией или ее филиалами возникает необходимость в передаче документов, являющихся результатом обработки данных на ЭВМ, а также в организации удаленного доступа к общим базам данных, к коммерческим базам данных глобальных вычислительных сетей или к данным, хранящимся на WEB-серверах.

Операция передачи информации на расстояние осуществляется двумя способами: неэлектрическим (например, с помощью экспедиторов, курьеров), для которого характер­ны высокая надежность и низкая скорость передачи, и электрическим, требующим систе­мы защиты от искажений и несанкционированного доступа.

Передачу информации электрическим способом можно осуществлять с использо­ванием следующих средств: телеграфа общего пользования, для которого характерна низ­кая скорость передачи информации и низкая достоверность передачи; абонентских теле­графных устройств и специальной аппаратуры передачи данных компьютерных сетей.

Основным средством передачи данных в ЭИС в настоящее время служат компью­терные сети, подразделяемые на низкоскоростные, среднескоростные и высокоскоростные с использованием передачи данных по коммутируемым либо по специально выделенным каналам связи.

Компьютерной сетью называется совокупность взаимосвязанных через каналы пе­редачи данных компьютеров, обеспечивающих пользователей средствами обмена инфор­мацией и коллективного использования аппаратных, программных и информационных ресурсов сети.

По степени территориальной удаленности компьютерные сети классифицируются на локальные, распределенные и глобальные.

Локальные сети ЭВМ связывают абонентов одной организации, расположенных в одном или нескольких близлежащих зданиях и удаленных друг от друга на расстояние не больше чем на 10 км. Локальные сети обслуживают как правило до 80-90% потребности в передаче информации и только 10-20% требует своего обслуживания региональной или глобальной сетями. Локальные сети могут иметь любую структуру, но чаще всего компь­ютеры в локальной сети связаны единым высокоскоростным каналом передачи данных, который является собственностью организации.

Региональные сети объединяют пользователей города, области, небольших стран и в качестве связи чаще всего используются телефонные линии. Расстояние между узлами сети составляют 10-1000 км.

Глобальные сети объединяют пользователей, расположенных по всему миру, и час­то используют спутниковые каналы связи, позволяющие соединить узлы сети связи и ЭВМ, находящиеся на расстоянии 10-15 тыс. километров друг от друга.

По способу установления соединений между абонентами сети делятся на несколько видов. Сети с коммутацией каналов характеризуются установлением прямой связи с або­нентом на некоторое время в пределах общей очереди. Поэтому, основным недостатком такой связи является ожидание соединения в общей очереди. Положительным качеством такой передачи является тот факт, что передача не может быть осуществлена вне очереди (произвольно), что повышает достоверность передачи информации в целом.

Ко второму виду относятся сети с коммутацией сообщений, которые характеризу­ются наличием узлов коммутации сообщений. Для таких узлов необходимо обеспечить наличие технических средств получения и хранения сведений. Задача ЭВМ, используемых для этих целей, - получить сообщение, запомнить его и, в случае освобождения канала связи с абонентом, по определенному адресу передать это сообщение. Положительной стороной такой передачи является минимальное время ожидания. Отрицательной - сеть получается более дорогой (необходимо разработать специальное программное обеспече­ние узла коммутации), а при передаче большого объема информации (1 млн. байт) канал занимается на несколько часов.

Третьей разновидностью являются сети с коммутацией пакетов, позволяющие длинное сообщение на передающем пункте разбивать на пакеты сообщений. Информация передается пакетами. Положительная сторона такого способа передачи - сокращается время ожидания передачи. Отрицательная - необходимость иметь программное обеспече­ние, позволяющее разбивать на передающем пункте сообщение на пакеты с заголовком, адресом и контрольным числом, а на принимающем пункте - сборку сообщения по иден­тификатору.

Для обеспечения достоверности передачи информации применяют две группы мето­дов контроля: аппаратные, при котором контроль ведется на уровне символа с использова­нием помехозащитных кодов, и информационные, организованные по принципу дублиро­вания (двойной передаче сообщений) или по принципу информационной избыточности.

Выделяют следующие варианты распознавания ошибок, организованные по прин­ципу дублирования информации:

метод решающей обратной связи (передача ведется в одном направлении два раза, ответ получается в форме «ДА-НЕТ»);

метод информационной обратной связи (передача сообщения ведется в двух на­правлениях: «источник- потребитель», «потребитель-источник», в «источнике» передан­ное и полученное сообщения сравниваются, что позволяет выявить ошибки передачи).

По принципу информационной избыточности используются два метода:

контроль по модулю (контроль фрагмента сообщения);

метод контрольных сумм.

Содержание конкретных работ по проектированию технологических процессов по­лучения первичной информации определяется составом и особенностями используемых методов и средств выполнения рабочих и контрольных операций, выполняемых с помо­щью определенных программно-технических средств.

8.2. Проектирование процесса создания и ведения информационной базы

Под системой создания и ведения информационной базы понимают некоторый комплекс программной, методической и технической документации, с помощью которой пользователь может осуществить своевременную загрузку и актуализацию данных, хра­нение достоверных данных, обеспечивать секретность данных, защиту их от сбоев ЭВМ и своевременное восстановление утраченной информации. Проектирование системы созда­ния и ведения информационной базы означает проектирование и получение программной и технологической документации по следующим процедурам:

загрузки и актуализация данных;

обеспечение достоверности вводимых данных;

обеспечение защиты данных;

обеспечение надежности хранения данных.

Достоверность хранения данных в информационной базе подразумевает отсутствие ошибок, своевременность внесения изменений и непротиворечивость информации. Для обеспечения достоверности вводимых и хранимых данных необходимо выполнить сле­дующие работы:

обеспечить контроль вводимой информации при выполнении процедур загрузки и актуализации информации;

обеспечить защиту хранимых данных от несанкционированного доступа;

обеспечить одновременность актуализации одних и тех же данных, находящихся в разных файлах.

В процессе создания (загрузки) и актуализации информационной базы используют­ся как интерактивный, так и пакетный режимы. Интерактивный режим создания и ак­туализации информационной базы предполагает ввод или обновление отдельных записей файлов по мере необходимости. Режим интерактивного ввода или обновления данных в основном применяется при создании и ведении файлов оперативной информации, когда происходит получение и оформление отдельных документов первичной информации (см. 8.1.). Файлы оперативной информации создаются в режиме добавления записей по мере получения документов первичной информации. В этом смысле процессы создания и до­бавления оперативных данных не различаются. Кроме того, процессы первоначального ввода данных и возможной последующей их корректировки имеют небольшие технологи­ческие отличия. Например, ввод заказа и внесение изменений в заказ предполагают работу с одной и той же экранной формой, в первом случае, заполняется пустая экранная форма, а во втором случае, сначала вызывается заполненная экранная форма, а затем корректиру­ется. В том и другом случае выполняются одинаковые методы контроля. При удалении записи также сначала вызывается соответствующая экранная форма для проверки целесо­образности этой операции.

Пакетный режим создания и актуализации базы данных предполагает предвари­тельный сбор пакета документов или подготовку входного файла первичной информации, с которых осуществляется загрузка (наполнение) основного файла или его обновление. Пакетный режим используется для работы с файлами оперативной информации только в тех случаях, когда требуется ведение централизованной базы данных из локальных источ­ников при невозможности подключения этих источников к вычислительной сети или из соображений оптимизации объема передачи данных по вычислительной сети, например, при поступлении учетной информации в бухгалтерию. Пакетный режим всегда использу­ется для создания файлов условно-постоянной информации в силу необходимости одно­разового ввода большого объема данных, а также часто используется при актуализации этих файлов вследствие, как правило, массового характера обновлений, например, плано­вой информации или информации классификаторов.

В силу сложности технологии пакетного режима рассмотрим особенности проек­тирования технологического процесса загрузки и актуализации информационной базы на примере файлов условно-постоянной информации.

Под загрузкой информационной базы будем понимать совокупность операций по приему, контролю и регистрации поступившей информации, ввода информации в ЭВМ, контроля и исправления ошибок, записи данных в информационный файл.

Содержание операций приема, контроля и регистрации поступившей информа­ции зависит от типа носителя первичной информации. Если поступающая информация представлена на бумажном носителе, то во время выполнения этой операции осуществля­ются следующая совокупность действий:

контроль количества поступивших документов, полноты и качества их заполнения,

отбор правильно заполненных документов и их регистрация в регистрационном журнале,

отбраковка документов, не соответствующих требованиям, предъявляемых к до­кументам,

формирование «запроса» на их исправление и отсылка их к источнику информа­ции, т.е. в то подразделение, из которого они поступили.

Если информация поступает на машинном носителе (гибком диске), то в этом слу­чае проверяется качество записи диска, регистрируется имя файла, объем, источник и время поступления.

При поступлении информации по каналам связи определяется источник поступле­ния, время, количество поступивших записей.

Операция ввода информации в ЭВМ может осуществляться несколькими методами:

ручной ввод данных с бумажных документов с использованием макетов экранных

форм;

автоматизированное чтение данных, содержащихся в документах на бумажных носителях и загрузка их в информационную базу (см. 8.3.).

При вводе больших объемов информации в ЭВМ с клавиатуры оператором допус­кается значительное количество ошибок, которые необходимо выявить и устранить. При этом контроль вводимой информации, как правило, осуществляется с использованием следующих методов:

визуальный контроль на экране дисплея;

метод контрольных сумм, рассчитываемых по каждой строке документа или по всему документу до ввода в ЭВМ и после ввода, которые затем сверяются между собой;

метод верификации, при котором осуществляется сверка ранее введенных данных, записанных в файл, и данных первичных документов, вводимых оператором второй раз;

метод двойного массива, при котором файлы по первичным документам создают­ся двумя разными операторами и после ввода сверяются по контрольным числам, вычис­ляемым для каждого из них.

Проверенные и исправленные данные заносятся в файл информационной базы.

Схема технологической сети проектирования процедуры пакетной загрузки базы данных при ручном способе ввода данных первичных документов отражена на рис. 8.1.


 

Рис. 8.1. Технологическая сеть процесса загрузки информации в ИБ

 

Д1.1 - Технологическая документация, описывающая правила работы при получении первичной информации

Д1.2 - Требования к процессу загрузки

Д2.1 - Блок-схема технологического процесса загрузки

ИЗ. 1 - Универсум программных средств частичной автоматизации, служебных средств операционной системы и языков программирования

Д3.1. - Факторы, определяющие выбор инструментальных средств

Д3.2. - Описание выбранных инструментальных средств и методическое обеспечение по их настройке Д4.1 - Блок-схемы программы Д4.2 - Коды программ

Д4.3 - Настройка средств частичной автоматизации Д5.1 - Данные контрольного примера Д5.2 - Отлаженная программа

Д5.3 - Распечатка результатов контрольного примера Д5.4 - Технологическая документация


Первой выполняется операция «Определения особенностей подготовки данных и формирование требований к процедуре загрузки» (П1). Для выполнения этой операции необходимо располагать технологической документацией, описывающей правила работы при получении первичной информации (Д1.1).

Можно выделить следующие особенности подготовки файлов данных:

внемашинные форматы данных могут не совпадать с внутримашинными форма­тами;

получение и подготовка первичной информации с помощью разнообразных тех­нических средств может привести к рассогласованию кодов представления вводимой ин­формации и кодов ее представления в ЭВМ;

все операции по подготовке файлов являются машино-ручными, поэтому следует учитывать большое количество возможных ошибок;

вводимые файлы могут иметь линейную или иерархическую логическую структу­ру, которую следует учитывать в процессе загрузки;

структуры записей входных файлов могут не совпадать со структурой записей ба­зы данных.

Результатом выполнения этой операции является получение списка требований к процедуре загрузки (Д1.2). К основным требованиям, предъявляемым к процедуре за­грузки, можно отнести следующие:

необходимо обеспечение достоверности вводимой информации;

должны выдаваться сообщения об ошибках и местах их возникновения;

требуется обеспечение контроля вводимой информации на уровне файла, записи,

поля;

загрузка должна обеспечить перекодирование информации в случае рассогласо­вания кодов;

должно обеспечиваться преобразование файлов во внутренние форматы;

должно выполняться редактирование, сортировка и распечатка файлов с постоян­ной информацией.

Второй операцией рассматриваемого процесса служит операция П2 «Определение состава операций технологического процесса загрузки базы данных». Входной информаци­ей для данной работы являются требования к процедуре загрузки (Д1.2), выходной - состав операций или блок-схема технологического процесса загрузки (Д2.1). Исходя из требова­ний, предъявляемых к процедуре загрузки, выделяют следующие типовые операции:

ввод входных данных и их перекодирование;

синтаксический и семантический контроль;

распечатка «Ведомости ошибок», анализ ошибок и создание файла корректур;

ввод файла корректур в ЭВМ;

корректировка входного файла с целью исправления в нем ошибок;

редактирование входного исправленного файла;

формирование записей основного файла;

сортировка или индексирование основного файла с постоянной информацией;

распечатка файла с постоянной информацией.

Особое внимание должно быть уделено разработке программы синтаксического и семантического контроля загружаемой информации в информационную базу. Синтакси­ческий контроль может осуществляться на уровне структуры файла, записи и отдельного поля. Контроль на уровне файла сводится к контролю типов записей, соподчиненности различных типов записей (заголовок, подзаголовок), количества экземпляров каждого ти­па записи. Контроль на уровне записи сводится к контролю числа полей, их последова­тельности и длины записи. Контроль на уровне поля включает в себя контроль типа и формата поля.

Семантический контроль сводится к арифметическому и логическому контролю содержимого отдельных полей. Арифметический контроль осуществляется следующими методами:

контрольных сумм по документу;

контрольных сумм по отдельной записи;

контрольного числа по файлу;

контроля по модулю 11;

балансовый контроль.

Логический контроль применяется для реквизитов - признаков и при его построе­нии используют следующие виды контроля:

контроль на конкретное значение;

контроль на диапазон значений;

контроль путем сравнения с некоторой константой;

контроль зависимостей значений реквизитов;

контроль по списку значений (справочнику).

На следующей операции (П3) осуществляется «Выбор инструментального средства разработки программ загрузки информационной базы» на основе универсума программ­ных средств частичной автоматизации, служебных средств операционной системы и язы­ков программирования (И3.1). На вход данной операции поступают блок-схема техноло­гического процесса загрузки (Д 2.1.), факторы, определяющие выбор инструментальных средств (Д 3.1.). На выходе получают описание выбранных инструментальных средств и методическое обеспечение по их настройке (Д 3.2.).

К инструментальным средствам частичной автоматизации относятся: генераторы экранных форм СУБД, специализированные генераторы ввода/вывода и утилиты. К ос­новным факторам, влияющим на выбор средств частичной автоматизации можно отнести:

количество и характер функций, выполняемых данным средством, например, воз­можность работы с многоэкранными формами или экранными формами, предназначен­ными для ввода данных в несколько файлов;

наличие большого объема свободных вычислительных ресурсов;

квалификация персонала;

возможность подключения оригинальных программных средств.

Программные средства частичной автоматизации загрузки данных можно разде­лить по принципу функционирования на конверторы, предназначенные для преобразова­ния данных, создаваемых в других информационных системах, и программы непосредст­венной загрузки интерпретирующего или генерирующего типов.

Результатом выполнения данной операции является выбор конкретных средств частичной автоматизации процедуры загрузки, или языков программирования, или их комбинации.

Далее осуществляется операция «Настройки средств частичной автоматизации или разработка программ» (П4). В результате формируется программная документация по данной процедуре, в том числе блок-схемы программных модулей (Д 4.1), коды про­граммных модулей (Д 4.2) и схемы настройки средств частичной автоматизации (Д4.3).


На операции П5 осуществляется «Комплексная отладка программы загрузки ин­формации в базу данных» на основе исходных данных для контрольного примера (Д5.1.) с получением отлаженной программы процедуры (Д 5.2), распечаток результатов реализа­ции контрольного примера (Д 5.3) и создание технологической документации по процеду­ре загрузки (Д 5.4).

Под актуализацией данных будем понимать совокупность операций над файлами информационной базы, связанных с добавлением новых записей, удалением старых, из­менением содержания отдельных полей записей.

Процесс проектирования процедуры актуализации условно-постоянной информа­ции в базе данных (технологической сети процесса представлена на рис. 8.2.), начинается с операции «Разработки системы организации актуализации данных» (П1), сущность ко­торой заключается в определении подразделений-источников изменений, разработке форм документа «Извещение на изменения» и экранных форм, определение маршрутов пере­движения этого документа от подразделения-источника до ввода информации об измене­ниях в ЭВМ, определения регламента и режима ввода изменений.


(ЗН

Ы

 

НЬС1 рОнНл средста Ч4сТ|ЯЧИ13Н чь'иип.гнз-вичь чпи рятраВптте. ррогре*и>

15

^чгллрс.илч атлвдн* ннКри-икч г Бат-у

 

Рис. 8.2. Технологическая сеть проектирования процесса актуализации ИБ

Д 1.1 - Принципы организации ИБ Д1.2 - Структура ИБ Д1.3 - Список поставщиков изменений Д1.4 - Режим внесения

Д1.5 - Маршруты движения извещений на изменения

Д1.6 - Формы внесения изменений

Д1.7 - Макет экранной формы

Д2.1 - Блок-схема ТП

Д2.2 - Технологическая документация

ИЗ. 1 - Универсум программных средств частичной автоматизации, служебных средств операционной системы и языков программирования

Д3.1. - Факторы, определяющие выбор инструментальных средств

 

П1

Наэрэйотна *р г ш-м миин

па

ЪиЪгр ннгтручгнтчльчпгч «РМСТЫ

Прогрпин Т111 р-^ГЧ ИЬ

Д3.2. - Описание выбранных инструментальных средств и методическое обеспечение по их настройке


Д4.1 - Блок-схемы программы

Д4.2 - Коды программ

Д4.3 - Настройка средств частичной автоматизации

Д5.1 - Данные контрольного примера

Д5.2 - Отлаженная программа

Д5.3 - Распечатка результатов контрольного примера

Д5.4 - Технологическая документация

Входная информация, используемая при выполнении данной работы, включает описание структуры информационной базы (Д1.2) и описание принципов ее организации (Д1.1). Выходная информация включает в свой состав следующие документы:

список поставщиков изменяемой информации (Д1.3);

формы первичного документа - «Извещение на изменение» (Д1.6);

описания маршрутов движения извещения (Д1.5);

макеты экранных форм размещения информации об изменениях (Д1.7);

режимов внесения изменений (Д1.4);

совокупность файлов, обновляемых одновременно (Д1.8).

Второй выполняется операция «Разработки технологического процесса внесения изменений» (П2). На вход данной операции поступают список поставщиков информации, формы первичного документа «Извещения на изменения», описание маршрутов движения «Извещения», макеты экранных форм размещения информации об изменениях, режимы внесения изменений. Результатом выполнения данной операции являются блок-схема тех­нологического процесса актуализации данных (Д2.1) и технологическая документация (Д2.2). Можно выделить следующие типовые операции технологического процесса актуа­лизации данных:

Выписка «Извещения». Данная операция выполняется в подразделениях предпри­ятия - источниках изменений. Ее результат поступает в виде первичного документа «Из­вещения» в пункт ввода информации.

Прием, контроль и регистрация извещений.

Ручная корректировка ведомости описи актуализируемого основного файла с по­стоянной информацией.

Ввод информации извещений в ЭВМ.

Контроль правильности записи информации.

Исправление ошибок и формирование входного файла изменений.

Сортировка файла изменений.

Ввод записей основного файла, требующего изменений.

Актуализация основного файла.

Распечатка актуализированного основного файла.

Сверка начальной и полученной описей основного файла. При наличии расхож­дений - повторное выполнение вышеперечисленных операций.

Последующие операции выбора инструментального средства разработки процедуры актуализации информационной базы (П3), разработка программных средств (П4), отладка программ и создание технологической документации (П5) выполняются аналогично опера­циям в технологической сети проектирования процедуры загрузки информационной базы.

Для поддержания надежности хранимых данных при сбоях в работе ЭВМ и раз­рушениях информационной базы требуется система резервирования и восстановления, технологическая сеть создания которой представлена на рис. 8.3.



И1.1 - Универсум методов хранения и восстановления данных

Д1.1 - Описание метода хранения и восстановления данных

Д2.1 - Код программы восстановления данных

Д3.1 - Отлаженная программа

Д3.2 - Данные контрольного примера

Д4.1 - Технологическая документация

Д5.1 - Журнал учета выдачи в эксплуатацию

Д6.1 - Код программы

Д7.1 - Программная документация

Д7.2 - Данные контрольного примера

Д8.1 - Технологическая документация копирования файлов

Содержанием первой операции является выбор метода хранения информации (П1). Проектировщики используют несколько методов хранения информации в информацион­ной базе (Д1.1), такие как:

метод дублирования основных файлов и хранения нескольких их копий;

метод создания и хранения нескольких поколений каждого основного файла ИБ и файлов корректур к ним;

комбинированная система нескольких поколений с дублированием последнего поколения и файлов корректур.

В результате выполнения этой операции получают документ Д1.2, описывающий выбранный метод хранения информации в информационной базе.

Далее проектировщики должны разработать и отладить программу отката и вос­становления данных на контрольном примере (П2, П3), в результате выполнения которых получают отлаженный код программы (Д3.1), предназначенной для восстановления хра­нимых данных в случае сбоя системы при выполнении обращений прикладных программ к файлам ИБ или при выполнении процедуры актуализации данных, результатные данные контрольного примера (Д3.2).

Следующей является операция разработки технологии восстановления и хранения данных (П4) и составления технологической документации (Д4.1).

Помимо этого необходимо также спроектировать систему учета эксплуатации фай­лов, в которую входит разработка (П5) «Журнала учета» (Д5.1), составление и отладка ко­да программы ведения статистики обращения к файлам (П6, П7) с получением программ­ной документации (Д7.1) и контрольного примера (Д7.2) и разработка технологии копирования файлов (П8) с получением соответствующей технологической документации (Д8.1). Проектирование процедур защиты информационной базы от несанкционированно­го доступа будет рассмотрена в главе.

8.3. Проектирование процесса автоматизированного ввода бумажных документов

Одной из основных задач, связанных с сокращением затрат на обработку данных, является автоматизация массового ввода бумажных первичных документов, загрузки дан­ных в информационную базу. Основное отличие массового ввода документов от простого сканирования состоит в том, что обрабатывается большое количество однотипных доку­ментов. В качестве примеров приложений данной технологии в конкретных предметных областях можно привести систему ввода и обработки «Платежных поручений» в банке, систему ввода «Налоговых деклараций», систему ввода и проверки бухгалтерских доку­ментов в пенсионном фонде.


Для организации обработки большого количества бумажных документов и перево­да их в электронную форму необходимо разработать систему массового ввода документов (СМВ), которая будет способна работать как с одним, так и с несколькими тысячами бу­мажных документов в день. При проектировании системы ввода бумажных документов выполняется следующая совокупность операций:

определение состава операций, которая должна выполнять система;

выбор технических средств реализации выполнения этих операций;

выбор и настройка программного обеспечения;

разработка технологической документации.

Рассмотрим содержание основных операций автоматизированного ввода бумажных документов. Автоматизированное чтение и ввод документов включает в себя операции, которые можно объединить в несколько стадий:

Подготовка документов к сканированию.

Получение изображения документа.

Распознавание и ввод данных, содержащихся в документе в ИБ.

1. Подготовка документов к сканированию - очень важная фаза процесса ввода документов, которая обеспечивает получение достоверных отсканированных изображе­ний, сохраняемых в системе, и включает в себя две операции: непосредственную подго­товку документов для сканирования и выполнение описания настройки системы на кон­кретную форму документа.

Подготовка документов для сканирования предполагает выполнение следую­щих шагов:

определение самого документа для сканирования;

выбор конкретных областей документа для сканирования;

определение технологической цепочки движения документа до сканирования;

непосредственная подготовка документов для сканирования: открытие конвертов, удаление скрепок или других предметов, мешающих сканированию;

подготовка пакетов документов для сканирования.

Составление описания каждого документа предполагает выполнение трех опе­раций:

составление настройки формы документа,

настройки модели ввода,

настройки полей формы документа и индексации базы данных.

В основе выполнения этого состава операций лежит понятие форматированного (структурированного) документа (ФД). Типичными примерами форматируемых докумен­тов являются «Платежные поручения», «Прайс-листы», «Декларации о доходах», «Счета» и т.д. Основной структурной единицей форматируемого документа является поле доку­мента. Каждое поле описывается в двух аспектах: визуально, в частности геометрически, и содержательно. С изобразительной точки зрения каждое поле должно быть явно обособ­лено: пустыми промежутками, разделительными линиями, оригинальным типом шрифта, уровнем фона, цветом и т. д.

Содержательная часть характеризуется назначением поля, словарным и алфавит­ным составом, а также некоторыми законами построения текста, например, в поле почто­вого адреса должны быть сведения о городе, улице, доме и проч.

Геометрические и содержательные характеристики полей могут быть как абсолют­но независимыми, так и взаимосвязанными. Например, в приходном ордере рядом с поля­ми «количество» и «цена» находится поле - «сумма».

Документы, которые подлежат сканированию могут быть объединены в группы по нескольким признакам. По способу нанесения информации можно выделить документы, в которых используются метки, печатный или рукописный тексты. Так, например, «Избира­тельные бюллетени» используют меточный способ, в то время как «Прайс-листы» - пе­чатный, а первичные бухгалтерские документы - в основном рукописный.

По геометрической вариатности полей различают документы, в которых располо­жение всех полей и записей строго фиксировано относительно опорных элементов: рамок, линий, постоянных напечатанных записей, специальных маркеров. Все специально подго­товленные для машинной обработки документы обладают этим качеством. Другим типом являются документы, которые имеют произвольное расположение полей.

Кроме того, можно разделять документы по наличию явных разделителей полей, которые часто присутствует в таблицах, бухгалтерских документах и в платежных пору­чениях или их отсутствию.

2. Получение изображения документа включает в себя выполнение таких опера­ций как:

сканирование,

контроль качества отсканированных изображений,

возможное повторное сканирование.

Сканирование - это очень ответственная операция, и, следовательно, к выбору конкретной модели сканера необходимо подходить достаточно ответственно. При выборе следует учитывать следующие факторы: размеры документов, их состояние, является ли документ односторонним или двухсторонним, производительность сканеров, необходи­мое разрешение изображения, надежность получаемых изображений и другие.

В настоящее время на рынке технических средств предлагается достаточно боль­шое количество различных моделей сканеров, которые можно классифицировать по про­изводительности на следующие виды:

персональные - низкоскоростные (20-40 стр./мин, например, Fujitsu Scan Partner 10, HP ScanJet и др);

настольные офисные - среднескоростные (40-60 стр./мин или 80-120 изображений в минуту, например, BancTec 2610 Bell&Howell6338 Fujitsu3099 Kodak ImageLink 500 и др.);

высокопроизводительные - потоковые (90-185 стр./мин или 180-370 из/мин, на­пример. BancTec S-series Photomatrix 5000 Kodak ImageLink 900 и др.).

По качеству сканирования, зависящего от разрешающей способности, их можно разделить на следующие группы (см. табл.2):

с низкой разрешающей способностью (200-400 точек на дюйм);

со средней разрешающей способностью (600-800 точек/дюйм);

с высокой разрешающей способностью (1600-2800 точек/дюйм);

специального назначения.

Для ввода ветхих документов применяют сканеры специального назначения с ва­куумным прижимом документов, которые предъявляют весьма низкие требования к доку­менту и обрабатывают его в щадящем режиме. Такие сканеры позволяют сканировать не полностью раскрытые книги и документы плохого качества. Скорость ввода у таких уст­ройств - 0,25-3 страницы в минуту.

Контроль качества отсканированных изображений необходим для того, чтобы все нужные документы были отсканированы и легко читаемы (не должно быть пропущен­ных страниц, некачественных изображений и т.д.). Для повышения эффективности и на­дежности системы следует иметь возможность выборочной проверки качества отсканиро­ванных изображений, а также при сканировании многостраничных документов - возможность отслеживать порядок сканируемых страниц.

Повторное сканирование проводится в случае неудовлетворительного качества изображения или из-за проблем, связанных с неправильным порядком страниц в документе.

3. Распознавание и ввод данных, содержащихся в документе, в информацион­ную базу предполагает выполнение следующих основных операций:

предварительная обработка изображений,

нахождение полей (сегментация документа и чтение текста),

проверка распознанной информации,

ввод данных в информационную базу.

Предварительная обработка изображения документов использует следующие специальные функции:

очищение изображения применяется для снятия с изображений отдельных эле­ментов (например, точки, пятна);

снятие фона и выделений (например, с ценных бумаг);

выравнивание изображения для последующей его обработки с целью улучшения качества распознавания, чтобы документ показать в строго вертикальном положении в процедуре распознавания без перекосов;

снятие элементов форм (для того, чтобы эффективно обрабатывать форму, необ­ходимо удалять с изображения элементы формы: линии, разграфки; таблицы и т.д.);

определение идентификатора форм (т.к. приходится вводить в систему самые раз­нообразные формы, отличные как по содержанию, так и по структуре, для того, чтобы система могла работать со множеством форм, она должна определять, какая форма посту­пила на обработку и загружать соответственно заранее настроенное и подготовленное описание формы);

восстановление букв и символов - если они оказываются пересеченными элемен­тами формы, например, линией, (для последующего распознавания символа необходимо удалить линию, таким образом, чтобы буква не пострадала);

Кроме того, к предварительной обработке изображения относятся следующие функции, повышающие надежность распознавания:

вращение изображения на произвольный угол,

масштабирование изображения,

регулирование уровня серого,

компрессия и декомпрессия изображения.

Процессы нахождения полей (сегментация документа) и чтения текста могут быть выполнены последовательно и независимо, если поля полностью определены своими визуальными характеристиками. Такая ситуация характерна для машиночитаемых форм и документов с явными разделителями полей в виде линий или больших промежутков. В документах, не имеющих строго определенного положения полей и явных разделителей между ними, нет принципиально иного способа, как прочитать текст и по его содержанию скорректировать результаты предварительной сегментации.

В машиночитаемых формах задача в основном сводится к нахождению опорных элементов и вычислению относительно них положения информативных полей. Докумен­ты, не имеющие строго заданной геометрии, но тем не менее использующие явно задан­ные разделители, обрабатываются достаточно надежно, например, таблицы с разделите­лями в виде горизонтальных и вертикальных прямых.

Наиболее сложная ситуация возникает при работе с гибкими формами документов. Термин «гибкая» означает, что известен состав полей, их примерное расположение, неко­торые особенности по строению полей, но отсутствует полная и точная ориентация по их расположению.

Как правило, задачи обработки разных форм документов, таких как «Платежные документы», «Налоговые декларации» и др. решаются индивидуально путем программи­рования с использованием общих приемов.

Распознавание документа, анализ содержания документа и извлечение данных

осуществляются в настоящее время с помощью следующих систем распознавания текстов, отличающиеся по стоимости, качеству и скорости работы:

OCR (Optical Character Recognition) - технология оптического распознавания пе­чатных символов, т.е. перевода сканированного изображения печатных символов в их тек­стовое представление;

ICR (Intelligent Character Recognition) - распознавание раздельных печатных сим­волов, написанных от руки;

OMR (Optical Mark Recognition) - распознавание отметок (обычно перечеркнутые крест-накрест либо галочками квадраты или круги);

Стилизованные цифры - распознавание рукописных цифр, написанных от руки по шаблону, как на почтовых конвертах;

Существует несколько подходов к реализации технологий ввода рукописных сим­волов:

Распознавание on-line - осуществляется в тот момент, когда человек пишет спе­циальным пером на сенсорном экране, воспринимающем дополнительную информацию о траектории движения руки, наклоне пера, силе нажима и т. д. Применяется в основном в персональных электронных записных книжках типа 3Com PalmPilot для рукописного вво­да числовых и символьных данных.

Распознавание off-line - распознавание произвольного рукописного текста, вве­денного в компьютер через сканер.

Распознавание рукопечатных символов является подмножеством технологии рас­познавания off-line. Применяется, как правило, для ввода стандартных форм. Очевидно, что распознавание рукописного текста значительно сложнее, чем печатного. Если в по­следнем случае мы имеем дело с ограниченным числом вариаций изображений шрифтов (шаблонов), то в рукописном варианте число шаблонов неизмеримо больше.

Для OCR систем в основном используются три технологии:

матричная (Matrix -based),

описательная (основана на описании правил построения символов),

нейронная (основана на использовании нейронных сетей).

Проверка распознанных данных - является следующей операцией, реализуемой системой ввода. Системы автоматического распознавания обычно вместе с результатом возвращают так называемую «степень уверенности». Для повышения надежности данных после распознавания применяются определенные пользователем автоматизированные ме­тоды проверки данных (например, можно проверить, имеется ли распознанная информа­ция в базе данных, и если нет, то пометить поле как некорректное).

Если данные после распознавания помечены как некорректные, то они автоматиче­ски направляются на ручное редактирование. Во время редактирования оператор видит реальное изображение нераспознанного поля и имеет возможность откорректировать его. После ввода оператором новых данных снова применяются правила проверки данных, т.е. на всех этапах ввода, как автоматического, так и ручного, осуществляется проверка дан­ных в соответствии с правилами, определенными пользователем. Большие требования в данном случае предъявляются к методам проверки вводимых данных. Для повышения на­дежности данных используются дополнительные механизмы, такие как применение сло­варей и таблиц, определяемых пользователем. Как правило, системы включают специаль­ные встроенные средства для определения специальных процедур проверки для каждого поля документа.

Ввод данных, содержащихся в документе, в информационную базу является за­ключительной операцией. При этом может быть сохранено изображение документа.

В отличие от обычной системы распознавания (OCR), система ввода стандартных форм использует формальное описание исходной формы документа или бланка. Это по­зволяет автоматически помещать распознанную информацию в поля базы данных без уча­стия оператора. Строгое соблюдение стандарта внешнего вида формы существенно по­вышает точность распознавания полей документа.

Основной фактор при оценке эффективности систем распознавания заключается в стоимости исправления ошибок при распознавании, а в не точности и скорости системы. В некоторых случаях затраты на исправление ошибок при распознавании могут перекрыть все плюсы автоматизации и сделать ручной ввод по изображению более эффективным.

При разработке и использовании такой системы проектировщику требуется выпол­нить также большой объем работ по интеграции этой системы ввода в действующую или разрабатываемую информационную систему. На производительность системы очень боль­шое влияние оказывают используемая технология ввода, ее настройка на текущую задачу и вид документов. Здесь нужно учитывать состав оборудования, программное обеспечение и совместимость формата распознанной информации с уже существующими системами.

Существует множество компаний, которые предлагают решения или компоненты систем обработки форм. Решение о внедрении системы обработки форм, а также выбор того или иного приложения должны производиться с учетом, в первую очередь следую­щих требований:

тип обрабатываемых документов и вид содержащихся в них данных;

точность распознавания;

наличие эффективной системы редактирования;

настраиваемость системы на требования конкретного заказчика и способность изменяться согласно меняющимся внешним условиям без программирования;

наличие поддержки сканеров различных типов, а также разного рода плат обра­ботки изображений документов;

наличие редактора форм, настраивающего систему на новые формы или измене­ния старой формы, на которую система была предварительно ориентирована;

наличие редактора схем обработки документов, открытого интерфейса подключе­ния различных модулей распознавания (в зависимости от типа формы можно, для повы­шения качества распознавания, подключать тот или иной модуль, который наиболее под­ходит для данного типа формы);

наличие редактора схем экспорта в базу данных (данные, которые извлекаются при обработке формы, должны быть переданы или в базу данных для хранения, или в дру­гие бизнес-приложения для обработки).

Рассмотрим в качестве примера систему Cognitive Forms компании Cognitive Technologies. Cognitive Forms - российская система промышленного (иногда говорят по­точного) ввода стандартных форм документов, которая работает под управлением опера­ционных систем Windows 95/NT и MacOS. Система принадлежит к классу OCR/ICR/OMR и позволяет вводить в базы данных и информационные системы формы с печатным, руко­писным заполнением и отметками (checkbox).

Cognitive Forms предназначена для автоматизированного ввода в информационные системы и базы данных произвольных, одно- и многостраничных форм документов, соот­ветствующих определенным требованиям к оформлению и заполнению и подготовленных на лазерных, струйных и матричных принтерах или на стандартных бланках с использо­ванием пишущих машинок.

Эта система позволяет осуществлять распределенную поточную обработку (скани­рование, распознавание, редактирование и контроль) в сети с производительностью рас­познавания до 14 000 страниц А4 в смену на одном компьютере и осуществлением авто­матического контроля результатов распознавания. Экспорт данных может осуществляться в базы данных, банковские системы типа «Операционный день» и системы создания элек­тронных архивов и автоматизации документооборота.

Внедрение системы позволяет обеспечить ускорение ввода стандартных форм до­кументов в 5-10 раз по сравнению с ручным вводом.

Сканированные образы могут быть сохранены в электронном архиве банка для ве­дения истории делопроизводства организации.

Cognitive Forms состоит из трех основных модулей:

Cognitive FormDesigner отвечает за проектирование описания формы документа для программ распознавания и редактирования.

Cognitive FormReader обеспечивает автоматическое распознавание потока стан­дартных форм, поступающих со сканера. В автоматическом режиме осуществляет поточ­ное распознавание форм по заданному описанию и контекстную проверку результатов.

Cognitive FormEditor предназначен для операторского контроля распознанных форм и сохранения информации из введенных форм в записи базы данных и позволяет оператору визуально контролировать и редактировать распознанные поля форм.

Cognitive Forms дает возможность осуществлять распределенную, в рамках локаль­ной сети, обработку вводимых форм и добиться эффективного доступа к данным в режиме реального времени. Например, на Pentium II-233 время распознавания системой Cognitive Forms одного бланка составляет около 2 сек. Для промышленного ввода применяются вы­сокопроизводительные сканеры: Kodak, Bell+Howell, BancTec, Fujitsu и др., а также сете­вые устройства (Hewlett-Packard). Производительность некоторых моделей достигает со­тен страниц в минуту.

Технология использования системы сводится к выполнению четырех шагов.

Вначале сотрудники Cognitive Technologies или заказчик собственными силами создает описание формы (файл с расширением *.frm) или нескольких форм документов в программе Cognitive FormDesigner.

Посредством любого сканера бумажные экземпляры вводятся в компьютер и со­храняются в виде графических изображений (*.tif).

Для распознавания стандартных форм, удовлетворяющих требованиям Cognitive Technologies к оформлению, используется программа Cognitive FormReader.

После распознавания оператор может произвести проверку, откорректировать данные и сохранить их в формате необходимой базы данных. Для этого в программе FormEditor оператор сравнивает изображение формы и поля базы данных. Он редактиру­ет значения полей, глядя на экран компьютера и не тратя времени на работу с бумажным оригиналом. Система направляет оператора, не давая ему возможности ошибиться в фор­мате данных, регистре, типе, диапазоне значений и т. д., что существенно облегчает ввод большого объема информации в используемые базы данных.

Система Cognitive Forms была разработана для применения в банковской сфере для печати и ввода новых форм платежных поручений.

Эффективность применения системы ввода бумажных документов в ЭИС основана, в первую очередь, на значительном сокращении участия человека во вводе данных. Как следствие, можно наблюдать уменьшение времени ввода документов и количества оши­бок. Для организаций, обрабатывающих большие потоки форм (центральные налоговые и почтовые ведомства, статистические организации, центры авторизации по расчетам за кредитные карты), использование описанных технологий позволит решить проблемы эф­фективности обработки сотен тысяч и даже миллионов форм в сжатые сроки.

Вопросы для самопроверки:

Каково содержание основных операций технологического процесса получения первичной информации?

Каковы методы и средства выполнения операции съема первичной информации и ее контроля?

Каковы методы и средства выполнения операций регистрации и сбора первич­ной информации и контроля правильности их выполнения?

Каковы методы, технические и программные средства обеспечения передачи первичной информации в ЭИС?

Каков состав операций входит в состав технологической сети проектирования процессов получения и передачи первичной информации?

Каков состав процедур ведения ИБ?

Каковы требования, предъявляемые к процедуре загрузки?

Каков состав основных операций, включаемых в процедуру загрузки?

Каково содержание операции «прием, контроль и регистрация первичной ин­формации и от какого фактора оно зависит?

Перечислите методы ввода первичной информации в ЭВМ и методы контроля вводимой информации.

Перечислите особенности подготовки первичных данных, влияющих на содер­жание операций процедуры загрузки.

Каков состав методов семантического и сиснтаксического контроля первичной информации, используемых при загрузке данных вы знаете?

Каков состав операций проектирования процедуры загрузки данных в ИБ?

Какие средства частичной автоматизации проектирования процедуры загруки вы знаете и какие факторы влияют на их выбор?

В чем особенность и каков состав операций, выполняемых при вводе информа­ции с бумажных носителей?

Каков состав операций по проектированию системы ввода информации с бу­мажных документов?

Что такое «форматированный документ» и каковы способы его описания?

Что такое «сканирование» и факторы, влияющие на выбор сканерных устройств?

Что такое «распознавание текста» и каковы методы, применяемые для распо­знавания текстовой информации?

Перечислить методы контроля, используемые для проверки распознанного текста.

Каков состав требований, предявляемый к системе ввода бумажных документов?

Каковы особенности структуры и технологии использования системы Cognitive

Forms?

Каково содержание процедуры «актуализации» и каков состав операций проек­тирования процедуры актуализации ИБ?

Каков состав операций проектирования процедуры обеспечения надежности хранения данных в ИБ?


1 2 3 4 5 6 7 8 9 10 11 12 13  Наверх ↑