Глава 8. Проектирование процессов получения первичной информации, создания и ведения информационной базы
8.1. Проектирование процессов получения первичной информации
В состав операций, выполняемых при получении первичной информации, входят: съем, регистрация, сбор и передача информации.
Съем информации или измерение - это процесс получения количественного значения показателя, характеризующего объекты и процессы хозяйственной деятельности, и по степени автоматизации можно подразделитьна следующие виды:
ручной съем (подсчет);
полуавтоматический (например, с помощью весов-автоматов);
автоматический (например, с использованием счетчиков или датчиков единичных сигналов).
К современным средствам измерения и счета относятся, например, электронные весы модели CAS LP-15], которые предназначены для использования в расфасовочных отделах продовольственных магазинов. С помощью весов можно выполнить операции: взвешивания упаковки с товаром; перемножение веса на цену, печать этикетки со стоимостью упакованного товара; передачу сообщений компьютеру, который осуществляет учет движения товаров; приема от компьютера сведений об изменении номенклатуры товаров и цен; накопления данных о выполненных взвешиваниях. Такие весы могут использоваться как автономно, так и в составе системы учета движения товаров в магазине.
Счетчики применяют в тех случаях, когда производство имеет крупносерийный или массовый характер. Счетчиками оснащаются производственные автоматы, штамповочные прессы, маркировочные машины.
Другими устройствами являются измерители потоков (расходомеры), когда объектами измерения представляет жидкость или газ. Примером может послужить топливомер на автоматизированной АЗС, используемый для измерения отпуска количества горючего. К числу такого рода устройств относится также машинка для счета банкнот, средства безналичного денежного обращения с использование пластиковых карт и др.
Машинка для счета банкнот используется для пересчета различных купюр в пачках до 999 листов и вычисления суммы, установления числа листов, которое необходимо отсчитать, выбрасывать мятые и поврежденные купюры.
Средства организации безналичного денежного обращения на основе кредитных карт (КК) позволяют оплачивать, не пользуясь наличными деньгами, различные товары и услуги (телефонные разговоры, проезд в метрополитене и др.) В настоящее время наиболее употребительны три вида КК: с магнитными полосками; с памятью на микросхемах; содержащие микропроцессор, полупостоянную и оперативную память, схему защиты (так называемые интеллектуальные карты).
Следующей операцией, выполняемой при получении первичной информации, этапе является операция регистрации первичной информации, т.е. нанесения всех реквизитов - оснований (количественных характеристик) и признаков на какой-либо носитель. Регистрация информации может выполняться следующими способами:
ручным - заполнение бланков первичных документов на бумажном носителе вручную;
механическим при вводе информации с клавиатуры в экранные формы ЭВМ или при использовании устройств регистрации информации типа пишущих машинок с нанесением информации в первичные документы и одновременной записью ее на магнитные носители или машинночитаемые документы;
полуавтоматическим, когда часть информации автоматически заносится с магнитных носителей или из оперативной памяти устройства (например, при использовании кассовых аппаратов, регистраторов производства или бухгалтерских фактурных машин).
В процессе регистрации информации осуществляется идентификация всех компонент, участвующих в хозяйственных операциях, указывается количественная характеристика процесса, выявленная при съеме информации, а также выполняется привязка всей записи ко времени.
Идентификация компонент хозяйственной операции (станка, рабочего, детали и т.д.) - это определение кода конкретного компонента, который может быть числовым, алфавитным или смешанным и который может быть введен в документ вручную по классификатору, с помощью специального считывающего устройства, читающего штрих-код, нанесенный, например, на деталь или путем выборки из списка кодов и наименований компонент, хранящегося в оперативной памяти регистрирующего устройства.
К этой категории относятся устройства регистрации производства, имеющие в своем составе пульты ввода информации с рабочих мест, счетчики единичных сигналов, устройства памяти на дисках, а также электронные кассовые аппараты. Например, кассовый аппарат типа IPC POS-IIS позволяет выполнять такие операции как регистрацию продаж с умножением количества на цену; прием данных с клавиатуры, с электронных весов, от считывателя штрих-кодов, от считывателя магнитных карт; корректировку регистрации с возвратом денег; расчет промежуточных итогов, подсчет сдачи; прием платы наличными деньгами или кредитными картами; пересчет платы в другую валюту; расчет налогов, скидок; ведение денежных и операционных регистров; запись итоговых показаний регистров в фискальную память со сроком хранения до 10 лет; выдачу отчетов; выдачу данных в канал связи и на технический носитель. В памяти аппарата могут храниться данные по 10000 товарам, один аппарат могут использовать до 99 кассиров. Первичные данные о продажах фиксируются на машинных носителях и могут быть использованы в системе управления магазином.
Для обеспечения достоверности информации при выполнении операции регистрации применяют несколько методов контроля, набор которых наиболее широко представлен при полуавтоматическом способе регистрации информации, где можно выделить следующие методы:
визуальный контроль на экране регистратора;
двойной ввод информации;
контроль идентификатора по списку;
контроль вводимой информации по формату;
контроль идентификаторов по модулю (11, 10);
контроль по сумме сообщений;
контрольные суммы по каждому сообщению;
общий аппаратный контроль по модулю 2.
Сбор первичной информации - это операция получения пакета сообщений, «пачки» первичных документов или файла на машинных носителях для последующей их передачи и обработки. Эта операция также может быть осуществлена ручным, полуавтоматическим и автоматическим способом с централизованной или децентрализованной организацией работ.
Полуавтоматический и автоматический способы сбора информации применяются для получения массовой информации в производственных цехах. Для централизованной организации работ характерен периодический опрос удаленных пунктов регистрации первичной информации, находящихся на рабочих местах, выполняемых автоматически, передача этой информации на центральную ЭВМ вычислительного комплекса для учета, контроля выработки продукции и выдачи нового задания. Децентрализованный метод сбора - это метод, при котором передача информации осуществляется с удаленных пунктов по мере накопления информации или по окончании некоторого периода времени, например, смены.
Поскольку первичная информация возникает на рабочих местах, удаленных от пунктов ее обработки, то возникает проблема в организации системы передачи этой информации. Помимо первичной информации в процессе управления организацией или ее филиалами возникает необходимость в передаче документов, являющихся результатом обработки данных на ЭВМ, а также в организации удаленного доступа к общим базам данных, к коммерческим базам данных глобальных вычислительных сетей или к данным, хранящимся на WEB-серверах.
Операция передачи информации на расстояние осуществляется двумя способами: неэлектрическим (например, с помощью экспедиторов, курьеров), для которого характерны высокая надежность и низкая скорость передачи, и электрическим, требующим системы защиты от искажений и несанкционированного доступа.
Передачу информации электрическим способом можно осуществлять с использованием следующих средств: телеграфа общего пользования, для которого характерна низкая скорость передачи информации и низкая достоверность передачи; абонентских телеграфных устройств и специальной аппаратуры передачи данных компьютерных сетей.
Основным средством передачи данных в ЭИС в настоящее время служат компьютерные сети, подразделяемые на низкоскоростные, среднескоростные и высокоскоростные с использованием передачи данных по коммутируемым либо по специально выделенным каналам связи.
Компьютерной сетью называется совокупность взаимосвязанных через каналы передачи данных компьютеров, обеспечивающих пользователей средствами обмена информацией и коллективного использования аппаратных, программных и информационных ресурсов сети.
По степени территориальной удаленности компьютерные сети классифицируются на локальные, распределенные и глобальные.
Локальные сети ЭВМ связывают абонентов одной организации, расположенных в одном или нескольких близлежащих зданиях и удаленных друг от друга на расстояние не больше чем на 10 км. Локальные сети обслуживают как правило до 80-90% потребности в передаче информации и только 10-20% требует своего обслуживания региональной или глобальной сетями. Локальные сети могут иметь любую структуру, но чаще всего компьютеры в локальной сети связаны единым высокоскоростным каналом передачи данных, который является собственностью организации.
Региональные сети объединяют пользователей города, области, небольших стран и в качестве связи чаще всего используются телефонные линии. Расстояние между узлами сети составляют 10-1000 км.
Глобальные сети объединяют пользователей, расположенных по всему миру, и часто используют спутниковые каналы связи, позволяющие соединить узлы сети связи и ЭВМ, находящиеся на расстоянии 10-15 тыс. километров друг от друга.
По способу установления соединений между абонентами сети делятся на несколько видов. Сети с коммутацией каналов характеризуются установлением прямой связи с абонентом на некоторое время в пределах общей очереди. Поэтому, основным недостатком такой связи является ожидание соединения в общей очереди. Положительным качеством такой передачи является тот факт, что передача не может быть осуществлена вне очереди (произвольно), что повышает достоверность передачи информации в целом.
Ко второму виду относятся сети с коммутацией сообщений, которые характеризуются наличием узлов коммутации сообщений. Для таких узлов необходимо обеспечить наличие технических средств получения и хранения сведений. Задача ЭВМ, используемых для этих целей, - получить сообщение, запомнить его и, в случае освобождения канала связи с абонентом, по определенному адресу передать это сообщение. Положительной стороной такой передачи является минимальное время ожидания. Отрицательной - сеть получается более дорогой (необходимо разработать специальное программное обеспечение узла коммутации), а при передаче большого объема информации (1 млн. байт) канал занимается на несколько часов.
Третьей разновидностью являются сети с коммутацией пакетов, позволяющие длинное сообщение на передающем пункте разбивать на пакеты сообщений. Информация передается пакетами. Положительная сторона такого способа передачи - сокращается время ожидания передачи. Отрицательная - необходимость иметь программное обеспечение, позволяющее разбивать на передающем пункте сообщение на пакеты с заголовком, адресом и контрольным числом, а на принимающем пункте - сборку сообщения по идентификатору.
Для обеспечения достоверности передачи информации применяют две группы методов контроля: аппаратные, при котором контроль ведется на уровне символа с использованием помехозащитных кодов, и информационные, организованные по принципу дублирования (двойной передаче сообщений) или по принципу информационной избыточности.
Выделяют следующие варианты распознавания ошибок, организованные по принципу дублирования информации:
метод решающей обратной связи (передача ведется в одном направлении два раза, ответ получается в форме «ДА-НЕТ»);
метод информационной обратной связи (передача сообщения ведется в двух направлениях: «источник- потребитель», «потребитель-источник», в «источнике» переданное и полученное сообщения сравниваются, что позволяет выявить ошибки передачи).
По принципу информационной избыточности используются два метода:
контроль по модулю (контроль фрагмента сообщения);
метод контрольных сумм.
Содержание конкретных работ по проектированию технологических процессов получения первичной информации определяется составом и особенностями используемых методов и средств выполнения рабочих и контрольных операций, выполняемых с помощью определенных программно-технических средств.
8.2. Проектирование процесса создания и ведения информационной базы
Под системой создания и ведения информационной базы понимают некоторый комплекс программной, методической и технической документации, с помощью которой пользователь может осуществить своевременную загрузку и актуализацию данных, хранение достоверных данных, обеспечивать секретность данных, защиту их от сбоев ЭВМ и своевременное восстановление утраченной информации. Проектирование системы создания и ведения информационной базы означает проектирование и получение программной и технологической документации по следующим процедурам:
загрузки и актуализация данных;
обеспечение достоверности вводимых данных;
обеспечение защиты данных;
обеспечение надежности хранения данных.
Достоверность хранения данных в информационной базе подразумевает отсутствие ошибок, своевременность внесения изменений и непротиворечивость информации. Для обеспечения достоверности вводимых и хранимых данных необходимо выполнить следующие работы:
обеспечить контроль вводимой информации при выполнении процедур загрузки и актуализации информации;
обеспечить защиту хранимых данных от несанкционированного доступа;
обеспечить одновременность актуализации одних и тех же данных, находящихся в разных файлах.
В процессе создания (загрузки) и актуализации информационной базы используются как интерактивный, так и пакетный режимы. Интерактивный режим создания и актуализации информационной базы предполагает ввод или обновление отдельных записей файлов по мере необходимости. Режим интерактивного ввода или обновления данных в основном применяется при создании и ведении файлов оперативной информации, когда происходит получение и оформление отдельных документов первичной информации (см. 8.1.). Файлы оперативной информации создаются в режиме добавления записей по мере получения документов первичной информации. В этом смысле процессы создания и добавления оперативных данных не различаются. Кроме того, процессы первоначального ввода данных и возможной последующей их корректировки имеют небольшие технологические отличия. Например, ввод заказа и внесение изменений в заказ предполагают работу с одной и той же экранной формой, в первом случае, заполняется пустая экранная форма, а во втором случае, сначала вызывается заполненная экранная форма, а затем корректируется. В том и другом случае выполняются одинаковые методы контроля. При удалении записи также сначала вызывается соответствующая экранная форма для проверки целесообразности этой операции.
Пакетный режим создания и актуализации базы данных предполагает предварительный сбор пакета документов или подготовку входного файла первичной информации, с которых осуществляется загрузка (наполнение) основного файла или его обновление. Пакетный режим используется для работы с файлами оперативной информации только в тех случаях, когда требуется ведение централизованной базы данных из локальных источников при невозможности подключения этих источников к вычислительной сети или из соображений оптимизации объема передачи данных по вычислительной сети, например, при поступлении учетной информации в бухгалтерию. Пакетный режим всегда используется для создания файлов условно-постоянной информации в силу необходимости одноразового ввода большого объема данных, а также часто используется при актуализации этих файлов вследствие, как правило, массового характера обновлений, например, плановой информации или информации классификаторов.
В силу сложности технологии пакетного режима рассмотрим особенности проектирования технологического процесса загрузки и актуализации информационной базы на примере файлов условно-постоянной информации.
Под загрузкой информационной базы будем понимать совокупность операций по приему, контролю и регистрации поступившей информации, ввода информации в ЭВМ, контроля и исправления ошибок, записи данных в информационный файл.
Содержание операций приема, контроля и регистрации поступившей информации зависит от типа носителя первичной информации. Если поступающая информация представлена на бумажном носителе, то во время выполнения этой операции осуществляются следующая совокупность действий:
контроль количества поступивших документов, полноты и качества их заполнения,
отбор правильно заполненных документов и их регистрация в регистрационном журнале,
отбраковка документов, не соответствующих требованиям, предъявляемых к документам,
формирование «запроса» на их исправление и отсылка их к источнику информации, т.е. в то подразделение, из которого они поступили.
Если информация поступает на машинном носителе (гибком диске), то в этом случае проверяется качество записи диска, регистрируется имя файла, объем, источник и время поступления.
При поступлении информации по каналам связи определяется источник поступления, время, количество поступивших записей.
Операция ввода информации в ЭВМ может осуществляться несколькими методами:
ручной ввод данных с бумажных документов с использованием макетов экранных
форм;
автоматизированное чтение данных, содержащихся в документах на бумажных носителях и загрузка их в информационную базу (см. 8.3.).
При вводе больших объемов информации в ЭВМ с клавиатуры оператором допускается значительное количество ошибок, которые необходимо выявить и устранить. При этом контроль вводимой информации, как правило, осуществляется с использованием следующих методов:
визуальный контроль на экране дисплея;
метод контрольных сумм, рассчитываемых по каждой строке документа или по всему документу до ввода в ЭВМ и после ввода, которые затем сверяются между собой;
метод верификации, при котором осуществляется сверка ранее введенных данных, записанных в файл, и данных первичных документов, вводимых оператором второй раз;
метод двойного массива, при котором файлы по первичным документам создаются двумя разными операторами и после ввода сверяются по контрольным числам, вычисляемым для каждого из них.
Проверенные и исправленные данные заносятся в файл информационной базы.
Схема технологической сети проектирования процедуры пакетной загрузки базы данных при ручном способе ввода данных первичных документов отражена на рис. 8.1.
Рис. 8.1. Технологическая сеть процесса загрузки информации в ИБ
Д1.1 - Технологическая документация, описывающая правила работы при получении первичной информации
Д1.2 - Требования к процессу загрузки
Д2.1 - Блок-схема технологического процесса загрузки
ИЗ. 1 - Универсум программных средств частичной автоматизации, служебных средств операционной системы и языков программирования
Д3.1. - Факторы, определяющие выбор инструментальных средств
Д3.2. - Описание выбранных инструментальных средств и методическое обеспечение по их настройке Д4.1 - Блок-схемы программы Д4.2 - Коды программ
Д4.3 - Настройка средств частичной автоматизации Д5.1 - Данные контрольного примера Д5.2 - Отлаженная программа
Д5.3 - Распечатка результатов контрольного примера Д5.4 - Технологическая документация
Первой выполняется операция «Определения особенностей подготовки данных и формирование требований к процедуре загрузки» (П1). Для выполнения этой операции необходимо располагать технологической документацией, описывающей правила работы при получении первичной информации (Д1.1).
Можно выделить следующие особенности подготовки файлов данных:
внемашинные форматы данных могут не совпадать с внутримашинными форматами;
получение и подготовка первичной информации с помощью разнообразных технических средств может привести к рассогласованию кодов представления вводимой информации и кодов ее представления в ЭВМ;
все операции по подготовке файлов являются машино-ручными, поэтому следует учитывать большое количество возможных ошибок;
вводимые файлы могут иметь линейную или иерархическую логическую структуру, которую следует учитывать в процессе загрузки;
структуры записей входных файлов могут не совпадать со структурой записей базы данных.
Результатом выполнения этой операции является получение списка требований к процедуре загрузки (Д1.2). К основным требованиям, предъявляемым к процедуре загрузки, можно отнести следующие:
необходимо обеспечение достоверности вводимой информации;
должны выдаваться сообщения об ошибках и местах их возникновения;
требуется обеспечение контроля вводимой информации на уровне файла, записи,
поля;
загрузка должна обеспечить перекодирование информации в случае рассогласования кодов;
должно обеспечиваться преобразование файлов во внутренние форматы;
должно выполняться редактирование, сортировка и распечатка файлов с постоянной информацией.
Второй операцией рассматриваемого процесса служит операция П2 «Определение состава операций технологического процесса загрузки базы данных». Входной информацией для данной работы являются требования к процедуре загрузки (Д1.2), выходной - состав операций или блок-схема технологического процесса загрузки (Д2.1). Исходя из требований, предъявляемых к процедуре загрузки, выделяют следующие типовые операции:
ввод входных данных и их перекодирование;
синтаксический и семантический контроль;
распечатка «Ведомости ошибок», анализ ошибок и создание файла корректур;
ввод файла корректур в ЭВМ;
корректировка входного файла с целью исправления в нем ошибок;
редактирование входного исправленного файла;
формирование записей основного файла;
сортировка или индексирование основного файла с постоянной информацией;
распечатка файла с постоянной информацией.
Особое внимание должно быть уделено разработке программы синтаксического и семантического контроля загружаемой информации в информационную базу. Синтаксический контроль может осуществляться на уровне структуры файла, записи и отдельного поля. Контроль на уровне файла сводится к контролю типов записей, соподчиненности различных типов записей (заголовок, подзаголовок), количества экземпляров каждого типа записи. Контроль на уровне записи сводится к контролю числа полей, их последовательности и длины записи. Контроль на уровне поля включает в себя контроль типа и формата поля.
Семантический контроль сводится к арифметическому и логическому контролю содержимого отдельных полей. Арифметический контроль осуществляется следующими методами:
контрольных сумм по документу;
контрольных сумм по отдельной записи;
контрольного числа по файлу;
контроля по модулю 11;
балансовый контроль.
Логический контроль применяется для реквизитов - признаков и при его построении используют следующие виды контроля:
контроль на конкретное значение;
контроль на диапазон значений;
контроль путем сравнения с некоторой константой;
контроль зависимостей значений реквизитов;
контроль по списку значений (справочнику).
На следующей операции (П3) осуществляется «Выбор инструментального средства разработки программ загрузки информационной базы» на основе универсума программных средств частичной автоматизации, служебных средств операционной системы и языков программирования (И3.1). На вход данной операции поступают блок-схема технологического процесса загрузки (Д 2.1.), факторы, определяющие выбор инструментальных средств (Д 3.1.). На выходе получают описание выбранных инструментальных средств и методическое обеспечение по их настройке (Д 3.2.).
К инструментальным средствам частичной автоматизации относятся: генераторы экранных форм СУБД, специализированные генераторы ввода/вывода и утилиты. К основным факторам, влияющим на выбор средств частичной автоматизации можно отнести:
количество и характер функций, выполняемых данным средством, например, возможность работы с многоэкранными формами или экранными формами, предназначенными для ввода данных в несколько файлов;
наличие большого объема свободных вычислительных ресурсов;
квалификация персонала;
возможность подключения оригинальных программных средств.
Программные средства частичной автоматизации загрузки данных можно разделить по принципу функционирования на конверторы, предназначенные для преобразования данных, создаваемых в других информационных системах, и программы непосредственной загрузки интерпретирующего или генерирующего типов.
Результатом выполнения данной операции является выбор конкретных средств частичной автоматизации процедуры загрузки, или языков программирования, или их комбинации.
Далее осуществляется операция «Настройки средств частичной автоматизации или разработка программ» (П4). В результате формируется программная документация по данной процедуре, в том числе блок-схемы программных модулей (Д 4.1), коды программных модулей (Д 4.2) и схемы настройки средств частичной автоматизации (Д4.3).
На операции П5 осуществляется «Комплексная отладка программы загрузки информации в базу данных» на основе исходных данных для контрольного примера (Д5.1.) с получением отлаженной программы процедуры (Д 5.2), распечаток результатов реализации контрольного примера (Д 5.3) и создание технологической документации по процедуре загрузки (Д 5.4).
Под актуализацией данных будем понимать совокупность операций над файлами информационной базы, связанных с добавлением новых записей, удалением старых, изменением содержания отдельных полей записей.
Процесс проектирования процедуры актуализации условно-постоянной информации в базе данных (технологической сети процесса представлена на рис. 8.2.), начинается с операции «Разработки системы организации актуализации данных» (П1), сущность которой заключается в определении подразделений-источников изменений, разработке форм документа «Извещение на изменения» и экранных форм, определение маршрутов передвижения этого документа от подразделения-источника до ввода информации об изменениях в ЭВМ, определения регламента и режима ввода изменений.
Ы
НЬС1 рОнНл средста Ч4сТ|ЯЧИ13Н чь'иип.гнз-вичь чпи рятраВптте. ррогре*и>
15
^чгллрс.илч атлвдн* ннКри-икч г Бат-у
Рис. 8.2. Технологическая сеть проектирования процесса актуализации ИБ
Д 1.1 - Принципы организации ИБ Д1.2 - Структура ИБ Д1.3 - Список поставщиков изменений Д1.4 - Режим внесения
Д1.5 - Маршруты движения извещений на изменения
Д1.6 - Формы внесения изменений
Д1.7 - Макет экранной формы
Д2.1 - Блок-схема ТП
Д2.2 - Технологическая документация
ИЗ. 1 - Универсум программных средств частичной автоматизации, служебных средств операционной системы и языков программирования
Д3.1. - Факторы, определяющие выбор инструментальных средств
П1
Наэрэйотна *р г ш-м миин
па
ЪиЪгр ннгтручгнтчльчпгч «РМСТЫ
Прогрпин Т111 р-^ГЧ ИЬ
Д3.2. - Описание выбранных инструментальных средств и методическое обеспечение по их настройке
Д4.1 - Блок-схемы программы
Д4.2 - Коды программ
Д4.3 - Настройка средств частичной автоматизации
Д5.1 - Данные контрольного примера
Д5.2 - Отлаженная программа
Д5.3 - Распечатка результатов контрольного примера
Д5.4 - Технологическая документация
Входная информация, используемая при выполнении данной работы, включает описание структуры информационной базы (Д1.2) и описание принципов ее организации (Д1.1). Выходная информация включает в свой состав следующие документы:
список поставщиков изменяемой информации (Д1.3);
формы первичного документа - «Извещение на изменение» (Д1.6);
описания маршрутов движения извещения (Д1.5);
макеты экранных форм размещения информации об изменениях (Д1.7);
режимов внесения изменений (Д1.4);
совокупность файлов, обновляемых одновременно (Д1.8).
Второй выполняется операция «Разработки технологического процесса внесения изменений» (П2). На вход данной операции поступают список поставщиков информации, формы первичного документа «Извещения на изменения», описание маршрутов движения «Извещения», макеты экранных форм размещения информации об изменениях, режимы внесения изменений. Результатом выполнения данной операции являются блок-схема технологического процесса актуализации данных (Д2.1) и технологическая документация (Д2.2). Можно выделить следующие типовые операции технологического процесса актуализации данных:
Выписка «Извещения». Данная операция выполняется в подразделениях предприятия - источниках изменений. Ее результат поступает в виде первичного документа «Извещения» в пункт ввода информации.
Прием, контроль и регистрация извещений.
Ручная корректировка ведомости описи актуализируемого основного файла с постоянной информацией.
Ввод информации извещений в ЭВМ.
Контроль правильности записи информации.
Исправление ошибок и формирование входного файла изменений.
Сортировка файла изменений.
Ввод записей основного файла, требующего изменений.
Актуализация основного файла.
Распечатка актуализированного основного файла.
Сверка начальной и полученной описей основного файла. При наличии расхождений - повторное выполнение вышеперечисленных операций.
Последующие операции выбора инструментального средства разработки процедуры актуализации информационной базы (П3), разработка программных средств (П4), отладка программ и создание технологической документации (П5) выполняются аналогично операциям в технологической сети проектирования процедуры загрузки информационной базы.
Для поддержания надежности хранимых данных при сбоях в работе ЭВМ и разрушениях информационной базы требуется система резервирования и восстановления, технологическая сеть создания которой представлена на рис. 8.3.
И1.1 - Универсум методов хранения и восстановления данных
Д1.1 - Описание метода хранения и восстановления данных
Д2.1 - Код программы восстановления данных
Д3.1 - Отлаженная программа
Д3.2 - Данные контрольного примера
Д4.1 - Технологическая документация
Д5.1 - Журнал учета выдачи в эксплуатацию
Д6.1 - Код программы
Д7.1 - Программная документация
Д7.2 - Данные контрольного примера
Д8.1 - Технологическая документация копирования файлов
Содержанием первой операции является выбор метода хранения информации (П1). Проектировщики используют несколько методов хранения информации в информационной базе (Д1.1), такие как:
метод дублирования основных файлов и хранения нескольких их копий;
метод создания и хранения нескольких поколений каждого основного файла ИБ и файлов корректур к ним;
комбинированная система нескольких поколений с дублированием последнего поколения и файлов корректур.
В результате выполнения этой операции получают документ Д1.2, описывающий выбранный метод хранения информации в информационной базе.
Далее проектировщики должны разработать и отладить программу отката и восстановления данных на контрольном примере (П2, П3), в результате выполнения которых получают отлаженный код программы (Д3.1), предназначенной для восстановления хранимых данных в случае сбоя системы при выполнении обращений прикладных программ к файлам ИБ или при выполнении процедуры актуализации данных, результатные данные контрольного примера (Д3.2).
Следующей является операция разработки технологии восстановления и хранения данных (П4) и составления технологической документации (Д4.1).
Помимо этого необходимо также спроектировать систему учета эксплуатации файлов, в которую входит разработка (П5) «Журнала учета» (Д5.1), составление и отладка кода программы ведения статистики обращения к файлам (П6, П7) с получением программной документации (Д7.1) и контрольного примера (Д7.2) и разработка технологии копирования файлов (П8) с получением соответствующей технологической документации (Д8.1). Проектирование процедур защиты информационной базы от несанкционированного доступа будет рассмотрена в главе.
8.3. Проектирование процесса автоматизированного ввода бумажных документов
Одной из основных задач, связанных с сокращением затрат на обработку данных, является автоматизация массового ввода бумажных первичных документов, загрузки данных в информационную базу. Основное отличие массового ввода документов от простого сканирования состоит в том, что обрабатывается большое количество однотипных документов. В качестве примеров приложений данной технологии в конкретных предметных областях можно привести систему ввода и обработки «Платежных поручений» в банке, систему ввода «Налоговых деклараций», систему ввода и проверки бухгалтерских документов в пенсионном фонде.
Для организации обработки большого количества бумажных документов и перевода их в электронную форму необходимо разработать систему массового ввода документов (СМВ), которая будет способна работать как с одним, так и с несколькими тысячами бумажных документов в день. При проектировании системы ввода бумажных документов выполняется следующая совокупность операций:
определение состава операций, которая должна выполнять система;
выбор технических средств реализации выполнения этих операций;
выбор и настройка программного обеспечения;
разработка технологической документации.
Рассмотрим содержание основных операций автоматизированного ввода бумажных документов. Автоматизированное чтение и ввод документов включает в себя операции, которые можно объединить в несколько стадий:
Подготовка документов к сканированию.
Получение изображения документа.
Распознавание и ввод данных, содержащихся в документе в ИБ.
1. Подготовка документов к сканированию - очень важная фаза процесса ввода документов, которая обеспечивает получение достоверных отсканированных изображений, сохраняемых в системе, и включает в себя две операции: непосредственную подготовку документов для сканирования и выполнение описания настройки системы на конкретную форму документа.
Подготовка документов для сканирования предполагает выполнение следующих шагов:
определение самого документа для сканирования;
выбор конкретных областей документа для сканирования;
определение технологической цепочки движения документа до сканирования;
непосредственная подготовка документов для сканирования: открытие конвертов, удаление скрепок или других предметов, мешающих сканированию;
подготовка пакетов документов для сканирования.
Составление описания каждого документа предполагает выполнение трех операций:
составление настройки формы документа,
настройки модели ввода,
настройки полей формы документа и индексации базы данных.
В основе выполнения этого состава операций лежит понятие форматированного (структурированного) документа (ФД). Типичными примерами форматируемых документов являются «Платежные поручения», «Прайс-листы», «Декларации о доходах», «Счета» и т.д. Основной структурной единицей форматируемого документа является поле документа. Каждое поле описывается в двух аспектах: визуально, в частности геометрически, и содержательно. С изобразительной точки зрения каждое поле должно быть явно обособлено: пустыми промежутками, разделительными линиями, оригинальным типом шрифта, уровнем фона, цветом и т. д.
Содержательная часть характеризуется назначением поля, словарным и алфавитным составом, а также некоторыми законами построения текста, например, в поле почтового адреса должны быть сведения о городе, улице, доме и проч.
Геометрические и содержательные характеристики полей могут быть как абсолютно независимыми, так и взаимосвязанными. Например, в приходном ордере рядом с полями «количество» и «цена» находится поле - «сумма».
Документы, которые подлежат сканированию могут быть объединены в группы по нескольким признакам. По способу нанесения информации можно выделить документы, в которых используются метки, печатный или рукописный тексты. Так, например, «Избирательные бюллетени» используют меточный способ, в то время как «Прайс-листы» - печатный, а первичные бухгалтерские документы - в основном рукописный.
По геометрической вариатности полей различают документы, в которых расположение всех полей и записей строго фиксировано относительно опорных элементов: рамок, линий, постоянных напечатанных записей, специальных маркеров. Все специально подготовленные для машинной обработки документы обладают этим качеством. Другим типом являются документы, которые имеют произвольное расположение полей.
Кроме того, можно разделять документы по наличию явных разделителей полей, которые часто присутствует в таблицах, бухгалтерских документах и в платежных поручениях или их отсутствию.
2. Получение изображения документа включает в себя выполнение таких операций как:
сканирование,
контроль качества отсканированных изображений,
возможное повторное сканирование.
Сканирование - это очень ответственная операция, и, следовательно, к выбору конкретной модели сканера необходимо подходить достаточно ответственно. При выборе следует учитывать следующие факторы: размеры документов, их состояние, является ли документ односторонним или двухсторонним, производительность сканеров, необходимое разрешение изображения, надежность получаемых изображений и другие.
В настоящее время на рынке технических средств предлагается достаточно большое количество различных моделей сканеров, которые можно классифицировать по производительности на следующие виды:
персональные - низкоскоростные (20-40 стр./мин, например, Fujitsu Scan Partner 10, HP ScanJet и др);
настольные офисные - среднескоростные (40-60 стр./мин или 80-120 изображений в минуту, например, BancTec 2610 Bell&Howell6338 Fujitsu3099 Kodak ImageLink 500 и др.);
высокопроизводительные - потоковые (90-185 стр./мин или 180-370 из/мин, например. BancTec S-series Photomatrix 5000 Kodak ImageLink 900 и др.).
По качеству сканирования, зависящего от разрешающей способности, их можно разделить на следующие группы (см. табл.2):
с низкой разрешающей способностью (200-400 точек на дюйм);
со средней разрешающей способностью (600-800 точек/дюйм);
с высокой разрешающей способностью (1600-2800 точек/дюйм);
специального назначения.
Для ввода ветхих документов применяют сканеры специального назначения с вакуумным прижимом документов, которые предъявляют весьма низкие требования к документу и обрабатывают его в щадящем режиме. Такие сканеры позволяют сканировать не полностью раскрытые книги и документы плохого качества. Скорость ввода у таких устройств - 0,25-3 страницы в минуту.
Контроль качества отсканированных изображений необходим для того, чтобы все нужные документы были отсканированы и легко читаемы (не должно быть пропущенных страниц, некачественных изображений и т.д.). Для повышения эффективности и надежности системы следует иметь возможность выборочной проверки качества отсканированных изображений, а также при сканировании многостраничных документов - возможность отслеживать порядок сканируемых страниц.
Повторное сканирование проводится в случае неудовлетворительного качества изображения или из-за проблем, связанных с неправильным порядком страниц в документе.
3. Распознавание и ввод данных, содержащихся в документе, в информационную базу предполагает выполнение следующих основных операций:
предварительная обработка изображений,
нахождение полей (сегментация документа и чтение текста),
проверка распознанной информации,
ввод данных в информационную базу.
Предварительная обработка изображения документов использует следующие специальные функции:
очищение изображения применяется для снятия с изображений отдельных элементов (например, точки, пятна);
снятие фона и выделений (например, с ценных бумаг);
выравнивание изображения для последующей его обработки с целью улучшения качества распознавания, чтобы документ показать в строго вертикальном положении в процедуре распознавания без перекосов;
снятие элементов форм (для того, чтобы эффективно обрабатывать форму, необходимо удалять с изображения элементы формы: линии, разграфки; таблицы и т.д.);
определение идентификатора форм (т.к. приходится вводить в систему самые разнообразные формы, отличные как по содержанию, так и по структуре, для того, чтобы система могла работать со множеством форм, она должна определять, какая форма поступила на обработку и загружать соответственно заранее настроенное и подготовленное описание формы);
восстановление букв и символов - если они оказываются пересеченными элементами формы, например, линией, (для последующего распознавания символа необходимо удалить линию, таким образом, чтобы буква не пострадала);
Кроме того, к предварительной обработке изображения относятся следующие функции, повышающие надежность распознавания:
вращение изображения на произвольный угол,
масштабирование изображения,
регулирование уровня серого,
компрессия и декомпрессия изображения.
Процессы нахождения полей (сегментация документа) и чтения текста могут быть выполнены последовательно и независимо, если поля полностью определены своими визуальными характеристиками. Такая ситуация характерна для машиночитаемых форм и документов с явными разделителями полей в виде линий или больших промежутков. В документах, не имеющих строго определенного положения полей и явных разделителей между ними, нет принципиально иного способа, как прочитать текст и по его содержанию скорректировать результаты предварительной сегментации.
В машиночитаемых формах задача в основном сводится к нахождению опорных элементов и вычислению относительно них положения информативных полей. Документы, не имеющие строго заданной геометрии, но тем не менее использующие явно заданные разделители, обрабатываются достаточно надежно, например, таблицы с разделителями в виде горизонтальных и вертикальных прямых.
Наиболее сложная ситуация возникает при работе с гибкими формами документов. Термин «гибкая» означает, что известен состав полей, их примерное расположение, некоторые особенности по строению полей, но отсутствует полная и точная ориентация по их расположению.
Как правило, задачи обработки разных форм документов, таких как «Платежные документы», «Налоговые декларации» и др. решаются индивидуально путем программирования с использованием общих приемов.
Распознавание документа, анализ содержания документа и извлечение данных
осуществляются в настоящее время с помощью следующих систем распознавания текстов, отличающиеся по стоимости, качеству и скорости работы:
OCR (Optical Character Recognition) - технология оптического распознавания печатных символов, т.е. перевода сканированного изображения печатных символов в их текстовое представление;
ICR (Intelligent Character Recognition) - распознавание раздельных печатных символов, написанных от руки;
OMR (Optical Mark Recognition) - распознавание отметок (обычно перечеркнутые крест-накрест либо галочками квадраты или круги);
Стилизованные цифры - распознавание рукописных цифр, написанных от руки по шаблону, как на почтовых конвертах;
Существует несколько подходов к реализации технологий ввода рукописных символов:
Распознавание on-line - осуществляется в тот момент, когда человек пишет специальным пером на сенсорном экране, воспринимающем дополнительную информацию о траектории движения руки, наклоне пера, силе нажима и т. д. Применяется в основном в персональных электронных записных книжках типа 3Com PalmPilot для рукописного ввода числовых и символьных данных.
Распознавание off-line - распознавание произвольного рукописного текста, введенного в компьютер через сканер.
Распознавание рукопечатных символов является подмножеством технологии распознавания off-line. Применяется, как правило, для ввода стандартных форм. Очевидно, что распознавание рукописного текста значительно сложнее, чем печатного. Если в последнем случае мы имеем дело с ограниченным числом вариаций изображений шрифтов (шаблонов), то в рукописном варианте число шаблонов неизмеримо больше.
Для OCR систем в основном используются три технологии:
матричная (Matrix -based),
описательная (основана на описании правил построения символов),
нейронная (основана на использовании нейронных сетей).
Проверка распознанных данных - является следующей операцией, реализуемой системой ввода. Системы автоматического распознавания обычно вместе с результатом возвращают так называемую «степень уверенности». Для повышения надежности данных после распознавания применяются определенные пользователем автоматизированные методы проверки данных (например, можно проверить, имеется ли распознанная информация в базе данных, и если нет, то пометить поле как некорректное).
Если данные после распознавания помечены как некорректные, то они автоматически направляются на ручное редактирование. Во время редактирования оператор видит реальное изображение нераспознанного поля и имеет возможность откорректировать его. После ввода оператором новых данных снова применяются правила проверки данных, т.е. на всех этапах ввода, как автоматического, так и ручного, осуществляется проверка данных в соответствии с правилами, определенными пользователем. Большие требования в данном случае предъявляются к методам проверки вводимых данных. Для повышения надежности данных используются дополнительные механизмы, такие как применение словарей и таблиц, определяемых пользователем. Как правило, системы включают специальные встроенные средства для определения специальных процедур проверки для каждого поля документа.
Ввод данных, содержащихся в документе, в информационную базу является заключительной операцией. При этом может быть сохранено изображение документа.
В отличие от обычной системы распознавания (OCR), система ввода стандартных форм использует формальное описание исходной формы документа или бланка. Это позволяет автоматически помещать распознанную информацию в поля базы данных без участия оператора. Строгое соблюдение стандарта внешнего вида формы существенно повышает точность распознавания полей документа.
Основной фактор при оценке эффективности систем распознавания заключается в стоимости исправления ошибок при распознавании, а в не точности и скорости системы. В некоторых случаях затраты на исправление ошибок при распознавании могут перекрыть все плюсы автоматизации и сделать ручной ввод по изображению более эффективным.
При разработке и использовании такой системы проектировщику требуется выполнить также большой объем работ по интеграции этой системы ввода в действующую или разрабатываемую информационную систему. На производительность системы очень большое влияние оказывают используемая технология ввода, ее настройка на текущую задачу и вид документов. Здесь нужно учитывать состав оборудования, программное обеспечение и совместимость формата распознанной информации с уже существующими системами.
Существует множество компаний, которые предлагают решения или компоненты систем обработки форм. Решение о внедрении системы обработки форм, а также выбор того или иного приложения должны производиться с учетом, в первую очередь следующих требований:
тип обрабатываемых документов и вид содержащихся в них данных;
точность распознавания;
наличие эффективной системы редактирования;
настраиваемость системы на требования конкретного заказчика и способность изменяться согласно меняющимся внешним условиям без программирования;
наличие поддержки сканеров различных типов, а также разного рода плат обработки изображений документов;
наличие редактора форм, настраивающего систему на новые формы или изменения старой формы, на которую система была предварительно ориентирована;
наличие редактора схем обработки документов, открытого интерфейса подключения различных модулей распознавания (в зависимости от типа формы можно, для повышения качества распознавания, подключать тот или иной модуль, который наиболее подходит для данного типа формы);
наличие редактора схем экспорта в базу данных (данные, которые извлекаются при обработке формы, должны быть переданы или в базу данных для хранения, или в другие бизнес-приложения для обработки).
Рассмотрим в качестве примера систему Cognitive Forms компании Cognitive Technologies. Cognitive Forms - российская система промышленного (иногда говорят поточного) ввода стандартных форм документов, которая работает под управлением операционных систем Windows 95/NT и MacOS. Система принадлежит к классу OCR/ICR/OMR и позволяет вводить в базы данных и информационные системы формы с печатным, рукописным заполнением и отметками (checkbox).
Cognitive Forms предназначена для автоматизированного ввода в информационные системы и базы данных произвольных, одно- и многостраничных форм документов, соответствующих определенным требованиям к оформлению и заполнению и подготовленных на лазерных, струйных и матричных принтерах или на стандартных бланках с использованием пишущих машинок.
Эта система позволяет осуществлять распределенную поточную обработку (сканирование, распознавание, редактирование и контроль) в сети с производительностью распознавания до 14 000 страниц А4 в смену на одном компьютере и осуществлением автоматического контроля результатов распознавания. Экспорт данных может осуществляться в базы данных, банковские системы типа «Операционный день» и системы создания электронных архивов и автоматизации документооборота.
Внедрение системы позволяет обеспечить ускорение ввода стандартных форм документов в 5-10 раз по сравнению с ручным вводом.
Сканированные образы могут быть сохранены в электронном архиве банка для ведения истории делопроизводства организации.
Cognitive Forms состоит из трех основных модулей:
Cognitive FormDesigner отвечает за проектирование описания формы документа для программ распознавания и редактирования.
Cognitive FormReader обеспечивает автоматическое распознавание потока стандартных форм, поступающих со сканера. В автоматическом режиме осуществляет поточное распознавание форм по заданному описанию и контекстную проверку результатов.
Cognitive FormEditor предназначен для операторского контроля распознанных форм и сохранения информации из введенных форм в записи базы данных и позволяет оператору визуально контролировать и редактировать распознанные поля форм.
Cognitive Forms дает возможность осуществлять распределенную, в рамках локальной сети, обработку вводимых форм и добиться эффективного доступа к данным в режиме реального времени. Например, на Pentium II-233 время распознавания системой Cognitive Forms одного бланка составляет около 2 сек. Для промышленного ввода применяются высокопроизводительные сканеры: Kodak, Bell+Howell, BancTec, Fujitsu и др., а также сетевые устройства (Hewlett-Packard). Производительность некоторых моделей достигает сотен страниц в минуту.
Технология использования системы сводится к выполнению четырех шагов.
Вначале сотрудники Cognitive Technologies или заказчик собственными силами создает описание формы (файл с расширением *.frm) или нескольких форм документов в программе Cognitive FormDesigner.
Посредством любого сканера бумажные экземпляры вводятся в компьютер и сохраняются в виде графических изображений (*.tif).
Для распознавания стандартных форм, удовлетворяющих требованиям Cognitive Technologies к оформлению, используется программа Cognitive FormReader.
После распознавания оператор может произвести проверку, откорректировать данные и сохранить их в формате необходимой базы данных. Для этого в программе FormEditor оператор сравнивает изображение формы и поля базы данных. Он редактирует значения полей, глядя на экран компьютера и не тратя времени на работу с бумажным оригиналом. Система направляет оператора, не давая ему возможности ошибиться в формате данных, регистре, типе, диапазоне значений и т. д., что существенно облегчает ввод большого объема информации в используемые базы данных.
Система Cognitive Forms была разработана для применения в банковской сфере для печати и ввода новых форм платежных поручений.
Эффективность применения системы ввода бумажных документов в ЭИС основана, в первую очередь, на значительном сокращении участия человека во вводе данных. Как следствие, можно наблюдать уменьшение времени ввода документов и количества ошибок. Для организаций, обрабатывающих большие потоки форм (центральные налоговые и почтовые ведомства, статистические организации, центры авторизации по расчетам за кредитные карты), использование описанных технологий позволит решить проблемы эффективности обработки сотен тысяч и даже миллионов форм в сжатые сроки.
Каково содержание основных операций технологического процесса получения первичной информации?
Каковы методы и средства выполнения операции съема первичной информации и ее контроля?
Каковы методы и средства выполнения операций регистрации и сбора первичной информации и контроля правильности их выполнения?
Каковы методы, технические и программные средства обеспечения передачи первичной информации в ЭИС?
Каков состав операций входит в состав технологической сети проектирования процессов получения и передачи первичной информации?
Каков состав процедур ведения ИБ?
Каковы требования, предъявляемые к процедуре загрузки?
Каков состав основных операций, включаемых в процедуру загрузки?
Каково содержание операции «прием, контроль и регистрация первичной информации и от какого фактора оно зависит?
Перечислите методы ввода первичной информации в ЭВМ и методы контроля вводимой информации.
Перечислите особенности подготовки первичных данных, влияющих на содержание операций процедуры загрузки.
Каков состав методов семантического и сиснтаксического контроля первичной информации, используемых при загрузке данных вы знаете?
Каков состав операций проектирования процедуры загрузки данных в ИБ?
Какие средства частичной автоматизации проектирования процедуры загруки вы знаете и какие факторы влияют на их выбор?
В чем особенность и каков состав операций, выполняемых при вводе информации с бумажных носителей?
Каков состав операций по проектированию системы ввода информации с бумажных документов?
Что такое «форматированный документ» и каковы способы его описания?
Что такое «сканирование» и факторы, влияющие на выбор сканерных устройств?
Что такое «распознавание текста» и каковы методы, применяемые для распознавания текстовой информации?
Перечислить методы контроля, используемые для проверки распознанного текста.
Каков состав требований, предявляемый к системе ввода бумажных документов?
Каковы особенности структуры и технологии использования системы Cognitive
Каково содержание процедуры «актуализации» и каков состав операций проектирования процедуры актуализации ИБ?
Каков состав операций проектирования процедуры обеспечения надежности хранения данных в ИБ?