ЭЛЕКТРОННАЯ БИБЛИОТЕКА КОАПП
Сборники Художественной, Технической, Справочной, Английской, Нормативной, Исторической, и др. литературы.


http://9737644.ru/ нотариальные переводы в одинцово.

 

Сравнение текстовых, документальных и реляционных СУБД

                                                      Клиффорд Рейд
       
     Согласно данным всемирно известной фирмы по исследованию марке-
тинга  DataQuest  Inc.,  ежегодно  в организациях издается более 2,7
биллиона документов. Подсчитано также, что 70% того, что мы  сегодня
читаем,  готовится  электронным способом и хранится где-то на компь-
ютере. Главная проблема, стоящая перед нами, заключается в том,  как
управлять  таким объемом информации. Существует острая необходимость
в средствах управления, доступа и распространения текстовой и графи-
ческой информации, начиная с данных ASCII в свободной форме и кончая
сканируемыми документами, хранящимися на оптических  устройствах.  В
данной статье рассматриваются современные типы интегрированных текс-
то-графических  баз данных и вопросы развития технологии, касающиеся
систем управления большими массивами документов, содержащих  смешан-
ные типы данных.
                                                                   
       
       Сравнение  реляционных, текстовых и документальных систем
                          управления
                            
     Начиная с первых применений в сфере бизнеса, для управления ба-
зами данных с ориентированными на запись транзакциями использовались
компьютеры.  В настоящее время реляционные СУБД (RDBMS) являются но-
вым стандартным средством хранения и поиска ориентированных  на  за-
пись  данных (данные структурированы по строкам и столбцам). Системы
управления текстовой информацией (TIMS), с другой стороны, осуществ-
ляют хранение и поиск неструктурированных данных (текст ASCII в сво-
бодной форме). Третий тип продукта - документальные системы управле-
ния (DMS) - ориентированы больше на обработку растровых  изображений
документов, чем символьной (ASCII) информации, используя обычно тех-
нологии хранения данных на оптических носителях.
     Границы  между этими системами начинают исчезать. Причина этого
заключается в переопределении понятия "документ". Прежде  считалось,
что хранящийся в компьютере документ должен состоять только из кодов
ASCII. В соответствии с новым определением документ состоит из одно-
родно интегрированных текстовых, графических и документальных струк-
тур.
     На  рис.  1 изображен спектр типов данных, входящих в документ.
Слева в диаграмме представлены неинтегрированные текстовые базы дан-
ных и неинтегрированные графические базы данных. В  настоящее  время
эти  типы  баз данных обрабатываются посредством TIMS и DMS. Крайний
правый столбец диаграммы содержит структурированные  (представленные
в виде строк и колонок) базы данных, управляемые RDBMS. В центре ди-
аграммы  изображены  два варианта интегрированных тексто-графических
баз данных. Следующее поколение систем управления большими  объемами
документов  будет  ориентирована  на  эти две модели интегрированных
тексто-графических баз данных.
       
                                               
       
Неструктурированные                               Структурированные
ННННННННННННННННННННННННННННННННННННННННННННННННННННННННННННННННННН>
 Свободный тексті Слабо связанные і Тесно связанные  і RDBMS
 ДДДДДДДДДДДДДДДЕДДДДДДДДДДДДДДДДДЕДДДДДДДДДДДДДДДДДДЕДДДДДДДДДДДДДДДД
 ASCII          іASCII&изображенияіASCII, изображенияі Записи
 Без структуры  іОтдельная база   іи структура       і Транзакции
 Текстовая ин-  іданных "ссылок"  іСсылки, имеющиеся і Операции соеди-
 формация       і                 ів документах      і нения
 Управление     і                 і                  і В лучшем случае,
                і                 і                  і картотека
 ДДДДДДДДДДДДДДДБДДДДДДДДДДДДДДДДДБДДДДДДДДДДДДДДДДДДБДДДДДДДДДДДДДДДД
       
       Рис. 1. Спектр типов данных, входящих в документы
       
       
     Некоторые пользователи RDBMS пытались обрабатывать неструктури-
рованные текстовые базы данных с помощью RDBMS. Модель RDBMS, ориен-
тированная на среду управления  транзакцией,  с  неструктурированным
текстом  работает плохо. При использовании RDBMS в качестве средства
обработки изображений и текста эта система может служить только сло-
варем для хранения имен файлов и кратким перечнем ключевых слов, от-
ражающих содержание документов. Впоследствии  документы  могут  быть
найдены  по  именам  файлов или ключевым словам. В противоположность
этому, TIMS обладает большей способностью динамически "читать" любой
документ и искать документ по его контексту.
     Идеалом, к которому стремится промышленность, является  возмож-
ность  управления как неструктурированными, так и структурированными
данными в рамках единой архитектуры. Это произойдет, когда современ-
ные неинтегрированные архитектуры  будут  заменены  интегрированными
системами, способными обрабатывать графическую, текстовую и структу-
рированную информацию.
       
       
       
                              ________
                              і      і
            __________________і      і_________________
  Книга     і                _________                і
      __    і               /________/                і
і\/і і  і   і                                         і
і  і_і  і___і         Оптическое распознавание        і
і  і і  і   і                 символов                і
 \/  і__і   і                                         і
            і                                         і
   Сканнер  і   Изображения                          \ /    Границы страницы
            і    ЪДДДДДДї                      ЪДДДДДДДї            //
            і    і      і     <-------------   і       і          / /
            і -->і  11  і                      і       і        /  /
            і    і------і                      і-------і      /   /
            і    і      і     <-------------   і       і    /    /
            і -->і  12  і                      і       і  /     /
            і    і------і                      і-------і       /
            і    і      і     <--------------  і       і      /
            і -->і  13  і                      і       і     /
            і    і------і                      і-------і    /
            і    і      і     <--------------  і       і   /
            і -->і  14  і                      і       і  /
            і    і------і                      і-------і
            і    і      і     <--------------  і       і
            і -->і  15  і                      і       і
                 АДДДДДДЩ                      АДДДДДДДЩ
               Изображения                     Символы
               страниц                         документов
                                                        
                          Слабо связанные данные
                          
                          
          Взгляд пользователя            Физическое представление
                                         
           ЪДДДДДДДДДДДДДДї                 ЪДДДДДДДДї    Изображение
           і       ЪДДДї  і                 і        і     ЪДДДї
           і       і   і  і                 і       -----> і   і
           і       АДДДЩ  і                 і        і     АДДДЩ
           і              і                 і        і
           і              і                 і        і    Изображение
           і  ЪДДДї       і                 і        і     ЪДДДї
           і  і   і       і                 і -----------> і   і
           і  АДДДЩ       і                 і        і     АДДДЩ
           і              і  / -----------  і        і
           і              і  \ -----------  і        і    Изображение
           і       ЪДДДї  і                 і        і     ЪДДДї
           і       і   і  і                 і      ------> і   і
           і       АДДДЩ  і                 і        і     АДДДЩ
           і              і                 і        і
           і              і                 і        і    Изображение
           і  ЪДДДї       і                 і        і     ЪДДДї
           і  і   і       і                 і -----------> і   і
           і  АДДДЩ       і                 і        і     АДДДЩ
           і              і                 і        і
           АДДДДДДДДДДДДДДЩ                 АДДДДДДДДЩ
                                                       
      Структурированный документ           Текст и ссылки к изображениям
                                                                        
                           Тесно связанные данные
                   
          
            Рис. 2. Системы управления данными со слабой и тесной связью
            
            
            
            
            Технические соображения по поводу интеграции текста и
                               изображений
                          
     Существует два типа интегрированных тексто-графических баз дан-
ных: слабо интегрированные БД, в которых текст, изображения и ссылки
между  ними хранятся как отдельные единицы; и сильно интегрированные
базы данных, в которых смешанные типы данных хранятся вместе как од-
но целое.
                                                           
       
       Слабо интегрированные тексто-графические базы данных
                                                 
     Базовая архитектура  слабо  интегрированной  тексто-графической
системы базы данных состоит из массива простых текстовых документов,
хранящихся  в  файлах, массива изображений, хранящихся в других фай-
лах, и массива ссылок, связывающих изображения с текстом  (см.  рис.
2).  Ссылки  обычно хранятся в отдельном файле, хотя они могут также
храниться непосредственно в текстах документов. Первоначальный  дос-
туп  к документам осуществляется по их текстам. Как только пользова-
тель нашел и отобразил на экране текст документа, он или  она  может
также вывести на экран изображения, связанные с текстом. Эти изобра-
жения могут содержать либо дополнительную информацию, касающуюся до-
кумента  (например, рисунки или таблицы), либо графическое представ-
ление самого текста.
     Отсюда вытекают следующие технические особенности,  относящиеся
к этой разновидности тексто-графических баз данных:
     - создание ссылок от текста к изображениям;
     -  вывод  на  экран синхронизированного представления символа и
изображения;
     - подсветка слов в тексте;
     - управление форматами изображений.
                                                                   
     
          Формирование ссылок от документов к изображениям
     
     Типичным приложением для слабо интегрированной тексто-графичес-
кой базы данных является сканирование множества бумажных  документов
с  целью  создания графических представлений документов, а также ис-
пользование системы оптического распознавания  символов  -  (optical
character recognition system - OCR) для интеграции представлений до-
кумента в виде символов ASCII.
     Такие коммерческие системы, как Filenet и Viewstar обрабатывают
текст и изображения посредством графических сканнеров и систем OCR.
     Обычно  документы сканируются по одной странице за единицу вре-
мени и результирующие изображения хранятся в базе данных в одностра-
ничных файлах. Сгенерированные посредством OCR символьные  представ-
ления  документов  также формируются в виде одностраничных файлов, а
затем добавляются друг к другу для восстановления непрерывного доку-
мента. При соединении одностраничных  файлов  для  получения  одного
непрерывного  файла необходима синхронизация между символьным и гра-
фическим образом документа, которую  надо  либо  поддерживать,  либо
позднее  осуществить  вручную.  Ручная синхронизация может оказаться
неэкономной с точки зрения временных затрат.
     
     
                Вывод  на  экран  синхронизированного
                     символьного  и графического
                            представления
       
     Привлекательной особенностью просмотра на экране  интегрирован-
ной тексто-графической базы данных является способность пользователя
позиционировать  курсор в символьном представлении документа и путем
нажатия одной клавиши "вывести на  поверхность"  изображение  текста
ниже  курсора.  В грубом приближении это может быть достигнуто путем
присоединения обычных синхронизирующих ссылок от документа к изобра-
жениям и интерполяции в файл изображений для вычисления  эффективной
позиции  курсора. Этот метод работает не всегда, например, с изобра-
жениями документов, состоящих из двух колонок.

     
                         Подсвечивание слов
       
     Если текстовый документ найден с помощью документальной поиско-
вой системы, эта система может осуществить подсветку слов в символь-
ном представлении документа, указывая, почему этот документ был най-
ден. Однако подсветка "слова" (двоичный код) в графическом представ-
лении документа требует либо большого объема  внешней  памяти,  либо
вычислений.
     
     
          Управление множественными графическими форматами
       
     Существует множество "стандартных" графических форматов, таких,
как  TIFF,  PC-X,  Sun Raster, PDA и CCITT. Любая система управления
текстом и изображением должна быть способной обрабатывать все разно-
образие имеющихся в настоящее время графических форматов так же, как
и выводить их на имеющиеся разнообразные устройства вывода.
     
     
             Сильно интегрированные составные документы
       
     Базовая архитектура  составного  документа  включает  поддержку
двух  дополнительных типов данных помимо плоских ASCII - документов:
смешанные типы данных (текст, изображения и потенциальные типы, нап-
ример, рабочие листы, аудио и т.п.) и  структуры  внутри  документов
(заглавие, заголовки, приложения и т.д.). Вся эта информация хранит-
ся вместе как одно целое. Некоторые архитектуры составных документов
осуществляют  хранение составных документов в едином файле, а другие
обеспечивают функциональный интерфейс, который делает документ кажу-
щимся приложением, хранящимся в одном файле, в то время,  как  физи-
чески разбивает документ на множество файлов.
     Основные  технические особенности, касающиеся сильно интегриро-
ванных тексто-графических баз данных, включают:
     - стандартные форматы;
     - анализ составных документов;
     - вывод на экран составных документов.
                                                
     
                         Стандартные форматы
       
     Количество архитектур составных документов  (compound  document
architecture  -  CDA)  быстро  растет.  CDA  фирмы Digital Equipment
Corporation включает множество DDIF спецификаций  документов,  архи-
тектуру конвертора CDA и пакет разработчика CDA. Архитектура конвер-
тора  обеспечивает способ преобразования входного файла в одном фор-
мате в выходной файл в другом формате. Пакет разработчика - это  на-
бор  подпрограмм, которые активизируют работу конвертора CDA и прог-
раммных приложений, соответствующих CDA. CDA  становится  стандартом
для  всего ряда программных продуктов фирмы DEC, предоставляя единый
формат для разработчиков приложений.
     Архитектура составного документа фирмы  IBM  называется  MO:DCA
(mixed  object document content architecture - смешанный объект: ар-
хитектура содержания документа); она обеспечивает обмен  документами
между различными системами SAA.
     Фирма Apple Computer предлагает архитектуру составного докумен-
та   под   названием   RichText.   ISO  рекламирует  SGML  (Standart
generalized markup language - стандартный обобщенный язык  с  расши-
ренными возможностями), еще один стандарт, с которым придется конку-
рировать.
     Будущий  прогресс будет связан с сильно интегрированными базами
данных, включающими разнообразные типы составных документов и прило-
жения, обрабатывающие множество форматов составных документов.  Сле-
дующий этап развития технологии систем управления текстовой информа-
цией  быстро  приближается; он обеспечит обработку сильно интегриро-
ванного текста, изображений и структур для разнообразных  архитектур
составных документов.
     
     
                     Анализ составных документов
       
     Такие приложения, как документальные поисковые системы, которым
необходимо  распознавать  входящие  в  документ подструктуры (напр.,
слова, предложения и параграфы), должны уметь анализировать в  дета-
лях  формат  составного  документа. Если всю эту информацию действи-
тельно можно получить для каждого документа, в  распоряжение  разра-
ботчиков  приложений  будут предоставлены полное представление доку-
мента и соответствующая обработка запросов для извлечения  этой  ин-
формации.
     
     
             Отображение на экране составных документов
       
     Некоторые  архитектуры  составных  документов стандартизованы в
соответствии с форматами отображения на экран, такими,  как  Display
Postscript  Adobe Systems. Преобразование документов для отображения
в аппаратных средах, не поддерживающих собственный формат вывода для
этих документов, является сложной вычислительной задачей,  сопряжен-
ной с проблемами реализации.
     
     
     Объединение структурированных и неструктурированных данных
       
     Вообще  говоря,  технические требования к слабо интегрированным
тексто-графическим базам данных приводят к формированию ссылок между
текстовыми и графическими компонентами баз данных. В сильно интегри-
рованных тексто-графических БД эти ссылки уже  существуют  в  полном
формате представления документа. Задача состоит в том, чтобы манипу-
лировать ими способом, который сопряжен с трудностями при практичес-
ком применении.
     Многие  из  современных систем управления текстовой информацией
представляют собой символьные  представления  документов,  способные
управлять ссылками к изображениям.
     Система  управления  текстовой  информацией TOPIC разработана с
целью использования этих особенностей  в  документальных  БД.  TOPIC
осуществляет  хранение  и поиск документов, представляющих различные
текстовые и графические форматы. Она делает "умные выводы" о  струк-
турированных  документах с целью поиска наиболее релевантных интере-
сам пользователей  документов.  Поскольку  результат  стандартизации
становится все очевиднее, TIMS будет развиваться в направлении обра-
ботки документов, состоящих из сильно интегрированных текстов в фор-
мате ASCII, изображений в различных форматах и структур внутри доку-
ментов.


Яндекс цитирования