ЭЛЕКТРОННАЯ БИБЛИОТЕКА КОАПП |
Сборники Художественной, Технической, Справочной, Английской, Нормативной, Исторической, и др. литературы. |
Сравнение текстовых, документальных и реляционных СУБД Клиффорд Рейд Согласно данным всемирно известной фирмы по исследованию марке- тинга DataQuest Inc., ежегодно в организациях издается более 2,7 биллиона документов. Подсчитано также, что 70% того, что мы сегодня читаем, готовится электронным способом и хранится где-то на компь- ютере. Главная проблема, стоящая перед нами, заключается в том, как управлять таким объемом информации. Существует острая необходимость в средствах управления, доступа и распространения текстовой и графи- ческой информации, начиная с данных ASCII в свободной форме и кончая сканируемыми документами, хранящимися на оптических устройствах. В данной статье рассматриваются современные типы интегрированных текс- то-графических баз данных и вопросы развития технологии, касающиеся систем управления большими массивами документов, содержащих смешан- ные типы данных. Сравнение реляционных, текстовых и документальных систем управления Начиная с первых применений в сфере бизнеса, для управления ба- зами данных с ориентированными на запись транзакциями использовались компьютеры. В настоящее время реляционные СУБД (RDBMS) являются но- вым стандартным средством хранения и поиска ориентированных на за- пись данных (данные структурированы по строкам и столбцам). Системы управления текстовой информацией (TIMS), с другой стороны, осуществ- ляют хранение и поиск неструктурированных данных (текст ASCII в сво- бодной форме). Третий тип продукта - документальные системы управле- ния (DMS) - ориентированы больше на обработку растровых изображений документов, чем символьной (ASCII) информации, используя обычно тех- нологии хранения данных на оптических носителях. Границы между этими системами начинают исчезать. Причина этого заключается в переопределении понятия "документ". Прежде считалось, что хранящийся в компьютере документ должен состоять только из кодов ASCII. В соответствии с новым определением документ состоит из одно- родно интегрированных текстовых, графических и документальных струк- тур. На рис. 1 изображен спектр типов данных, входящих в документ. Слева в диаграмме представлены неинтегрированные текстовые базы дан- ных и неинтегрированные графические базы данных. В настоящее время эти типы баз данных обрабатываются посредством TIMS и DMS. Крайний правый столбец диаграммы содержит структурированные (представленные в виде строк и колонок) базы данных, управляемые RDBMS. В центре ди- аграммы изображены два варианта интегрированных тексто-графических баз данных. Следующее поколение систем управления большими объемами документов будет ориентирована на эти две модели интегрированных тексто-графических баз данных. Неструктурированные Структурированные ННННННННННННННННННННННННННННННННННННННННННННННННННННННННННННННННННН> Свободный тексті Слабо связанные і Тесно связанные і RDBMS ДДДДДДДДДДДДДДДЕДДДДДДДДДДДДДДДДДЕДДДДДДДДДДДДДДДДДДЕДДДДДДДДДДДДДДДД ASCII іASCII&изображенияіASCII, изображенияі Записи Без структуры іОтдельная база іи структура і Транзакции Текстовая ин- іданных "ссылок" іСсылки, имеющиеся і Операции соеди- формация і ів документах і нения Управление і і і В лучшем случае, і і і картотека ДДДДДДДДДДДДДДДБДДДДДДДДДДДДДДДДДБДДДДДДДДДДДДДДДДДДБДДДДДДДДДДДДДДДД Рис. 1. Спектр типов данных, входящих в документы Некоторые пользователи RDBMS пытались обрабатывать неструктури- рованные текстовые базы данных с помощью RDBMS. Модель RDBMS, ориен- тированная на среду управления транзакцией, с неструктурированным текстом работает плохо. При использовании RDBMS в качестве средства обработки изображений и текста эта система может служить только сло- варем для хранения имен файлов и кратким перечнем ключевых слов, от- ражающих содержание документов. Впоследствии документы могут быть найдены по именам файлов или ключевым словам. В противоположность этому, TIMS обладает большей способностью динамически "читать" любой документ и искать документ по его контексту. Идеалом, к которому стремится промышленность, является возмож- ность управления как неструктурированными, так и структурированными данными в рамках единой архитектуры. Это произойдет, когда современ- ные неинтегрированные архитектуры будут заменены интегрированными системами, способными обрабатывать графическую, текстовую и структу- рированную информацию. ________ і і __________________і і_________________ Книга і _________ і __ і /________/ і і\/і і і і і і і_і і___і Оптическое распознавание і і і і і і символов і \/ і__і і і і і Сканнер і Изображения \ / Границы страницы і ЪДДДДДДї ЪДДДДДДДї // і і і <------------- і і / / і -->і 11 і і і / / і і------і і-------і / / і і і <------------- і і / / і -->і 12 і і і / / і і------і і-------і / і і і <-------------- і і / і -->і 13 і і і / і і------і і-------і / і і і <-------------- і і / і -->і 14 і і і / і і------і і-------і і і і <-------------- і і і -->і 15 і і і АДДДДДДЩ АДДДДДДДЩ Изображения Символы страниц документов Слабо связанные данные Взгляд пользователя Физическое представление ЪДДДДДДДДДДДДДДї ЪДДДДДДДДї Изображение і ЪДДДї і і і ЪДДДї і і і і і -----> і і і АДДДЩ і і і АДДДЩ і і і і і і і і Изображение і ЪДДДї і і і ЪДДДї і і і і і -----------> і і і АДДДЩ і і і АДДДЩ і і / ----------- і і і і \ ----------- і і Изображение і ЪДДДї і і і ЪДДДї і і і і і ------> і і і АДДДЩ і і і АДДДЩ і і і і і і і і Изображение і ЪДДДї і і і ЪДДДї і і і і і -----------> і і і АДДДЩ і і і АДДДЩ і і і і АДДДДДДДДДДДДДДЩ АДДДДДДДДЩ Структурированный документ Текст и ссылки к изображениям Тесно связанные данные Рис. 2. Системы управления данными со слабой и тесной связью Технические соображения по поводу интеграции текста и изображений Существует два типа интегрированных тексто-графических баз дан- ных: слабо интегрированные БД, в которых текст, изображения и ссылки между ними хранятся как отдельные единицы; и сильно интегрированные базы данных, в которых смешанные типы данных хранятся вместе как од- но целое. Слабо интегрированные тексто-графические базы данных Базовая архитектура слабо интегрированной тексто-графической системы базы данных состоит из массива простых текстовых документов, хранящихся в файлах, массива изображений, хранящихся в других фай- лах, и массива ссылок, связывающих изображения с текстом (см. рис. 2). Ссылки обычно хранятся в отдельном файле, хотя они могут также храниться непосредственно в текстах документов. Первоначальный дос- туп к документам осуществляется по их текстам. Как только пользова- тель нашел и отобразил на экране текст документа, он или она может также вывести на экран изображения, связанные с текстом. Эти изобра- жения могут содержать либо дополнительную информацию, касающуюся до- кумента (например, рисунки или таблицы), либо графическое представ- ление самого текста. Отсюда вытекают следующие технические особенности, относящиеся к этой разновидности тексто-графических баз данных: - создание ссылок от текста к изображениям; - вывод на экран синхронизированного представления символа и изображения; - подсветка слов в тексте; - управление форматами изображений. Формирование ссылок от документов к изображениям Типичным приложением для слабо интегрированной тексто-графичес- кой базы данных является сканирование множества бумажных документов с целью создания графических представлений документов, а также ис- пользование системы оптического распознавания символов - (optical character recognition system - OCR) для интеграции представлений до- кумента в виде символов ASCII. Такие коммерческие системы, как Filenet и Viewstar обрабатывают текст и изображения посредством графических сканнеров и систем OCR. Обычно документы сканируются по одной странице за единицу вре- мени и результирующие изображения хранятся в базе данных в одностра- ничных файлах. Сгенерированные посредством OCR символьные представ- ления документов также формируются в виде одностраничных файлов, а затем добавляются друг к другу для восстановления непрерывного доку- мента. При соединении одностраничных файлов для получения одного непрерывного файла необходима синхронизация между символьным и гра- фическим образом документа, которую надо либо поддерживать, либо позднее осуществить вручную. Ручная синхронизация может оказаться неэкономной с точки зрения временных затрат. Вывод на экран синхронизированного символьного и графического представления Привлекательной особенностью просмотра на экране интегрирован- ной тексто-графической базы данных является способность пользователя позиционировать курсор в символьном представлении документа и путем нажатия одной клавиши "вывести на поверхность" изображение текста ниже курсора. В грубом приближении это может быть достигнуто путем присоединения обычных синхронизирующих ссылок от документа к изобра- жениям и интерполяции в файл изображений для вычисления эффективной позиции курсора. Этот метод работает не всегда, например, с изобра- жениями документов, состоящих из двух колонок. Подсвечивание слов Если текстовый документ найден с помощью документальной поиско- вой системы, эта система может осуществить подсветку слов в символь- ном представлении документа, указывая, почему этот документ был най- ден. Однако подсветка "слова" (двоичный код) в графическом представ- лении документа требует либо большого объема внешней памяти, либо вычислений. Управление множественными графическими форматами Существует множество "стандартных" графических форматов, таких, как TIFF, PC-X, Sun Raster, PDA и CCITT. Любая система управления текстом и изображением должна быть способной обрабатывать все разно- образие имеющихся в настоящее время графических форматов так же, как и выводить их на имеющиеся разнообразные устройства вывода. Сильно интегрированные составные документы Базовая архитектура составного документа включает поддержку двух дополнительных типов данных помимо плоских ASCII - документов: смешанные типы данных (текст, изображения и потенциальные типы, нап- ример, рабочие листы, аудио и т.п.) и структуры внутри документов (заглавие, заголовки, приложения и т.д.). Вся эта информация хранит- ся вместе как одно целое. Некоторые архитектуры составных документов осуществляют хранение составных документов в едином файле, а другие обеспечивают функциональный интерфейс, который делает документ кажу- щимся приложением, хранящимся в одном файле, в то время, как физи- чески разбивает документ на множество файлов. Основные технические особенности, касающиеся сильно интегриро- ванных тексто-графических баз данных, включают: - стандартные форматы; - анализ составных документов; - вывод на экран составных документов. Стандартные форматы Количество архитектур составных документов (compound document architecture - CDA) быстро растет. CDA фирмы Digital Equipment Corporation включает множество DDIF спецификаций документов, архи- тектуру конвертора CDA и пакет разработчика CDA. Архитектура конвер- тора обеспечивает способ преобразования входного файла в одном фор- мате в выходной файл в другом формате. Пакет разработчика - это на- бор подпрограмм, которые активизируют работу конвертора CDA и прог- раммных приложений, соответствующих CDA. CDA становится стандартом для всего ряда программных продуктов фирмы DEC, предоставляя единый формат для разработчиков приложений. Архитектура составного документа фирмы IBM называется MO:DCA (mixed object document content architecture - смешанный объект: ар- хитектура содержания документа); она обеспечивает обмен документами между различными системами SAA. Фирма Apple Computer предлагает архитектуру составного докумен- та под названием RichText. ISO рекламирует SGML (Standart generalized markup language - стандартный обобщенный язык с расши- ренными возможностями), еще один стандарт, с которым придется конку- рировать. Будущий прогресс будет связан с сильно интегрированными базами данных, включающими разнообразные типы составных документов и прило- жения, обрабатывающие множество форматов составных документов. Сле- дующий этап развития технологии систем управления текстовой информа- цией быстро приближается; он обеспечит обработку сильно интегриро- ванного текста, изображений и структур для разнообразных архитектур составных документов. Анализ составных документов Такие приложения, как документальные поисковые системы, которым необходимо распознавать входящие в документ подструктуры (напр., слова, предложения и параграфы), должны уметь анализировать в дета- лях формат составного документа. Если всю эту информацию действи- тельно можно получить для каждого документа, в распоряжение разра- ботчиков приложений будут предоставлены полное представление доку- мента и соответствующая обработка запросов для извлечения этой ин- формации. Отображение на экране составных документов Некоторые архитектуры составных документов стандартизованы в соответствии с форматами отображения на экран, такими, как Display Postscript Adobe Systems. Преобразование документов для отображения в аппаратных средах, не поддерживающих собственный формат вывода для этих документов, является сложной вычислительной задачей, сопряжен- ной с проблемами реализации. Объединение структурированных и неструктурированных данных Вообще говоря, технические требования к слабо интегрированным тексто-графическим базам данных приводят к формированию ссылок между текстовыми и графическими компонентами баз данных. В сильно интегри- рованных тексто-графических БД эти ссылки уже существуют в полном формате представления документа. Задача состоит в том, чтобы манипу- лировать ими способом, который сопряжен с трудностями при практичес- ком применении. Многие из современных систем управления текстовой информацией представляют собой символьные представления документов, способные управлять ссылками к изображениям. Система управления текстовой информацией TOPIC разработана с целью использования этих особенностей в документальных БД. TOPIC осуществляет хранение и поиск документов, представляющих различные текстовые и графические форматы. Она делает "умные выводы" о струк- турированных документах с целью поиска наиболее релевантных интере- сам пользователей документов. Поскольку результат стандартизации становится все очевиднее, TIMS будет развиваться в направлении обра- ботки документов, состоящих из сильно интегрированных текстов в фор- мате ASCII, изображений в различных форматах и структур внутри доку- ментов. |