Проблемы интеграции информационных ресурсов в социально-гуманитарной сфере на базе архивов электронных научных коллекций




Скачать 145.07 Kb.
НазваниеПроблемы интеграции информационных ресурсов в социально-гуманитарной сфере на базе архивов электронных научных коллекций
Дата конвертации01.10.2012
Размер145.07 Kb.
ТипДокументы
Проблемы интеграции информационных ресурсов в социально-гуманитарной сфере на базе архивов электронных научных коллекций


Н.В. Борисов, В.А. Капустин, А.В. Чугунов

Междисциплинарный центр Санкт-Петербургского государственного университета


Материалы к докладу на конференции EVA-2002


В настоящее время можно обозначить две линии в развитии интегрированных информационных ресурсов российского научно-образовательного Интернета в социально-гуманитарной сфере:

  • создание общероссийских комплексных тематических информационных ресурсов и электронных библиотек на основе взаимосвязанных баз данных;

  • развития региональных информационных систем с целью интегрирования научно-образовательных ресурсов и зеркалирования электронных библиотек, имеющих общероссийское значение.

Первый подход характеризуется тем, что создатели информационных ресурсов (коллекций электронных текстов) договариваются о представлении информации в согласованных форматах и/или использовании единых принципов формирования метаинформации (справочников, классификаторов и т.п.). Исторически первой такой системой стала система депонирования препринтов arXiv.org E-print archive (http://arxiv.org/). Ученые и специалисты в разных предметных областях стали сами создавать и "вторичные ресурсы" – т.е. описания документов, размещенных в Интернете. Тем самым стали формироваться научные консорциумы по совместному сопровождению электронных указателей ресурсов Интернета.

Подобная деятельность ведется в различных формах – от инициативных проектов по созданию соответствующих справочников в рамках сайтов и информационных систем, сопровождаемых различными научными ассоциациями, обществами и союзами и до проектов создания полнотекстовых систем, базирующихся на самых современных технологиях индексирования и поиска информации.

В этой связи следует отметить две системы информационных ресурсов в социально-гуманитарной сфере вокруг которых постепенно создаются такие консорциумы: Университетская информационная система РОССИЯ (http://www.cir.ru) и "Соционет" (http://socionet.ru ). Первая система аккумулирует полнотекстовые ресурсы, обеспечивая многоаспектный поиск, вторая – описания размещенных в Интернете документов. При этом, как правило, речь идет об уже опубликованных материалах.

В рамках второго подхода разработчики этих систем в сотрудничестве со своими партнерами из регионов России начинают отрабатывать технологии интеграции с тематическими и региональными ресурсами (порталами, информационными системами, региональными информационными центрами). В частности, в Междисциплинарном центре СПбГУ (на информационно-телекоммуникационном узле научно-образовательной региональной сети РОКСОН) ведется работа по интеграции информационных ресурсов в социально-гуманитарной сфере. В настоящее время реализованы региональные зеркала не только УИС РОССИЯ (http://www.uisrussia.nw.ru) и системы "Соционет" (http://socionet.nw.ru ), но и Электронной библиотеки РФФИ, что позволяет вести работы по созданию интегрированной информационной системы для ученых и преподавателей в гуманитарной сфере.

Работы в этой области условно можно разделить на несколько направлений:

  • обеспечение текущего информационного обслуживания пользователей;

  • создания сводных БД метаинформации, в том числе распределенных;

  • создание инструментария обработки и оцифровки первичного материала (текст, графика, звук, видео);

  • разработка технологий сопровождения распределенных архивов коллекций первичных научных данных (в том числе резервного копирования на нескольких площадках);

  • создание систем управления научными данными разного уровня (первичные материалы, структурированные данные, результаты обработки, научные отчеты, публикации и т.п.), обеспечивающих комфортную работу исследователей и публикацию результатов исследований.

В этой связи представляет существенный интерес имеющийся опыт создания (в рамках информационной системы "Этнография народов России") сводной базы данных, обеспечивающей доступ к вторичной информации по региональным, межрегиональным (уровень Федерального округа) и общероссийским информационных ресурсов по этнографии и смежным дисциплинам.

Комплексный информационный ресурс "Этнография народов России" начал создаваться в 1997 году на базе Междисциплинарного центра дополнительного профессионального образования Санкт-Петербургского государственного университета (МЦ СПбГУ - http://www.icape.ru). Работы в этом направлении начались с создания базы данных "Этнографическая деятельность музеев России", которая с 1997 года развивается в сотрудничестве с Российским этнографическим музеем и включает информацию только об этнографических и крупных краеведческих музеях. В 1999 году к этой деятельности подключилась Кафедра этнографии и антропологии исторического факультета СПбГУ и была поставлена задача создания комплексной информационной системы "Этнография народов России" (http://www.ethnos.nw.ru) [1]. Система включает в себя электронную библиотеку "Народы России" и информационно-поисковую систему по этнографическим коллекциям российских музеев. Особенностью этой системы является тот факт, что она реализуется в результате интеграции информационных ресурсов, создаваемых в рамках целого блока проектов, имеющих единую технологическую составляющую [2].

Запущенная в эксплуатацию в 1999 г. интерактивная система баз данных "Этнографическая деятельность музеев России" и "Финно-угорские коллекции Российского этнографического музея" показала свою полезность не только для специалистов (этнографов и музееведов), но и для широкой аудитории русскоязычного Интернета. При этом пока в стороне от этой деятельности оставались сотни небольших музеев, не менее интересных для специалистов и широкого круга пользователей. Однако сбор подобной информации и систематизация в БД силами одного небольшого коллектива обеспечить невозможно. Поэтому разработчиками системы была сформулирована задача рассредоточения работ по пополнению сводной базы данных в регионы. Идеи интеграции музейной информации на основе сопровождения коллективно наполняемых баз данных встречают поддержку в регионах, активно использующих новые информационные технологии при представлении культурного наследия. Первым региональным партнером стал Центр информационных ресурсов Нижегородского госуниверситета, который совместно с Нижегородским музейным центром с 2000 г. подключился к работе по коллективному сопровождению базы данных “Этнографическая деятельность музеев России”.

С 2001 года в Нижнем Новгороде начал выполняться проект создания межрегионального интернет-портала "Этнография народов Приволжья" [3]. В результате будут созданы несколько баз данных, содержащих сведения об организациях, учреждениях, материальных и нематериальных объектах, имеющих отношение к жизнедеятельности или культуре этносов данного региона в прошлом и настоящем.

Дальнейшее развитие технологической части российского межрегионального проекта предполагает создание распределенной системы баз данных организаций-участников, функционирующей на основе единого нормативно-справочного аппарата. В этой связи проблемы метаинформации приобретают определяющее значение.

Функционирование в рамках единой информационной системы баз данных, представляющих сведения о различных объектах (этносах, музеях, публикациях, учреждениях, движимых и недвижимых, материальных и нематериальных объектах культурного наследия), предполагает выработку согласованных подходов к стандартам описания этих объектов с точки зрения содержания в них этнокультурной информации или их этнической специфики. Одновременно с этим необходима разработка единого лингвистического обеспечения информационной системы, что предполагает формирование и классификацию массива нормативной лексики для упорядочения и унификации терминологического аппарата описаний объектов, включенных в систему. Основная цель этой работы – обеспечение сопоставимости данных как при проведении поисковых операций любого уровня сложности, так и для адекватного обмена информацией об однотипных объектах. Для этой цели необходимы несколько видов терминологических словарей: словари-классификаторы, понятийные толковые словари, словари дескрипторной лексики (для неструктурированного описания) и словари-тезаурусы.

Уже самое начало работ по созданию системы баз данных в области этнографии, а также ряд проектов, связанных с созданием виртуальных музеев и коллекций в других отраслях знаний, выявили необходимость развития и использования определенного инструментария, позволяющего эффективно организовать научную электронную коллекцию и управлять ее развитием.

Для систем управления научными данными характерно наличие следующих требований:

  • иерархическая организация данных, принадлежащих разным научным коллективам (например, организация – подразделение – формальная исследовательская группа – неформальная исследовательская группа – ученый) с разграничением доступа к данным [4, 5];

  • наличие нескольких иерархий;

  • наличие разнородных и зачастую территориально распределенных источников информации и данных [6];

  • необходимость использования ресурсов верхних уровней на более глубоких уровнях [4];

  • иерархическая классификация данных [5-7];

  • наличие нескольких классификаций, отражающих разные взгляды различных ученых и исследовательских групп или различные аспекты (фасеты) исследуемых объектов [4-6, 8-12];

  • реализация нескольких режимов доступа к данным (создание, редактирование, комментирование, копирование, чтение); роль комментирования важна для выявления артефактов [13–15];

  • простота включения данных в публикацию; наличие нескольких форматов публикации (в вебе, как документ для бумажной публикации);

  • наличие нескольких способов (протоколов) доступа к данным (HTTP, LDAP, SOAP…).

Электронные научные коллекции в настоящее время создаются в самых различных отраслях знаний. В распоряжении создателей таких коллекций, как правило, имеется та или иная реляционная СУБД, используемая для хранения данных коллекции, и веб-сервер для публикации этих данных. Вопросы отображения моделей организации научных данных (часто включающих связанные объекты, имеющих иерархическую структуру и использующих множественные классификаторы) на табличные структуры данных реляционной СУБД каждый раз приходится решать по-своему. Для связи таблиц с публикуемыми в Интернете страницами приходится использовать разнообразные языки от C и Perl до ASP, JSP, PHP и т.п. Отдельного внимания при разработке программного обеспечения научных электронных коллекций требует администрирование данных.

Системы управления контентом являются предметом активного интереса разработчиков программного обеспечения всего мира в последние годы. При этом основное внимание уделяется созданию систем двух классов:

  • системы параметризации порождения HTML-страниц;

  • системы, ориентированные на встраивание в системы управления предприятием.

Системы первого из этих классов ориентированы, в основном, на прямое встраивание HTML-представления объектов, хранимых в СУБД, в HTML-страницы, порождаемые веб-сервером. Сервис, предоставляемый такими системами прикладному пользователю – специалисту предметной области – сильно различается от системы к системе, варьируясь от жесткого ограничения используемых классов объектов до необходимости знания SQL. Количество систем управления контентом этого класса, информация о которых опубликована в Интернете, составляет десятки (например, DynaSite на базе ColdFusion (РекСофт, Санкт-Петербург), разработка компании Петровский портал (Санкт-Петербург) на базе PHP, имеются разработки на базе Python, Perl и других языков и сред). Стоимость таких систем умеренна (от одной до нескольких десятков тысяч долларов), а функциональность и качество различаются в широких пределах.

Системы второго класса чаще всего выступают как среды поддержки Java2 Enterprise Edition (J2EE): WebSphere (IBM), WebLogic (BEA), Dynamo (ATG), но имеются и другие примеры, например, TAXXI на базе Delphi (Epsylon Technologies, Москва) или Lotus Domino (IBM). Эти системы дороги: типичная стоимость такой системы лежит в диапазоне 10-100 тыс. долларов; они сложны в освоении и требуют высокопроизводительного оборудования.

Системы обоих классов практически непригодны для управления контентом научных коллекций: системы первого класса не обладают достаточной функциональностью, а системы второго класса, обеспечивая необходимую (и даже избыточную) функциональность на уровне программного интерфейса (API), требуют существенных затрат на разработку пользовательских интерфейсов; высокая стоимость и сложность освоения этих систем в совокупности с высокими требованиями к аппаратуре делают такие системы управления контентом практически недоступными для научных учреждений России.

Известны 2 системы управления контентом, которые выпадают из приведенной классификации: Midgard и HyperWave. Обе системы первоначально создавались как системы управления контентом научных коллекций (Midgard в 1999 г. – для Финского исторического общества; HyperWave в начале 1990-х гг – для разнообразных коллекций библиотеки Технического Университета г. Грац, Австрия), однако в настоящее время по своему статусу и параметрам эти системы существенно различаются.

Midgard (http://www.midgard-project.org) представляет собой ядро, обеспечивающее поддержку иерархических коллекций ограниченного множества классов объектов, однако имеет встроенный механизм расширения этого множества (точнее, допускает более или менее эффективное отображение различных классов на классы, встроенные в Midgard). Midgard доступен на условиях GNU Public License.

HyperWave (http://www.haup.org) представляет собой полноценную систему управления контентом, пригодную для построения научных электронных коллекций, хранящих объекты произвольной сложности с любыми связями между объектами. Современная версия HyperWave содержит графические средства проектирования и программные интерфейсы к значительному количеству языков программирования и СУБД. В настоящее время HyperWave имеет коммерческий статус.

Тем самым ни одна из современных систем управления контентом не удовлетворяет в полной мере следующим требованиям:

  • поддержка множественных иерархических структур произвольной глубины;

  • поддержка больших текстовых полей в объектах с поиском в них;

  • наличие простого пользовательского интерфейса, легко настраиваемого для работы специалиста предметной области электронной коллекции

  • невысокая требовательность к аппаратным ресурсам

  • ценовая доступность


Следует отметить, что имеется также существенная проблема обеспечения совместимости электронных научных коллекций (и соответственно архивов) с базами данных библиографической информации, создаваемыми в рамках библиотечных консорциумов. Зачастую разработчики полнотекстовых электронных библиотек начинают создавать свои библиографические базы, не учитывая опыт и наработки автоматизированных библиотечных систем. Естественным форматом для обеспечения такого взаимодействия, на наш взгляд, является Dublin Core.

В Междисциплинарном центре СПбГУ ведется работа по адаптации систем управления данными и разработка собственной инфраструктуры управления контентом электронных научных коллекций. Создание такой инфраструктуры позволит обеспечить поддержку проведению исследований в социально-гуманитарных науках с использованием новейших информационных технологий и интегрированных информационных ресурсов с максимально возможным сохранением парадигмы небольшого научно-исследовательского коллектива.


Работа поддержана грантами РФФИ (01-07-90088) и РГНФ (01-06-12012в, 01-07-12014в, 02-03-12013в)


Литература

    1. Гадло А.В., Кастосов И.В., Панкратов В.Б., Чугунов А.В. Развитие тематических научно-образовательных ресурсов в Интернете: проблемы актуализации региональной информации на Web-сайте "Этнография" // Технологии информационного общества - Интернет и современное общество: Материалы Всероссийской объединенной конференции. СПб., 20 - 24 ноября 2000 г. / СПбГУ, СПб., 2000. С.152-155.

    2. Панкратов В.Б., Чугунов А.В., Щербаков П.П. Информационная система "Этнография народов России": организация и сопровождение региональных баз данных // Научный сервис в сети Интернет: Труды Всероссийской научной конференции, Новороссийск, 24-29 сентября 2001 г. М.: Изд-во МГУ, 2001. С.224-225.

    3. Кастосов И.В., Панкратов В.Б., Чугунов А.В. Информационная система "Этнография народов России" и развитие тематических региональных научно-образовательных порталов // Труды Всероссийской научно-методической конференции Телематика-2002. СПб., 3-6 июня 2002 г. СПб., 2002. С.106-108.

    4. Борисов Н.В., Ган М., Ильинский К.Н., Капустин В.А., Степаненко А.С. Рабочее место физика-теоретика //Тезисы докладов Всероссийской научно-методической конференции Телематика'97, СПб., 19-23 мая 1997г. – СПб.: Росвузтелекомцентр, 1997. С. 44.

    5. Krichel T., Левин Д., Паринов С. Активный информационный робот как сетевой агент исследователя (на примере сети онлайновых ресурсов по экономике RePEc/ RuPEc) // Электронные библиотеки: Перспективные методы и технологии, электронные коллекции: Труды Первой Всероссийской научной конференции. СПб., 19-22 октября 1999. – СПб.: Изд-во СПб. ун-та, 1999. С. 104-111.

    6. Информационная система "Этнография народов России": проблемы метаинформации / Верняев И.И., Герасименко Е.Е., Ивановская Н.И., Панкратов В.Б., Чугунов А.В. // Научный сервис в сети Интернет: Труды Всероссийской научной конференции. Новороссийск, 23-28 сентября 2002 г. – М.: Изд-во МГУ, 2002. С. 174-177.

    7. Linnaeus C. Systema Naturae. Lugduni, Batavorum, 1735.

    8. Солтон Дж. Динамические библиотечно-информационные системы. – М.: Мир, 1979.

    9. Михайлов А.И., Черный А.И., Гиляревский Р.С. Научные коммуникации и информатика. – М.: Наука, 1976.

    10. Борисов Н.В., Капустин В.А. Управление наукой и научными исследованиями: текстовые инфоpмационно-поисковые системы как инструмент принятия решений //Тpуды II Санкт-Петеpбуpгской Междунаpодной конференции "Региональная информатика", СПб., 11-14 мая 1993 г. (Инфоpматика и вычислительная техника: научно-технический сбоpник. № 1-2). М.: ВИМИ, 1993. С. 46-49.

    11. Garfield E. Mapping the structure of science // Citation Indexing: Its Theory and Application in Science, Technology, and Humanities.- NY.: John Wiley & Sons, Inc., 1979. P. 98-147.

    12. Борисов Н.В., Капустин В.А. Междисциплинарное знание и формализмы описания данных //Междисциплинарность в науке и образовании: Труды Всероссийской научно-методической конференции. СПб., 11-13 октября 2001 г. – СПб., 2001. С.5-11.

    13. Garfield E., Welljams-Dorof A. The impact of fraudulent research on the scientific literature: The Stephen E. Breuning case //Journal of the American Medical Association (JAMA). 1990. Vol. 263 (10). P. 1424-1426.

    14. Капустин В.А., Лунева Н.Н., Чухина И.Г., Лебедева Е.Г. Internet Site of N.I. Vavilov Institute Herbarium //Информационные и телекомуникационные ресурсы в зоологии и ботанике: Тезисы докладов 2-го международного симпозиума (14–17 мая 2001 г., СПб).– СПб.: ЗИН РАН, 2001. С. 97–98 [Information Technology in Biodiversity Research: Proceedings and abstracts of the 2nd International Symposium] ISBN 0-954-01691-2.

    15. Капустин В.А., Катушкин М.В., Лунева Н.Н. Интерактивность электронных коллекций //Интернет и современное общество: Тезисы докладов Второй всероссийской научно-методической конференции. Санкт-Петербург, 29 ноября – 3 декабря 1999 г.– СПб.: Изд-во СПб. ун-та, 1999. С. 96-98. ISBN 5-288-02472-3.

Похожие:

Проблемы интеграции информационных ресурсов в социально-гуманитарной сфере на базе архивов электронных научных коллекций iconЦели освоения дисциплины «Математика в социально-гуманитарной сфере»
Дисциплина Математика в социально-гуманитарной сфере входит в базовую часть математического и естественнонаучного цикла подготовки...
Проблемы интеграции информационных ресурсов в социально-гуманитарной сфере на базе архивов электронных научных коллекций iconОбеспечение образовательного процесса иными библиотечно-информационными ресурсами n п/п
Наименование и краткая характеристика библиотечно-информационных ресурсов и средств обеспечения образовательного процесса, в том...
Проблемы интеграции информационных ресурсов в социально-гуманитарной сфере на базе архивов электронных научных коллекций iconВ  статьях  сборника  научных  трудов  рассмотрены  синергетические  и  общенауч
Ные  аспекты  актуальных  проблем  развития  современной  социально-гуманитарной 
Проблемы интеграции информационных ресурсов в социально-гуманитарной сфере на базе архивов электронных научных коллекций icon  В  социально-гуманитарной  сфере  С  xviii  ПО  XX век    Козловская  Т. Н. 
«парадоксы  советско-германских  идустриальных     связей  1930-Х  годов: уралмаш - рурская область» 
Проблемы интеграции информационных ресурсов в социально-гуманитарной сфере на базе архивов электронных научных коллекций iconСписок электронных ресурсов (православные книги) и видеокассет из фонда отдела гуманитарной и художественной литературы: Электронные ресурсы
Брянчанинов И. Письма мирянам [Электронный ресурс] : Аудиокнига (мр 3 формат) / Бесплатное распространение лекций А. И. Осипова и...
Проблемы интеграции информационных ресурсов в социально-гуманитарной сфере на базе архивов электронных научных коллекций iconСоздание научных архивов
Правильный выбор программного обеспечения (ПО), которое бы максимально полно удовлетворило по­требности учебных и научных организа­ций,...
Проблемы интеграции информационных ресурсов в социально-гуманитарной сфере на базе архивов электронных научных коллекций iconОтчет о научно-исследовательской работе разработка концепции Объединенных Государственных и муниципальных Информационных ресурсов (огир) по теме: №21 13.
«Разработка предложений по созданию единой системы выявления, использования и внедрения объединенных государственных и муниципальных...
Проблемы интеграции информационных ресурсов в социально-гуманитарной сфере на базе архивов электронных научных коллекций iconУчебно-справочное пособие для библиотечных работников Содержание
Программное обеспечение для создания полнотекстовых коллекций (электронных библиотек) гринстоун
Проблемы интеграции информационных ресурсов в социально-гуманитарной сфере на базе архивов электронных научных коллекций icon«Использование информационных ресурсов сети Интернет в учебно-воспитательном процессе». По результатам конференции был издан сборник докладов, в который вошел и мой доклад на тему: «Использование информационных ресурсов сети Интернет в преподавании информатики»
Основанием для участия в конкурсе считаю следующие результаты работы (в соответствии с критериями оценки из Положения о конкурсном...
Проблемы интеграции информационных ресурсов в социально-гуманитарной сфере на базе архивов электронных научных коллекций iconВ. В. Гура Теоретические основы педагогического проектирования личностно-ориентированных электронных образовательных ресурсов и сред
Гура В. В. Теоретические основы педагогического проектирования личностно-ориентированных электронных образовательных ресурсов и сред....
Разместите кнопку на своём сайте:
TopReferat


База данных защищена авторским правом ©topreferat.znate.ru 2012
обратиться к администрации
ТопРеферат
Главная страница