VIP STUDY сегодня – это учебный центр, репетиторы которого проводят консультации по написанию самостоятельных работ, таких как:
  • Дипломы
  • Курсовые
  • Рефераты
  • Отчеты по практике
  • Диссертации
Узнать цену

Исследование архитектур информационно-поисковых систем

Внимание: Акция! Курсовая работа, Реферат или Отчет по практике за 10 рублей!
Только в текущем месяце у Вас есть шанс получить курсовую работу, реферат или отчет по практике за 10 рублей по вашим требованиям и методичке!
Все, что необходимо - это закрепить заявку (внести аванс) за консультацию по написанию предстоящей дипломной работе, ВКР или магистерской диссертации.
Нет ничего страшного, если дипломная работа, магистерская диссертация или диплом ВКР будет защищаться не в этом году.
Вы можете оформить заявку в рамках акции уже сегодня и как только получите задание на дипломную работу, сообщить нам об этом. Оплаченная сумма будет заморожена на необходимый вам период.
В бланке заказа в поле "Дополнительная информация" следует указать "Курсовая, реферат или отчет за 10 рублей"
Не упустите шанс сэкономить несколько тысяч рублей!
Подробности у специалистов нашей компании.
Код работы: W000833
Тема: Исследование архитектур информационно-поисковых систем
Содержание
    Основные данные о работе
Версия шаблона
1.1
Филиал

Вид работы
Электронная письменная предзащита 
Название дисциплины

Тема
Исследование архитектур информационно-поисковых систем. 
Фамилия выпускника

Имя выпускника

Отчество выпускника

№ контракта
00600013403521001
 
    Содержание
     СПИСОК УСЛОВНЫХ ОБОЗНАЧЕНИЙ 3
     ГЛОССАРИЙ 4
     ВВЕДЕНИЕ 7
     1 АНАЛИЗ ПРЕДМЕТНОЙ ОБЛАСТИ И ПОСТАНОВКА ЗАДАЧ 
     ИССЛЕДОВАНИЯ 11
     Проблема поиска нужных данных в интернете 11
     Анализ Интернет-источников информации в области технологий нефтегазовой отрасли 13
      Анализ существующих Интернет-поисковых инструментов для специалиста по нефтегазовому делу 18
     1.4 Выбор типа специализированной поисковой системы 24
     1.5 Анализ инструментов создания специализированных систем на базе сбора коллекции документов из сети Интернет  28
     2 ПРОЕКТИРОВАНИЕ АРХИТЕКТУРЫ СПЕЦИАЛИЗИРОВАННОЙ 
     ИНФОРМАЦИОННО-ПОИСКОВОЙ СИСТЕМЫ 34
     2.1 Проектирование каталога Интернет-ресурсов в области нефтегазовых технологий 34
     2.2 Проектирование коллекции web-документов 38
     2.3 Разработка методики фильтрация и рубрикации документов на входе в коллекцию 40
     2.4 Анализ контекста web-документов на входе в коллекцию 41
     2.4.1 Контекст информации, связанный с нефтегазовым делом и его значение 41
     2.4.2 Методы определения контекста 43
     2.5 Проектирование методики поиска в сети Интернет файлов, связанных с нефтегазовой отраслью 45
     2.6  Форматы и размещение данных на web-ресурсах 47
     2.6.1 Распознавание файлов данных 47
     2.6.2 Интегрированный поисковый интерфейс системы 48
     2.6 Структурная схема ИПС 49
     3 РЕАЛИЗАЦИЯ МОДУЛЕЙ ИНФОРМАЦИОННО-ПОИСКОВОЙ СИСТЕМЫ 52
     3.1 Создание каталога Интернет-ресурсов в области информационных технологий нефтегазовой отрасли 52
     3.1.1 Разработка структуры метаописания ресурса в каталоге 52
     3.1.2 Разработка структуры рубрикатора 53
     3.1.3 Разработка процедуры включения ресурсов в каталог и нормативов для модератора каталога 54
     3.1.4 Разработка пользовательского интерфейса каталога 56
     3.1.5 Разработка административного интерфейса каталога 58
     3.1.6 Разработка функционала проверки работоспособности ресурсов 59
     3.2 Разработка тематической коллекции web-документов и алгоритмов ее пополнения 60
     3.2.1 Разработка архитектуры сетевых роботов 60
     3.2.2 Разработка методики оценки релевантности web-страницы 66
     3.3 Создание модуля интеграции новостных потоков (агрегатора) 69
     3.3.1 Считывание заголовков новостей напрямую с web-страниц 69
     3.3.2 Скачивание, фильтрация и рубрикация текстов новостей
     3.3.3 Обработка новостного потока 72
     3.4 Модуль поиска в онлайн-библиотеках 72
     3.5 Разработка модуля поиска данных по нефтегазовой отрасли 73
     3.6 Разработка поисковой машины 76
     ЗАКЛЮЧЕНИЕ 81
     СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ 83
     ПРИЛОЖЕНИЕ 88
     
     
     
    Список сокращений
      
     БД - база данных
     ИПС - информационно-поисковая система
     НИВЦ МГУ - Научно- исследовательский вычислительный центр Московской государственной Университета
     ИИ ИПС РАН - Исследовательский центр искусственного интеллекта Института программных систем Российской Академии Наук
     СМИ - средства массовой информации
     СУБД - система управления базами данных
     ИПЯ - информационно-поисковом языке
     ПОД - поисковый образ документа
     ПО - программное обеспечение
     КЛАДР - классификатор адресов России
     ВИНИТИ - Всероссийский Институт Научной и Технической Информации
     ГРНТИ - Государственный рубрикатор научно-технической информации
     НИР - научно - исследовательская работа
     
    Введение
     В виду того, что сегодня человечество проводит большое количество открытий во всех сферах своей жизнедеятельности, появилась необходимость исследований, которые направлены на информационный поиск. Стоит отметить, что такие исследования имеют большое значение для науки.  Сеть интернета постоянно развивается. Порой невозможно уследить за этим непрерывным процессом. Но специалисты в такой ситуации смогли создать унифицированный доступ к различным источникам, которые расположены на серверах по всему миру. Теперь исследователи получили гораздо больше возможностей для работы. Ведь они как никто иной нуждаются в различной информации, которая применяется в практических и научных трудах. Но при этом эксперты заметили очень важную проблему. Дело в том, что информация в сеть интернета сегодня превышает возможности систем ее обработки. Поставляется и создается большое количество данных, с которыми не всегда удается вовремя справляться. Так в интернете по запросу можно найти информацию, которая не всегда соответствует реальности. Больше всего информация в сети адаптирована под запросы клиента. Получается, что для того чтобы найти нужную информацию, приходится потратить больше времени. Просматривается информация, которая совершенно не нужна человеку. 
      В науках, которые связаны с нефтью и газом, также ощутили на себе влияния «мусора» в интернете. Нужно отметить, что с помощью интернета сегодня ученые получают множество текстовых и графических материалов. Однако указанные проблемы интернета позволяют говорить о том, что найденные материалы крайне неэффективны при решении той или иной задачи. Прежде всего, специалисты в сфере нефтегазовой промышленности стараются создать ресурс, который содержит несколько эффективных методов доступа к информации, которая является упорядоченной [1]. Важно, чтобы такую информацию использовали только специалисты указанной отрасли.
     В настоящее время постепенно начинают появляться специализированные порталы, которые содержат информацию исключительно одной тематики. Проводится сбор информации из разных источников. Специалисты проверяют истинность данных, анализируют собранный материал. Пользователь получает только ту информацию, которая нужна ему в данный момент – и ничего лишнего. 
      Многие исследователи самостоятельно прорабатывают планы создания тематических порталов. Ученые нашли несколько методов сбора информации, которая будет полезна пользователю. При этом поиск нужного материала выводится на экран моментально. В сфере разработок в нефтегазовой отрасли существуют подобные порталы. Однако пока что сложно заявлять о том, что информации на них вполне достаточно. 
      Примечательно, что тематические порталы проводят поиск информации не по принципу поисковиков, где работает машина. Хотя там можно найти данные из различных источников, существует отличный рубрикатор данных. Поиск проводится по коллекции файлов, которые выбраны из других источников. Много информации собирается ручным способом. И в этом есть определенный недостаток. Так, при поддержании работоспособности портала, на котором информация собирается вручную, нужно иметь много времени и сотрудников, чтобы поддерживать портал в рабочем состоянии. Кроме того, информация на портале не может конкурировать с той, которая имеется в поисковиках. Получается, что следить за постоянно изменяющимися данными в интернете вручную практически невозможно.
     Нужно разрабатывать такие программы, которые в автоматическом режиме будут пополнять новыми данными уже существующие ресурсы. Потом собранные обновления можно будет проверить и включить в структуру рубрикатора. Важно отметить, что до этого пользователи смогут найти эту же информацию и использовать ее.
     Многие исследователи из университетов страны неоднократно упоминали о том, что информацию в Интернет нужно классифицировать и сепарировать. Но серьезно данную проблему никто не рассматривал. Решения, которые принимаются сегодня носят неполноценный характер. Когда источник информации неизвестен пользователям, то информацией не смогут пользоваться люди, так как информация о портале не проиндексирована. 
     Что касается сферы нефтегазовой отрасли, то больших порталов указанного типа существует очень мало. Важно понимать, что и один портал не имеет систематического поиска данных в сети Интернет. Раньше все порталы создавались в экстренных порядках. Прорабатывать их работу до мелочей не было смысла. Чтобы решить ту или иную задачу, используется практические наработки. Суть данной работы заключается в том, чтобы проанализировать организацию поиска информации в интернете по нефти и газу. Вторая задача – пополнить знания нефтегазовой отрасли информационным порталом.
      Главная цель работы – создание принципов разработки информационной поисковой системы, которая адаптирована под специалиста нефтегазовой отрасли, а также похожих областей. 
     Основу работы составляет проектирование поисковых систем, работа которых полностью автоматизирована. Сервисы проводят поиск информации в интернете, обрабатывают ее, собирают нужные детали, а затем передают их пользователю. Собрание нескольких сервисов позволяет говорить об интегрированном портале. Но полученные разработки также могут стать частью существующих порталов. Должна быть предоставлена возможность поиска информации по различным темам, причем моментально. 
     Для того чтобы достигнуть поставленной цели работы, необходимо рассмотреть некоторые задачи.  
     Проанализировать информацию по нефтегазовой тематике, которая находится в интернете.
     Создать тематический каталог Интернет-ресурсов, который относится к сфере нефтегазовой отрасли, а также похожих технологий; 
     Найти в интернете страницы, которые содержат информацию о нефтегазовой отрасли. Собрать информацию и перенести ее в архивное хранилище. Предоставить пользователю возможность поиска данных на основе собранных материалов; 
     В интернете создать сервис, который позволит быстро и точно находить данные в сфере нефтегазовой отрасли;
     Дать возможность пользователю собирать данные из новых библиотек, архивов, которые относятся к указанной тематике;
     Обеспечить специалистов и научных работников новостями касательно новых разработок в сфере поиска информации по нефтегазовой отрасли. 
     Основной помощник решения данной задачи – тематический новостной интегратор. На практике результаты диссертации будут использованы при реализации информационно-поисковой системы, которая будет разрабатываться на базе новой методологии. Специалисты смогут тратить гораздо меньше времени на поиск в Интернете информации, которая имеет отношение к нефти и газу. 	Соответственно, сроки работ специалистов будут уменьшены до минимума. В сети Интернет не будет дублироваться одна и та же информация. Не нужно будет разрабатывать то, что уже существует. Будут использоваться методы, которые уже давно всем знакомы. Поставленные задачи будут решаться оперативно и эффективно. 
     
     
    Основная часть
    1Анализ предметной области и постановка задач исследования
     1.1 Проблема поиска информации в сети Интернет
     История развития информационного поиска берет свое начало с сороковых годов прошлого столетия, когда люди осознали, что отсутствие способов оперативного получения информации для работы из больших массивов данных приведет к множественному дублированию усилий и затрат на достижения каких-либо целей [2]. Поиск информации в Интернет осложнен принципиальными отличиями всемирной паутины от традиционных хранилищ информации. Интернет представляет гигантскую электронную библиотеку, обладающую высокой изменчивостью, отражающейся в постоянном появлении, изменении и исчезновении информации. Информация в Интернет поступает децентрализовано, бесконтрольно, в различных форматах, по различным правилам, на разных языках и в различных стилях [8].
     В настоящее время проблемам поиска информации в Интернете посвящено значительное количество работ и исследований. На крупных международных и российских конференциях по информационному поиску, лекции, посвященные поиску в Интернете, пользуются особым вниманием, поскольку в настоящее время всемирная паутина стала основным средством получения информации и эффективность Интернет - поисковых систем является центральным вопросом исследований [11].
     Проблемами информационного поиска и в частности поиском в Интернете занимается также множество отечественных научных и коммерческих организаций. Среди них можно выделить НИВЦ МГУ, ИИ ИПС РАН, компании Yandex, Рамблер, Гарант-парк-Интернет, Галактика-Зум.
     Результаты исследований в данной области нашли свое отражение в Интернет-поисковых системах, которые сканируют web-ресурсы, индексируют размещенную на web-страницах информацию и обеспечивают пользователям возможность поиска по индексу. Современные интернет-поисковые системы обладают мощной аппаратно-технической базой, что позволяет им за считанные секунды индексировать десятки тысяч web-страниц, и отвечать на сотни тысяч пользовательских запросов [4].
     Первые поисковые системы, такие как AltaVista, Lycos появились на Западе порядка 10 лет назад, но буквально через пару лет стартовали российские разработки - Yandex, Rambler, Aport. Российские поисковые системы отличаются лучшей поддержкой русского языка и более полным индексированием web-ресурсов, размещенных в российском сегменте Сети. В 1997 году Сергей Брин и Ларри Пейдж создали поисковую систему Google в рамках исследовательского проекта в Стэнфордском университете. В настоящий момент Google - самая популярная поисковая система в мире [7].
     Однако, несмотря эти достижения, каждый из специалистов в какой-либо предметной области, ежедневно используя поисковые системы Интернета, постоянно сталкивается с трудностями в нахождении специализированной информации по интересующим вопросам. Особенно сложно стало искать узкоспециализированную, научную и научно-техническую информацию. Вследствие ряда объективных причин специалист получает от поисковой машины большой процент ссылок на информацию, которая формально релевантна его запросу, но не имеет отношения к стоявшей информационной потребности.
     Проблема поиска информации в сети Интернет затрагивает самых различных пользователей, и, в частности, с трудностями сталкиваются и специалисты в области наук, касающихся нефтегазовой отрасли, и, в частности специалисты в области нефтегазовых и смежных научных областей. В виду особой специфики данных областей знаний, для того чтобы построить систему эффективного поиска в сети Интернет, требуется проведение анализа циркулирующей в данных областях информации.
     В данной главе, с целью формулирования задач диссертационного исследования, был проведен анализ предметной области по трем основным направлениям.
     Во-первых, проанализировано информационное поле в области нефтегазовых технологий, представленное во всемирной паутине. Это позволяет оценить виды информационных источников, структуру информации на них и форматы ее представления, типы информационных потоков, которые циркулируют в сетевой среде.
     Во-вторых, основываясь на результатах тематического анализа, проведен обзор уже существующих инструментов, которыми может воспользоваться специалист в области нефтегазовой тематики, и анализ присущих им недостатков. На базе этого выдвинуты требования к новым информационно-поисковым сервисам и методам поиска, обработки и представления информации, позволяющим преодолеть перечисленные недостатки.
     В-третьих, был выполнен анализ современных разработок в области создания поисковых инструментов, определенных на втором этапе. Рассмотрены их возможности и применимость использования для реализации поиска в рамках портала по нефтегазовым технологиям. Отмечен спектр связанных с этим проблем и ограничений рассмотренных инструментов.
     
     1.2 Анализ Интернет-источников информации в области нефтегазовых технологий
     Для того чтобы провести анализ существующих интернет-источников, которые интересуют специалиста с сфере нефтегазовой отрасли, специально проводят анализ web-сайтов, которые открыты для пользования любому человеку. Все эти web-ресурсы занесены в каталоги Интернета. В работе имеются примеры некоторых аналитических исследований [13].
     Итак, речь идет о проведении работ в таком направлении:
* Какие существуют типы информационных потоков;
* Структурирование данных по предметной области;
* Как представляется информация в том или ином потоке, в каждом тематическом разделе;
* Как получить информацию от источника.
     Информационные потоки в области нефтегазовых технологий могут быть подразделены по типу содержания на:
* Описательные потоки (статьи, монографии, лекции); 
* Событийные потоки (мониторинг, новости, конференции);
* Дискуссионные потоки (обсуждения, вопросы-ответы);
* Справочные потоки (базы данных, каталоги, библиотеки);
* Интерактивные ресурсы (моделирование, специализированные расчеты, демонстрационные программы).
     Данные, которые получены из описательного, событийного и дискуссионного потоков, как правило, размещаются на web-страницах, которые имеют характеристику статического типа. Даже если статический тип будет определен, то это не означает, что именно таким образом построена технология создания web-ресурса. К примеру, страница может быть создана динамическим путем. Это лишь указывает на то, что определенный тип информации (например, монография или статья) плотно привязана к тому или иному адресу. А по существующему URL на информацию всегда можно выйти путем ввода адреса в адресную строку. В основном web-сайты подобного рода являются статическими. Получается, что они расположены на web-сервере как обычные файлы. В основном это форматы html, php и многие другие.
     Событийные и дискуссионные потоки примечательны своей динамичностью информационного потока, а также высокой скоростью для обновления. Чаще всего это информация в виде новостей,  презентаций, объявлений, анонсов различных мероприятий. В таких web-ресурсах используют динамические типы создания страниц. Вся информация событийного характера вносится в определенное хранилище. С ним работает сам ресурс. Существуют так называемые критерии визуализации, которые распределяют информацию по рубрикам, по новшеству и другим признакам. Если пользователь имеет URL новости или другой информации на web-ресурсе, то в любое время можно перейти на страницу, где имеется та или иная информация.
     Следует отметить, что статический и динамический тип информационных потоков в последнее время представляются новым способом. Теперь они выступают в виде RSS-потоков. RSS [5] – это некий стандарт, который базируется на основе данных XML для обмена новостями (и похожей информацией), а также прочими видами информации. В том случае, когда web-ресурс имеет возможность работать с RSS потоками новостей, сообщениями на форумах, конференциях, то работа с таким информационным потоком намного проще обычного. Специалисты утверждают, что основная сила RSS кроется именно в интеграции информации из различных потоков в единый поток. С ним можно работать, находясь в одном месте, при этом не посещая многие другие сайты, которые позволяют сгенерировать информацию на конкретном web-ресурсе. 
     Но справочные потоки имеют ряд существенных отличий. Они отличаются от динамического потока. Кроме того есть и множество сходств, например, с дискуссионными и событийными потоками. В справочном потоке информация содержится в определенной базе данных. Это различные коллекции, архивы, хранилища. Именно под них создан ресурс. При определенном запросе пользователь получает информацию. Запрос обычно создается путем заполнения поисковой или отборной формы. На динамической web-странице формируется информация, которая соответствует результатам запроса. Отличие от справочного потока заключается в том, что в большинстве случаев информация не привязана к определенному URL. Выходит, что информация недоступна, если просто перейти на нее по какой-то гиперссылке. Запрос в базу данных проходит по методу POST [15]. Это говорит о том, что параметры не передаются в URL. В большинстве случаев для того чтобы начать работу с библиотекой, необходимо пройти небольшую процедуру авторизации. Даже если запрос создается в базу данных с помощью метода GET, учитывая который вся информация запроса передается в URL, неавторизованный пользователь, который захочет воспользоваться URL, не сможет получить доступ к данным.
     В интернет - системах поиска такую информацию называют скрытой или глубинной. Это означает, что нужная информация поверхностным способом поиска не будет найдена. Автоматизированные способы не дадут нужного результата. Потребуется обязательная авторизация, как минимум. Рекомендуется создавать специальные технологические процессы, которые позволят правильно сгенерировать запрос в базе данных. В поисковых системах не существует подобных технологий. Они не индексируют информацию из глубинных ресурсов. А ведь именно глубинная информация составляет справочный поток.
     Интерактивные ресурсы - это особая форма представления информации, которая не поддается сколь либо точной классификации. Это могут быть интерактивные электронные карты, web-доступ к системе нефтегазовой тематики, демоверсии Интернет - приложений, различные Java - апплеты, системы расчетов, среды моделирования и т.д. Это наиболее сложная с точки зрения поиска информация, так как в большинстве случаев поиск возможен только по текстовой описательной части конкретного ресурса. Web-страницы, которые содержат эту информацию, практически всегда динамические, содержат множество интерактивных элементов и объектов (DHTML, JavaScript, Applets, Ajax-элементы). Для некоторых решений необходима установка специальных компонентов для Интернет - браузеров. Естественно, что все эти сервисы не индексируются поисковыми машинами в должном объеме.
     Ниже нами приведены результаты исследования структуры информации по нефтегазовым технологиям, размещенной в Интернете. Данная структура проанализирована под призмой информационных потоков и форматов данных, результаты сведены в таблицу 1.1.
     Таблица 1.1
     Структура информации по нефтегазовой тематике в сети Интернет
Тип решений
      Характеристика ресурса
      Описание
Материалы по информатике нефтегазовой отрасли, информационным технологиям и смежным областям
  Сайты, содержащие сводные материалы по нефтегазовой информатике и смежным областям знаний
  Сайты, содержащие материалы проектов в области нефтегазовых технологий
  Сайты, содержащие материалы по стандартизации данных и программных средств в нефтегазовой области
  Сайты организаций, связанных с деятельностью в области нефтегазовых технологий
  Представляется информацией описательного, событийного и дискуссионного и справочного потоков. Поисковые машины индексируют всю информацию, за исключением закрытых БД с поисковым интерфейсом.
Материалы и сервисы
  Сайты, демонстрирующие возможности интеграции нефтегазовых технологий с Web-тexнoлoгиями.
    Это особая форма данных, которая применяется только в рамках нефтегазовой тематики. Информация предоставляется в ответ на запрос, часто в виде растровых изображений, практически непригодна для индексации универсальным способом, поскольку в каждом конкретном случае нужно иметь собственный уникальный интерфейс доступа. Ясно, что общедоступные поисковые системы также «не знают» о существовании данных этого типа информации.
Программное обеспечение и данные по нефтегазовой 
отрасли

      Эта группа ресурсов формируется из документов и материалов, которые представляют собой файлы программных средств и файлы баз тематических данных. Как правило, ресурсы этой группы оформляются в виде страниц-интерфейсов, с помощью которых пользователь может детально ознакомиться с тем или иным программным средством или содержанием и характеристиками баз данных, а также организовать копирование файлов на клиентский компьютер.
      Сайты, содержащие материалы о программных продуктах в области нефтегазовых и смежных дисциплин
    Представлены наборы статических файлов в различных форматах (как правило, специфичных) с некоторой описательной частью. Большинство файлов открыто для свободного скачивания. Информация по данному разделу может быть представлена описательным, событийным или справочным потоками, редко дополняясь интерактивными сервисами. Описательная и событийная часть (информация о продуктах и данных, документация к ПО, новости по программным продуктам) индексируются Интернет-поисковыми машинами. А файлы программного обеспечения не индексируются, поэтому найти их возможно лишь по текстовой описательной информации.
     
     
     1.3 Анализ существующих Интернет-поисковых инструментов для специалиста по нефтегазовому делу
     На сегодняшний день каждый из посетителей сети Интернет, и, в частности, специалисты в области нефтегазовых технологий используют следующие средства нахождения нужной ему специализированной информации на сетевых ресурсах:
     Списки избранных web-ресурсов и web-страниц. Имеются в виду созданные вручную списки адресов Интернет-ресурсов, где может находиться полезная ему информация. Это может быть список закладок в Интернет-браузере, документ (в любом электронном формате) с перечислением ссылок на ресурсы и их кратким названием/описанием, ссылки на web-ресурсы в уже имеющихся документах и т.п. В любом случае, все эти списки ресурсов можно охарактеризовать как некие локальные мини-каталоги ссылок на релевантные тематике Интернет- ресурсы. Практически все пользователи Интернета применяют подобные наборы ссылок на информационные ресурсы. Интуитивно понятно, что в процессе работы пользователя, с течением времени, база собственных избранных ссылок постепенно увеличивается, что сопровождается увеличением времени на поиск ссылки на нужный ресурс. В лучшем случае пользователь может осуществить примитивный поиск по ключевому слову, входящему в название/описание ресурса (например, если эти ссылки содержатся в неком документе).
     Крупные специализированные порталы по нефтегазовой тематике, тематические онлайн-библиотеки. В любой предметной области существует набор крупных тематических информационных ресурсов, содержащих большие объемы информации по данной проблематике. На данных ресурсах, как правило, пользователям предоставляется очень большой пласт тематической информации, полученной из большого набора источников: баз данных, документов MSOffice, документов PDF, мультимедиа-данных, и, в том числе и из Интернета. Информация интегрируется в соответствии с единой концепцией и предоставляется пользователю в достаточно удобном структурированном виде. Как правило, большинство таких ресурсов имеют собственные поисковые инструменты: рубрикаторы, поисковые приложения по всем разделам. Иногда поисковые системы бывают достаточно мощными, и, даже поддерживают некоторый синтаксис запросов. На таких ресурсах встречаются собственные каталоги Интернет ресурсов с качественной информацией по предметной области, каталоги организаций, работающих в данной области, с адресами web-сайтов, и другие списки ресурсов. Такие ресурсы создаются и поддерживаются специалистами, поэтому есть гарантии в авторитетности ресурса и качестве публикуемых на нем материалов. Зная адреса только крупных порталов (а их можно просто запомнить), пользователь уже может надеяться на то, что в нужный момент они помогут ему найти требуемую информацию.
     Каталоги Интернет-ресурсов общего назначения. Среди них yandex.ru, rambler.ru, mail.ru в русскоязычном сегменте Сети и очень крупные каталоги yahoo.com, dmoz.org в англоязычном сегменте. В данных каталогах собраны ссылки на web-ресурсы по всем возможным тематикам человеческой жизнедеятельности. Естественно, что в них имеются и разделы, посвященные нефтегазовой отрасли. Специалист, зная адреса нескольких таких каталогов, может при помощи рубрикатора ресурсов найти web-сайт с нужной ему информацией. При включении ресурса в такой каталог, о нем собирается достаточно много информации - от названия и описания до информации о создателях. Эта информация используется для поиска по каталогу. Ресурсы включаются в каталог только после прохождения строгой процедуры модерирования, заключающейся в оценке данного ресурса модераторами каталога и принятии решения о включении в каталог или отказе по тем или иным причинам. Поэтому также можно считать ресурсы в данных каталогах проверенными и качественными, хотя, конечно оценка модераторов менее авторитетна, чем специалистов в предметной области. Поиск в каталоге осуществляется метаданным ресурсов.
     Поисковые системы общего назначения, метапоисковые системы. Поисковые системы общего назначения (многоцелевые), такие как Google, Yandex, Rambler позволяет пользователю осуществлять полнотекстовый поиск информации на web-ресурсах. Человек взаимодействует с поисковой системой путем ввода текстового запроса, включающего ключевые слова, отражающие его информационную потребность. В ответ на запрос, поисковая машина возвращает упорядоченный по релевантности список ссылок на web-страницы, содержащие искомую информацию. Важнейшим отличием поисковых систем для поиска в Интернет от классических систем информационного поиска является необходимость обслуживания всех запросов без реального доступа к ресурсам на момент выполнения запроса. Иначе необходимо либо хранить свежую локальную копию всех ресурсов (что слишком накладно), либо посещать ресурсы во время выполнения запроса (что слишком медленно). Поэтому, в системах поиска в Интернет все запросы обслуживаются на основе содержимого индекса, содержащего некоторые описания известных данной поисковой системе ресурсов. Для сбора сведений о доступных ресурсах, которые потом применяются для построения индекса,  используются так называемые сетевые роботы – программы. Они,  начиная с некоторой Интернет-страницы, рекурсивно обходят ресурсы Интернет, извлекая ссылки на новые ресурсы из получаемых документов [10].
     Поисковая система называется многоцелевой, поскольку она не имеет предпочтений к какой-либо тематике информации, и каким-либо типам ее представления. Естественно, что такие системы индексируют и информацию по нефтегазовым технологиям, что позволяет специалистам нефтегазовой отрасли использовать такие системы для поиска данных для работы.
     Метапоисковые системы (AskJeeves, Nigma [12]) позволяют транслировать поисковый запрос сразу нескольким поисковых системам, а также объединять полученные результаты и предоставлять их пользователю. Тем самым предполагается повышение качества поиска за счет более полного охвата сети Интернет и комбинирования только лучших результатов.
     Несмотря на то, что приведенный перечень поисковых средств выглядит внушительно, каждый из них имеет недостатки и ограничения. Был проведен анализ эффективности данных инструментов:
* Полнота охвата тематических информационных ресурсов;
* Качество, достоверность и актуальность информации, полученной из Сети;
* Высокая скорость проведения поиска.
     В ходе анализа были сделаны следующие выводы:
     С точки зрения полноты охвата информационных ресурсов по нефтегазовой тематике, существующие поисковые средства имеют весьма существенные ограничения:
- каким бы крупным ни был информационный ресурс (Интернет-портал), он всегда имеет ограниченный набор данных, и не может охватить все аспекты по необходимой тематике. Любая поисковая система, индексирующая несколько порталов, будет предоставлять более высокую полноту охвата;
- в Интернет-каталоги (общего назначения и на порталах) попадают не все тематически релевантные web-ресурсы в силу его особенностей. Формирование каталога всегда сопряжено с ручным трудом, а учитывая скорость изменчивости Сети, понятно, что данные в каталоге отстают по актуальности от реального состояния Сети. Кроме того, web-страницы с нужной информацией необязательно находятся на ресурсах, включенных в какую либо категорию каталога, в результате чего найти их сложно.
     В некоторых специализированных порталах реализован полнотекстовый поиск по тематически релевантным web-ресурсам. Однако индексируются только ресурсы, вручную добавленные в каталоги, остальные ресурсы Сети игнорируются. Поэтому полнота охвата здесь также недостаточная.
     Интернет-поисковые системы - незаменимый инструмент, функциональность которых покрывает недостатки крупных порталов и каталогов в силу того, что они реализуют полнотекстовый поиск по многим ресурсам в Интернете. Но практика показывает, что и они не обеспечивают должную полноту охвата ресурсов. Причин тому несколько:
     - даже самые крупные поисковые системы общего назначения индексируют только небольшую часть Интернета. Это происходит по техническим и временным ограничениям. Принимая во внимание продолжающийся лавинообразный рост количества информации в Интернете, а также, учитывая, что часть информации постоянно обновляется или меняет свой адрес, то задача создания поддержания полного и актуального индекса при нынешнем развитии технологий сегодня и в ближайшем будущем технически неосуществима. В итоге значительная часть информации, опубликованной в Интернете, рискует еще долгое время не быть проиндексированной и тем самым не быть доступной пользователю через поисковые системы, либо будет не соответствовать действительности;
     - как уже было отмечено выше, традиционные поисковые системы индексируют только ту информацию, которая непосредственно может быть получена путем чтения web-страницы (поверхностный web или surfaceweb) и не индексируют информацию, скрытую за web-формами поиска, выборки. То есть информацию, которая содержится в подключенных к Сети базах данных и отображается пользователям по определенным запросам. Данную информацию называют скрытым или «глубинным webом» (hiddenweb). На основании многих исследований, реальный размер глубинного webа более чем в 500 раз превышает размеры публичной части Сети [6];
     - индексируются в большинстве случаев только html и txt документы, и наиболее популярные форматы документов (PDF-файлы, файлы MSOffice). Однако в конкретной предметной области могут быть распространены файлы с другими расширениями, также содержащие ценную для специалиста информацию. 
     Существующие поисковые средства не могут обеспечивать приемлемую точность поиска и качественное ранжирование информации:
     - если рассматривать крупные специализированные порталы, то даже, несмотря на качество представленной в них информации, поисковые системы, которыми они снабжены очень примитивны. У большинства таких систем отсутствует поддержка расширенного поиска (или языка запросов), не поддерживается морфологический поиск, фильтрация стоп-слов и др. технические приемы. Найти информацию в итоге чрезвычайно сложно;
     - интернет-каталоги не реализуют полнотекстовый поиск по включенным в них ресурсам. Поиск по аннотациям не может быть качественным и точным по определению, т.к. крайне сложно несколькими словами описать всю информацию, размещенную на сайте;
     - интернет-поисковые системы по качеству поиска превосходят другие инструменты. Но также не обеспечивают приемлемую точность поиска по своему индексу: в поисковых системах существует проблема качественного ранжирования информации. То есть даже если информация содержится в индексе и отвечает поисковому запросу, она может быть «задвинута» в списк.......................
Для получения полной версии работы нажмите на кнопку "Узнать цену"
Узнать цену Каталог работ

Похожие работы:

Отзывы

Спасибо, что так быстро и качественно помогли, как всегда протянул до последнего. Очень выручили. Дмитрий.

Далее
Узнать цену Вашем городе
Выбор города
Принимаем к оплате
Информация
Наши преимущества:

Экспресс сроки (возможен экспресс-заказ за 1 сутки)
Учет всех пожеланий и требований каждого клиента
Онлай работа по всей России

Сезон скидок -20%!

Мы рады сообщить, что до конца текущего месяца действует скидка 20% по промокоду Скидка20%