VIP STUDY сегодня – это учебный центр, репетиторы которого проводят консультации по написанию самостоятельных работ, таких как:
  • Дипломы
  • Курсовые
  • Рефераты
  • Отчеты по практике
  • Диссертации
Узнать цену
Главная / Рефераты / Системы индексирования

Системы индексирования

Система индексирования (СИ) совокупность методов и средств перевода текстов с естественного языка на ИПЯ в соответствии с заданным набором словарей лексических единиц и с правилами применения ПНЯ [29]. Рассмотрим классификацию систем индексирования |29]. 1. Но степени автоматизации процесса индексирования выделяют системы: • ручного индексирования; • автоматического индексирования; • автоматизированного индексирования. 2. По степени контролируемости различают системы: • без словаря; • с жестким словарем; • со свободным словарем. 3. По характеру алгоритма отбора слов текста выделяют системы: • с последовательным просмотром текста (отбираются все полнозначные слова); • с эвристическими процедурами выбора слов текста (слова отбираются интуитивно или по заданной процедуре): • со статистическими процедурами выбора слов (отбираются только информативные слова в соответствии с распределением частот их употребления). 4. По характеру лексикографического контроля различают системы: • без лексикографического контроля; • с полным контролем; • с промежуточным контролем. Лексикографический контроль предусматривает [29]: ¦ устранение синонимии, полисемии и омонимии на основе нормативных словарей лексических единиц с парадигматическими отношениями между ними; ¦ нормализацию слов на основе морфологических нормативных словарей. 5. По характеру морфологического анализа слов различают системы: 165 ¦ с использованием морфологических словарей; ¦ с использованием основных лексических словарей; ¦ С использованием морфологического анализа с усечением слов. Возможны системы индексирования без морфологического анализа. Процесс свободного индексирования состоит в следующем. Индексатор выписывает слова или словосочетания, которые, по его мнению, отражают содержание текста. Он может брать слова, отсутствующие в тексте, но важные, с его точки зрения, для выражения смысла текста. Отобранный список слов является поисковым образом документа. Это СИ С ручным индексированием. Процесс полусвободного индексирования аналогичен вышеописанному, но слова для подберутся только из словаря. При жестком индексировании слова берутся только из текста. Поначалу индексирование осуществлялось специально подготовленными специалистами-экспертами в предметной области, которые МОГЛИ осуществлять глубокий анализ СМЫСЛОВОГО содержания документа и ОТНОСИТЬ его (индексировать) к тем или иным классам, рубрикам, ключевым терминам. В этом случае были высоки накладные расходы, поскольку требовалось наличие в штате высококвалифицированных специалистов-индексаторов. Кроме того, процесс индексирования в некоторой мере был субъективным. Поэтому возникла задача автоматизации индексирования документов. Существуют два подхода к автоматическому индексированию. Первый основан на использовании словаря ключевых слов и применяется в системах на основе ИПТ. Индексирование в таких системах осуществляется путем последовательного автоматического поиска в тексте документа ключевых терминов. Строится индекс, представляющий поисковое пространство документов. Возможны два типа такого индекса - прямой и инвертированный (рис. 7.4) [14]. Прямой тип индекса строится по схеме «документ—термины». Поисковое пространство в ЭТОМ случае представлено в виде матрицы размерностью nxm. Строки этой матрицы представляют поисковые образы документов. Инвертированный тип индекса строится по обратной схеме — «термин—документы>. Поисковое пространство соответственно предетав-лено аналогичной матрицей, только в транспонированной форме. Поисковыми образами документов в ЭТОМ случае являются столбцы матрицы. 166 Прямой индекс Номер документа Термины f, t> f. t, U d, + + d2 +¦ + + d3 + + dt + f + Инвертированный индекс Термины Номера документов d d2 d, dt f, + + г, + + h + + t< + + и + + Рис. 7.4. Пример прямого и инвертированного индексов Второй подход к автоматическому индексированию применяется в полнотекстовых системах. В процессе индексирования в индекс заносится информация обо всех словах текста документа (отсюда и название «полнотекстовые»).

Каталог работ Узнать цену


Похожие рефераты:

Отзывы

Спасибо, что так быстро и качественно помогли, как всегда протянул до последнего. Очень выручили. Дмитрий.

Далее
Узнать цену Вашем городе
Выбор города
Принимаем к оплате
Информация
Онлайн-оплата услуг

Наша Компания принимает платежи через Сбербанк Онлайн и терминалы моментальной оплаты (Элекснет, ОСМП и любые другие). Пункт меню терминалов «Электронная коммерция» подпункты: Яндекс-Деньги, Киви, WebMoney. Это самый оперативный способ совершения платежей. Срок зачисления платежей от 5 до 15 минут.

Сотрудничество с компаниями-партнерами

Предлагаем сотрудничество агентствам.
Если Вы не справляетесь с потоком заявок, предлагаем часть из них передавать на аутсорсинг по оптовым ценам. Оперативность, качество и индивидуальный подход гарантируются.