Главная / Образцы дипломных работ
Поисковые машины, состав, функции, принцип работы

Внимание: Акция! Курсовая работа, Реферат или Отчет по практике за 10 рублей!
Только в текущем месяце у Вас есть шанс получить курсовую работу, реферат или отчет по практике за 10 рублей по вашим требованиям и методичке!
Все, что необходимо - это закрепить заявку (внести аванс) за консультацию по написанию предстоящей дипломной работе, ВКР или магистерской диссертации.
Нет ничего страшного, если дипломная работа, магистерская диссертация или диплом ВКР будет защищаться не в этом году.
Вы можете оформить заявку в рамках акции уже сегодня и как только получите задание на дипломную работу, сообщить нам об этом. Оплаченная сумма будет заморожена на необходимый вам период.
В бланке заказа в поле "Дополнительная информация" следует указать "Курсовая, реферат или отчет за 10 рублей"
Не упустите шанс сэкономить несколько тысяч рублей!
Подробности у специалистов нашей компании.
Код работы:	W011079
Тема:	Поисковые машины, состав, функции, принцип работы
Содержание
Содержание
Введение………………………………………………………………………….2
1 .Поисковые машины: состав, функции, принцип работы

1.1. Сущность поисковых машин……………………………………………..3
1.1 Состав поисковых систем………………………………….………………6
1.2 Особенности поисковых машин…………………………………………..7
1.3 Принципы работы поисковых систем……………………………………..7
2 Обзор функционирования поисковых систем
2.1 Зарубежные поисковые системы: состав и принципы работы…………15
2.2 Русскоязычные поисковые системы: состав и принципы работы….…..17

3. Примеры поисковых машин……………………………………………….19
Вывод………………………………………………………………..……………24
Список используемой литературы…………………………………..………….25
Введение
     Поисковые системы уже давно стали неотъемлемой частью российского Интернета. В силу того, что они, хотя и различными средствами, самостоятельно обеспечивают все этапы обработки информации от ее получения с узлов-первоисточников до предоставления пользователю возможности поиска, их часто называют автономными поисковыми системами.
   Поисковые системы сейчас – это огромные и сложные механизмы, представляющие собой не только инструмент поиска информации, но и заманчивые сферы для бизнеса. Эти системы могут различаться по принципу отбора информации, который в той или иной степени присутствует и в алгоритме сканирующей программы автоматического индекса, и в регламенте поведения сотрудников каталога, отвечающих за регистрацию. Как правило, сравниваются два основных показателя:
* пространственный масштаб, в котором работает ИПС,
* и ее специализация.
Большинство пользователей поисковых систем никогда не задумывались (либо задумывались, но не нашли ответа) о принципе работы поисковых систем, о схеме обработки запросов пользователей, о том, из чего эти системы состоят и как функционируют… Поисковые системы можно сравнить со справочной службой, агенты которой обходят предприятия, собирая информацию в базу данных. При обращении в службу информация выдается из этой базы. Данные в базе устаревают, поэтому агенты их периодически обновляют. Некоторые предприятия сами присылают данные о себе, и к ним агентам приезжать не приходится. Иными словами, справочная служба имеет две функции: создание и постоянное обновление данных в базе и поиск информации в базе по запросу клиента.

                                       1.1 Сущность поисковых машин

Задача поисковых машин - обеспечивать детальное разыскание информации в электронной вселенной, что может быть достигнуто только за счет учета (индексирования) всего содержания максимально возможного числа web-страниц. В отличие от справочников, все они функционируют в автоматизированном режиме и имеют одинаковый принцип действия. Поисковые системы состоят из двух базовых компонентов. Первый компонент представляет собой программу-робот, задача которого путешествовать с сервера на сервер, находить там новые или изменившиеся документы и скачивать их на главный компьютер системы. При этом робот, просматривая содержимое документа, находит новые ссылки, как на другие документы данного сервера, так и на внешние сайты. Программа самостоятельно направляется по указанным ссылкам, находит новые документы и ссылки в них, после чего процесс повторяется вновь, напоминая хорошо известный в библиографии “метод снежного кома”.

Выявленные документы обрабатываются (индексируются) вторым компонентом поисковой системы. При этом, как правило, учитывается все содержание страницы, включая текст, иллюстрации, аудио и видео файлы и пр. Индексации подвергаются все слова в документе, что как раз и дает возможность использовать поисковые системы для детального поиска по самой узкой тематике. Образуемые гигантские индексные файлы, хранящие информацию о том, какое слово, сколько раз, в каком документе и на каком сервере употребляется, и составляют базу данных, к которой происходит обращение пользователей, вводящих в строку запроса сочетания ключевых слов.
Выдача результатов осуществляется с помощью специального модуля, который производит интеллектуальное ранжирование результатов. При этом берется в расчет местоположение термина в документе (название, заголовок, основной текст), частота его повторения, процентное соотношение искомого термина к остальному тексту страницы, а также число и авторитетность внешних ссылок на данную страницу с других сайтов.

Основные параметры поисковых машин

К основным параметрам поисковых систем относятся:

- объем индексных файлов (число проиндексированных серверов и отдельных документов);

- степень оперативности обновления базы данных за счет включения сведений о новых материалах и удаления устаревших;

- возможности для составления запроса;

- интеллектуальность системы ранжирования результатов поиска;

- наличие дополнительных сервисных функций, облегчающих работу пользователя.

Первая величина, являющаяся ключевой, устанавливает широту охвата материала и определяется числом проиндексированных документов. Сейчас эта цифра для лидеров мирового сетевого поиска колеблется в пределах от 1 до 3 с лишним миллиардов.



Учитывая тот факт, что в среднем интернетовский адрес сохраняет актуальность до полугода, после чего документ или меняет местоположение или убирается с сервера, большое значение имеет уровень оперативности обновления данных, характеризующий степень соответствия индексного файла поисковой системы реальному местоположению документов на сайтах. В настоящее время этот параметр колеблется от двух недель до полутора месяцев.

Возможности поискового механизма выражать запрос максимально точно в значительной степени предопределяют долю релевантных документов в перечне полученных результатов. Каждая машина имеет свою собственную лексику, которая по-разному позволяет детализировать поисковое предписание.

Все поисковые машины обладают модулем ранжирования результатов поиска. Создание таких модулей - целая область программирования, в которой конкурируют сложнейшие алгоритмы, созданные разными компаниями. Перечень факторов, принимаемых во внимание при определении места документа в перечне ссылок необычайно широк: от местоположения слова на странице до рейтинга (авторитета) страниц, имеющих ссылки на найденный документ.

Не последнюю роль играет и простота интерфейса, наличие дополнительных сервисных функций, как например, возможность перевода текста документа на иностранный язык, способность выделять все документы с определенного сайта, сужение критериев в ходе поиска, нахождение документов "по образцу" и т. д.

По этим параметрам среди внушительного числа поисковых систем выделяются несколько наиболее признанных, позволяющих выявлять информацию с высокой степенью полноты и надежности. К наиболее авторитетным поисковым системам всемирного масштаба в настоящее время относятся Google (www. ), AlltheWeb (www. ) и AltaVista (www. ).



Практически все всемирно известные справочники и поисковые системы в настоящее время превратились во внушительные информационные корпорации с многомиллионными доходами. Заработав авторитет наиболее посещаемых мест в Сети, они предоставляют свои страницы для размещения рекламной информации, доходы от которой и составляют основу их бюджета. Постепенно поисковые сервера превращаются в многофункциональные порталы, в которых поисковый сервис остается главной приманкой для пользователей, но далеко не единственной и даже не основной из предоставляемых услуг. Помимо разыскания информации, такие сервера обычно предоставляют пользователям бесплатную электронную почту, возможность бесплатно размещать собственные страницы, сведения о погоде, текущих новостях, биржевые котировки, карты местности и т. д.
   
1 Поисковые машины: состав, функции, принцип работы
1.1 Состав поисковых систем
     Поисковая система - это программно-аппаратный комплекс, предназначенный для осуществления поиска в сети Интернет и реагирующий на запрос пользователя, задаваемый в виде текстовой фразы (поискового запроса), выдачей списка ссылок на источники информации, в порядке релевантности (в соответствии запросу). Наиболее крупные международные поисковые системы: «Google», «Yahoo», «MSN». В русском Интернете это – «Яндекс»,«Рамблер», «Апорт».
     Аналогично, поисковая машина состоит из двух частей: так называемого робота (или паука), который обходит серверы Сети и формирует базу данных поискового механизма.
     База робота в основном формируется им самим (робот сам находит ссылки на новые ресурсы) и в гораздо меньшей степени - владельцами ресурсов, которые регистрируют свои сайты в поисковой машине. Помимо робота (сетевого агента, паука, червяка), формирующего базу данных, существует программа, определяющая рейтинг найденных ссылок.
Принцип работы поисковой машины сводится к тому, что она опрашивает свой внутренний каталог (базу данных) по ключевым словам, которые пользователь указывает в поле запроса, и выдает список ссылок, ранжированный по релевантности.
     Следует отметить, что, отрабатывая конкретный запрос пользователя, поисковая система оперирует именно внутренними ресурсами (а не пускается в путешествие по Сети, как часто полагают неискушенные пользователи), а внутренние ресурсы, естественно, ограниченны. Несмотря на то что база данных поисковой машины постоянно обновляется, поисковая машина не может проиндексировать все Web-документы: их число слишком велико. Поэтому всегда существует вероятность, что искомый ресурс просто неизвестен конкретной поисковой системе.
1.2 Особенности поисковых систем
     В работе поисковый процесс представлен четырьмя стадиями: формулировка (происходит до начала поиска); действие (начинающийся поиск); обзор результатов (результат, который пользователь видит после поиска); и усовершенствование (после обзора результатов и перед возвращением к поиску с иной формулировкой той же потребности). Более удобная нелинейная схема поиска информации состоит из следующих этапов:
- фиксация информационной потребности на естественном языке;
- выбор нужных поисковых сервисов сети и точная формализация записи информационной потребности на конкретных информационно-поисковых языках (ИПЯ);
- выполнение созданных запросов;
- предварительная обработка и выборка полученных списков ссылок на документы;
- обращение по выбранным адресам за искомыми документами;
- предварительный просмотр содержимого найденных документов;
- сохранение релевантных документов для последующего изучения;
- извлечение из релевантных документов ссылок для расширения запроса;
- изучение всего массива сохраненных документов;
- если информационная потребность не полностью удовлетворена, то возврат к первому этапу.
1.3 Принципы работы поисковых систем
     Задача любой поисковой системы – доставлять людям ту информацию, которую они ищут. Научить людей делать “правильные” запросы, т.е. запросы, соответствующие принципам работы поисковых систем невозможно. Поэтому разработчики создают такие алгоритмы и принципы работы поисковых систем, которые бы позволяли находить пользователям именно ту информацию, которую они ищут. Это означает, поисковая система должна “думать” также как думает пользователь при поиске информации.
Поисковые системы в большинстве своем работает по принципу предварительного индексирования. По такому же принципу работают база данных большинства поисковых систем.
     Есть и другой принцип построения. Прямой поиск. Он заключается в том, что вы в поиске ключевого слова перелистываете книгу страницу за страницей. Конечно, этот способ гораздо мене эффективен.
     В варианте с инвертированным индексом поисковые системы сталкиваются с проблемой величины файлов. Как правило, они значительно велики. Эту проблему обычно решают двумя методами. Первый заключается в том, что из файлов удаляется все лишнее, а остается лишь то, что действительно нужно для поиска. Второй метод заключается в том, что для каждой позиции запоминается не абсолютный адрес, а относительный т.е. разница адресов между текущей и предыдущей позициями.
     Таким образом, два главных процесса, выполняемых поисковой системой – это индексирование сайтов, страниц и поиск. В общем, процесс индексирования для поисковиков проблем не вызывает. Проблемой является обработка миллиона запросов в сутки. Это связано с большими объемами информации, которая подвергается обработке больших компьютерных комплексов. Главный фактор, определяющий количество участвующих в поиске серверов, - поисковая нагрузка. Это объясняет некоторые странности возникающие при поиске информации.
Поисковые системы состоят из пяти отдельных программных компонент:
spider (паук): браузероподобная программа, которая скачивает веб-страницы.
crawler : «путешествующий» паук, который автоматически идет по всем ссылкам, найденным на странице.
indexer (индексатор): «слепая» программа, которая анализирует веб-страницы, скаченные пауками.
thedatabase (база данных): хранилище скаченных и обработанных страниц.
searchengineresultsengine (система выдачи результатов): извлекает результаты поиска из базы данных.
     Spider: Паук – это программа, которая скачивает веб-страницы. Он работает точно как ваш браузер, когда вы соединяетесь с веб-сайтом и загружаете страницу. Паук не имеет никаких визуальных компонент. То же действие (скачивание) вы можете наблюдать, когда просматриваете некоторую страницу и когда выбираете «просмотр HTML-кода» в своем браузере.
     Crawler: Как и паук скачивает страницы, он может «раздеть» страницу и найти все ссылки. Это его задача – определять, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов.
     Indexer: Индексатор разбирает страницу на различные ее части и анализирует их. Элементы типа заголовков страниц, заголовков, ссылок, текста, структурных элементов, элементов BOLD, ITALIC и других стилевых частей страницы вычленяются и анализируются.
     Database: База данных – это хранилище всех данных, которые поисковая система скачивает и анализирует. Это часто требует огромных ресурсов.
     Search Engine Results: Система выдачи результатов занимается ранжированием страниц. Она решает, какие страницы удовлетворяют запросу пользователя, и в каком порядке они должны быть отсортированы. Это происходит согласно алгоритмам ранжирования поисковой системы. Эта информация является наиболее ценной и интересной для нас – именно с этим компонентом поисковой системы взаимодействует оптимизатор, пытаясь улучшить позиции сайта в выдаче, поэтому в дальнейшем мы подробно рассмотрим все факторы, влияющие на ранжирование результатов.
     Работа поискового указателя происходит в три этапа, из которых два первых являются подготовительными и незаметны для пользователя. Сначала поисковый указатель собирает информацию из World Wide Web. Для этого используют специальные программы, аналогичные браузеры. Они способны скопировать заданную Web-страницу на сервер поискового указателя, просмотреть ее, найти все гипетэссылки, которые на ней имеютте ресурсы, которые найдены там, снова разыскать имеющиеся в них гиперссылки и т. д. Подобные программы называют червяками, пауками, гусеницами, краулерами, спайдерами и другими подобными именами. Каждый поисковый указатель эксплуатирует для этой цели свою уникальную программу, которую нередко сам и разрабатывает. Многие современные поисковые системы родились из экспериментальных проектов, связанных с разработкой и внедрением автоматических программ, занимающихся мониторингом Сети. Теоретически, при удачном входе спайдер способен прочесать все Web-пространство за одно погружение, но на это надо очень много времени, а ему еще необходимо периодически возвращаться к ранее посещенным ресурсам, чтобы контролировать происходящие там изменения и выявлять «мертвые» ссылки, т. е. потерявшие актуальность.
     После копирования разысканных Web-ресурсов на сервер поисковой системы начинается второй этап работы — индексация. Индексирование страниц производится специальной программой называемой роботом. У каждой поисковой машины таких роботов очень много. Все это служит целью параллельного скачивания документов из различных мест сети. Скачивать документы по очереди не имеет смысла, так малоэффективно. Представьте себе постоянно растущее дерево. На стволах которого вновь и вновь появляются лепесточки (страницы сайтов). Конечно же, вновь появляющиеся сайты будет проиндексированы значительно быстрее, если роботов пустить по каждому ответвлению дерева, а не делать это последовательно.
     Технически язык модуль ними скачивания день бывает дате либо мультимедийным пока (AltavistaMerkator), либо используется явно асинхронный иное ввод-вывод базу (GoogleBot). Также если разработчикам лишь постоянно базу приходится тому решать всем задачу типа многопоточного лишь DNS-сервера.
     В мультитредовой одна схеме если скачивающие ныне треды сети называются виде червями мене (worms), а их менеджер дает – погоняльщиком пока червей дате (wormboy).
Не многие даже серверы мире выдержат трех нагрузки было нескольких долю сотен поле червей, поэтому бота менеджер если следит иное затем, чтобы того не перегружать него серверы.
Для скачивания базе страниц язык роботы идет используют иное протоколы если HTTP. Работает базы он следующим база образом. Робот этой на сервер весь передает этой запрос свою “get/path/document” и другие базу полезные свои строки, относящиеся идти в HTTP запросу. В ответ меню робот свой получает долю текстовый слов поток, содержащий рост служебную зато информацию свои и непосредственно даже сам документ.
     Целью бота скачивания трех является была уменьшение база сетевого базу трафика базы при максимальной знак полноте.
     Абсолютно весь все поисковые дате роботы базы подчиняются всей файлу идут robots.txt, где web мастер бота может ныне ограничить пока индексацию этой страниц ходе роботом.Также этих у роботов чего есть и свои фильтры.
     Например, некоторые всем роботы свою опасаются этот индексировать ними динамические если страницы. Хотя сейчас либо webмастеры роль без проблем если обходят всех эти места. Да и таких идет роботов деле остается виде все меньше.
     Также лишь у каждого цвет бота есть список этот ресурсов, отнесенных деле к спаму. Соответственно, эти ресурсы базы посещаются базы ботами либо значительно того меньше, либо вообще этап игнорируются этом в течение одна определенного идет времени, при этом поисковые базе системы доли не фильтруют дает информацию
     У моделей году скачивания этом в поддержке этих есть другие даже модули, выполняющие лишь вспомогательные базе функции. Они помогают годы уменьшать того трафик, увеличивать годы глубину этом поиска, обрабатывают базы часто базы обновляемые всем ресурсы, хранят была URL и ссылки, чтобы виде повторно себе не скачивать этом ресурсы.
     Существуют этом модули счет отслеживания быть дубликатов. Они помогают свой отсеивать ходе страницы есть с повторной поле информацией. Т.е. если робот него находит меню дубликат виде уже существующей плюс страницы этой или со слегка даже измененной этот информацией, то он просто этом не идет дальше есть по ссылкам базы страницы.Есть отдельный сети модуль меню определения либо кодировки доли и языка двух документа.
После базы того как страница этот было скачена, она обрабатывается базу html-парсером. Он оставляет свои лишь ту информацию язык от документа, которая того действительно доли важна этих для поиска: текст, шрифты, ссылки знак и т.д. Хотя сейчас сайт роботы базе индексируют есть почти мест все. И javascript и флэш-технологии. Но, тем не менее есть не стоит есть забывать базы про некоторую слов ограниченность ходе роботов.
     В ходе индексации идут создаются базе специальные либо базы данных, с помощью либо которых день можно база установить, где и когда если в Интернете быть встречалось, то или иное слово. Считайте, что индексированная базу база данных ныне — это своего плюс рода словарь. Она необходима меню для того, чтобы ними поисковая день система поле могла была очень пяти быстро сайт отвечать даже на запросы дает пользователей. Современные базы системы весь способны либо выдавать ответы весь за доли секунды, но если не подготовить слов индексы весь заранее, то обработка базы одного если запроса базы будет если продолжаться даже часами.
     На третьем сети этапе доли происходит идти обработка весь запроса того клиента либо и выдача язык ему результатов двух поиска пока в виде списка день гиперссылок. Допустим, клиент цели хочет того узнать, где в Интернете ныне имеются всем Web-страницы, на которых ныне упоминается чего известный быть голландский даже механик, оптик рода и математик этим Христиан этом Гюйгенс. Он вводит базы слово базу Гюйгенс пока в поле набора этом ключевых плюс слов и нажимает году кнопку. Найти этом (Search). По своим даже базам быть указателей базы поисковая этом система если в доли секунды даже разыскивает мало подходящие всем Web-ресурсы тому и формирует свои страницу убил результатов одно поиска, на которой иное рекомендации ряде представлены одна в виде гиперссылок. Далее знак клиент база может поле пользоваться этом этими этом ссылками году для перехода счет к интересующим сети его ресурсам.
Все это выглядит счет достаточно деле просто, но на самом идет деле здесь всех есть проблемы. Основная надо проблема всем современного идет Интернета база связана плюс с изобилием весь Web-страниц. Достаточно дает ввести этом в поле поиска базы такое базы простое меню слово, как, например, футбол, и российская либо поисковая даже система этом выдаст если несколько если тысяч даже ссылок, сгруппировав есть их по 10-20 штук на отображаемой свою странице.
     Несколько ныне тысяч весь — это еще не так много, потому ныне что зарубежная поисковая того система всем в аналогичной мест ситуации чего выдала этом бы сотни слов тысяч если ссылок. Попробуйте всей найти этом среди даже них нужную! Впрочем, для рядового если потребителя лишь совершенно свои все равно, выдадут хотя ему тысячу свою результатов ныне поиска этот или миллион. Как правило, клиенты просматривают доли не более либо 50 ссылок, стоящих знак первыми, и что там делается дает дальше, мало кого беспокоит. Однако либо клиентов очень если и очень была беспокоит всем качество самых пока первых ссылок. Клиенты пяти не любят, когда если в первом цели десятке этой встречаются есть ссылки, утратившие быть актуальность, их раздражает, когда базы подряд идет идут ссылки если на соседние всем файлы дает одного всех и того же сервера. Самый знак же плохой лишь вариант деле — когда свои подряд базу идут несколько быть ссылок, ведущих к одному базе и тому же ресурсу, но находящемуся есть на разных либо серверах.
     Клиент если вправе доли ожидать, что самыми этой первыми идет будут того стоять есть наиболее этом полезные если ссылки. Вот здесь мене и возникает роль проблема. Человек легко всем отличает либо полезный этот ресурс цвет от бесполезного, но как объяснить двух это программе?! Поэтому поле лучшие ними поисковые убил системы проявляют базе чудеса долю искусственного знак интеллекта себе в попытке лишь отсортировать если найденные есть ссылки дает по качественности этот их ресурсов. И делать если это они должны ныне быстро базу — клиент чего не любит пока ждать.
     Строго есть говоря, все поисковые всех системы есть черпают слов исходную мест информацию счет из одного всем и того же Web-пространства, поэтому даже исходные себе базы данных свои у них могут виде быть относительно дает похожи. И лишь на третьем язык этапе, при выдаче всех результатов есть поиска, каждая поисковая дает система ходе начинает плюс проявлять того свои лучшие всем (или худшие) индивидуальные сети черты. Операция базы сортировки знак полученных либо результатов называется сами ранжированием. Каждой ходе найденной счет Web-странице базе система идти присваивает весь какой-то рейтинг, который трех должен двух отражать долю качество того материала. Но качество сети — понятие базы субъективное, а программе базе нужны идет объективные роль критерии, которые трех можно этим выразить лишь числами, пригодными знак для сравнения.
     Высокие всем рейтинги пока получают если Web-страницы, у которых этой ключевое поле слово, использованное базу в, запросе, входит виде в заголовок. Уровень если рейтинга мене повышается, если это слово слов встречается быть на Web-странице пока несколько базы раз, но не слишком идут часто. Благоприятно влияет база на рейтинг этом вхождение свой нужного всех слова этом впервые лишь 5-6 абзацев доли текста знак — они считаются если самыми штук важными доли при индексации. По этой причине всех опытные этом Web-мастера знак избегают базу давать есть в начале если своих либо страниц свою таблицы. Для поисковой деле системы свои каждая ячейка виде таблицы этот выглядит, как абзац, и потому двух содержательный того основной быть текст слов как бы далеко этом отодвигается годы назад всех (хотя на экране язык это и не заметно) и перестает лишь играть свой решающую поле роль для поисковой если системы.
     Очень хорошо, если ключевые слова, использованные в запросе, входят в альтернативный текст, сопровождающий иллюстрации. Для поисковой системы это верный признак того, что данная страница точно соответствует запросу. Еще одним признаком качества Web-страницы является тот факт, что на нее есть ссылки с каких-то других этом Web-страниц. Чем их больше, тем лучше. Значит, эта Web-страница этом популярна этом и обладает базы высокимпоказателем дает цитирования. Самые зато совершенные всем поисковые системы чего следят того за уровнем ныне цитирования чего зарегистрированных ими Web-страниц лица и учитывают даже его при ранжировании.
Создатели есть Web-страниц базу всегда слов заинтересованы если в том, чтобы всех их просматривало база больше чего людей, поэтому свою они специально этим готовят страницы базы так, чтобы быть поисковые даже системы быть давали всем им высокий рейтинг. Хорошая, грамотная того работа быть Web-мастера всех способна значительно базе поднять виде посещаемость роль Web-страницы, однако знак есть и такие этим «мастера», которые идут пытаются базе обмануть долю поисковые системы пока и придать базы своим сайт Web-страницам язык значимость, которой в них на самом базы деле нет. Они многократно году повторяют лишь на Web-странице всем какие-то слова меню или группы свои слов, а для того чтобы быть те не попадались базе на глаза ходе читателю, либо делают базе их исключительно базы мелким всех шрифтом, либо применяют этом цвет текста, совпадающий поле с цветом счет фона. За такие убил «хитрости» поисковая этом система может роль и наказать базе Web-страницу, присвоив виде ей штрафной этот отрицательный двух рейтинг.
2 Обзор была функционирования базы поисковых лишь машин
2.1 Зарубежные долю поисковые базу системы: состав меню и принципы чего работы
     К числу паук самых счет признанных штук принадлежит AltaVista, мощнейший база аппаратный свой и программный поле потенциал, которой свой позволяет есть проводить лишь поиск весь по любому ходе слову если из текста ныне Web-страницы весь или статьи хотя в телеконференции паук (данные идут 1998 г.). AltaVista содержит двух сведения слов о 30 миллионах если Web-страниц пяти и статьях того из 14 тысяч одно телеконференций.
     Данная годы система того использует меню довольно даже сложный даже механизм доли составления этим запроса, включающий есть комбинации слов отдельных знак слов, словосочетаний идти и знаков мест пунктуации: кавычек, точек базы с запятой, двоеточия, скобок, плюса иное и минуса ходе или привычных доли булевых быть операторов базе AND, OR, NOT и NEAR (последние пяти в рамках если усложненного году поиска году - Advancedsearch). Их сочетание явно дает возможность базу наиболее лишь точно была составить меню поисковое сами предписание.
     Так, знак плюс, стоящий явно перед идти словом пяти означает, что этот термин быть обязательно этом должен виде присутствовать знак в документе, знак минус, наоборот, - отсевает свои все материалы, содержащие этом это понятие. Система либо допускает этом поиск чего по целой счет фразе идти (в этом случае лишь все словосочетание этот заключается лица в кавычки), а также базы поиск ряде с усечением весь окончаний, при этом в конце базы слова базы ставится быть "*". Например, для получения деле сведений сети обо всех русскоязычных долю документах, имеющих дает отношение слов к библиотечному базы делу, достаточно всем ввести дает "библиот*".
     Пользователям ныне также слов предоставлена этот возможность этом ограничивать свои запрос либо по дате создания/последнего этом обновления если документа.
     Поиск по всем словам текста декларирован и в HotBot, который на сегодня является самым мощным поисковым средством именно для WorldWideWeb (содержит сведения о 54 миллионах документов). Углубленный поиск - ExpertSearch в HotBot дает поразительно широкие возможности для детализации запроса.
     Это достигается пока за счет использования чего многоступенчатого убил меню, предлагающего базы различные чего варианты виде составления мест поискового мире предписания.
Можно лица осуществить идут поиск пяти по сочетанию даже в документе есть нескольких этих различных если терминов, поиск если по отдельной лишь фразе, поиск знак конкретного дает лица или электронного одна адреса. Для детализации даже запроса виде возможно если применение того условий двух SHOULD - "может базы содержать", MUST -"должен него обязательно этих содержать", MUST NOT - "не должен виде содержать" по отношению ходе к каким-либо понятиям.
     Интересным поисковым средством является Excite, также обеспечивающий полнотекстовый поиск на более чем 50 миллионах Web-страниц.
     Особенность быть работы меню с ним заключается этой в том, что запросы слов в эту систему виде водятся этот на естественном этом языке сети (конечно иной же на английском) так, как если бы мы спрашивали этом человека.
     Специальная трех система, сконструированная свои на основе свои Интеллектуального цвет извлечения всем понятий слов (IntelligentConceptExtraction) анализирует дело запрос деле и выдает базы ссылки этом на релевантные, по ее компьютерному лишь мнению, документы.
Практика, однако, показывает, что Excite корректно если обрабатывает есть только меню односложные всем запросы. Для получения этом информации если по многосложной меню тематике этот лучше чего пользоваться знак другими мест поисковыми либо средствами.
     Одной виде из современных этой систем, обеспечивающих базе поиск свои по всем словам если текста если является OpenText.
     Пользователь, однако, может быть по желанию штук ограничить были рамки деле поиска себе только если главными базе и наиболее быть значимыми этот фрагментами если Web-страницы: заглавием, первым язык заголовком, резюме, электронным лишь адресом свои (URL).
     Это очень если удобно, если требуется зато найти штук лишь главные если работы виде по какой-либо широкой есть тематике. Как и в предыдущих лишь случаях лишь наиболее есть трудные базы запросы этой выполняются поле с помощью чего усложненного либо поиска поле - PowerSearch.
     Его интерфейс дело позволяет есть довольно этом просто идти составить этап поисковое всем предписание, используя роль многоступенчатое этим меню.
     Это меню представляет виде собой счет строки быть для ввода идет терминов если с указанием него того в каких если полях роль должны лишь содержаться него искомые доли данные поле в сочетании всем с привычными быть операторами дает AND (и), OR (или), BUT NOT (но не), NEAR (рядом дает с) и FOLLOWED BY (следует двух за).
2.2 Русскоязычные если поисковые ходе системы: состав всем и принципы этой работы
В последние идет годы сложилась есть и практика надо коммерческого если рейтингования. Технически лишь они оснащены либо самыми если современными были средствами, соответствующими лица уровню году 2000 года, а общий штук размер свои Рунета деле (российского ряде сектора быть Интернета) сегодня того примерно базы таков, каким свои был западный базы сектор свою в 1994-1995 гг. Поэтому даже сегодня весь в России иное особых если проблем двух с поиском информации роль нет, и в ближайшее виде время ныне они не предвидятся. А в западном этой секторе если проблемы есть с поиском лишь очень лишь большие, и разные либо поисковые свои системы ныне пытаются виде по-разному свои их преодолеть. О том, как это происходит, мы и расскажем.
Из поисковых зато указателей свой в России была сегодня свой действуют базу три «кита» (есть и более одна мелкие рост системы, но мы останавливаться базы на них не будем). Это «Рамблер» (www.rambler.ru), «Яндекс» (www.yandex.ru) и «Апорт2000» (www.aport.ru).
Исторически чего наиболее база популярной свои поисковой сети системой одна является «Рамблер». Она начала плюс работать лишь раньше знак других базы и долгое того время быть лидировала всей по размеру виде поискового свою указателя сайт и качеству этом услуг свой поиска. Увы, сегодня виде эти достижения виде в прошлом. Несмотря на то, что размер явно поискового этим указателя этой «Рамблер» примерно того равен есть 12 миллионам счет Web-страниц, он давно роль толком виде не обновлялся зато и выдает мене устаревшие этом результаты. Сегодня сайт «Рамблер» -это популярный если портал, лучшая либо в России двух классификационно-рейтинговая поле система того (о том, что это такое, мы расскажем есть ниже) плюс рекламная даже площадка. Традиционно идет эта система него держит этой первое убил место сайт в России слов по посещаемости этом и имеет этой хорошие лишь доходы либо от рекламы. Но в развитие либо средств типа поиска всех средства, как мы покажем того ниже, не вкладываются.Самый иное большой этой указатель убил лежит базы в основе даже системы знак «Яндекс» -примерно если 27 миллионов иное Web-страниц, но дело не только базы в размере. Это не просто быть указатель этом на ресурсы, а указатель двух на самые всем актуальные лишь ресурсы. По уровню базу актуальности есть «Яндекс» сегодня — безусловный всем лидер. Система если «Апорт» выигрывает счет на третьем базы этапе: в момент база представления если информации счет клиенту. Она не стремится либо к созданию самого роль большого роль указателя если автоматическими если средствами, а вместо этом этого одна широко либо использует этом информацию либо из каталога идти @Rus, проходящую мест ручную если обработку. Поэтому этом система того выдает меню не так много него результатов, как ее ближайшие паук конкуренты, но зато эти результаты, как правило, точны даже и наглядно базы представлены.

3.Примеры него поисковых рода машин
2.1 Поисковая ряде система базу Google

Поисковая бота система, запущенная слов в 1998 году и являющаяся мене ныне единоличным базы лидером иной среди база глобальных свой поисковых если систем этом по всем значимым есть параметрам. Главное виде достоинство быть Google - объем всех его индексного мире файла, который вида составляет лица на сегодня было более сети 3 миллиардов иное web-страниц счет и статей того из групп паук новостей этом по интересам. В сутки база программы-роботы всем системы счет индексируют всех порядка даже трех миллионов либо новых даже и обновленных лишь страниц, при том, что актуализация году базы производится идет каждые есть 2.......................
Для получения полной версии работы нажмите на кнопку "Узнать цену"
Узнать цену
Каталог работ
Похожие работы: