Поисковые системы уже давно стали неотъемлемой частью российского Интернета. Сейчас – это огромные и сложные механизмы, представляющие собой не только инструмент поиска информации, но и заманчивые сферы для бизнеса. Поисковая система– аппаратно-программный комплекс, который предназначен для осуществления функции поиска в интернете, и реагирующий на пользовательский запрос который обычно задают в виде поискового запроса, выдачей ссылочного списка на информационные источники, осуществляющейся по релевантности (соответствию).
Самые распространенные и крупные системы поиска: Google, Bing, Yahoo, Baidu. В Рунете – Яндекс, Mail.Ru, Рамблер.
Основная задача каждой поисковой системы– доставить людям именно тот вид информации, который им нужен.
Все большие системы поиска имеют свою структуру, которая весьма отличается от других. Но все-таки можно выделить общие для всех поисковиков основные элементы.
В состав поисковой системы входяткомпоненты: 1. Модуль индексирования 2. База данных 3. Поисковый сервер
1.МОДУЛЬ ИНДЕКСИРОВАНИЯ. Данный компонент состоит из трех программ-роботов:
1)Spider (по англ. паук) – программа которая предназначена для того чтобы скачивать веб-страницы. «Паук» скачивает определенную страницу, одновременно извлекая из нее все ссылки. 2)Crawler («путешествующий» паук). Данная программа автоматически заходит на все ссылки, которые найдены на странице, а также выделяет их. Его задача – определиться, куда в дальнейшем должен заходить паук, основываясь на этих ссылках или исходя из заданного списка адресов
3)Indexer (робот-индексатор) – это программа, анализирующая страницы, которые скачали пауки. Индексатор полностью разбирает страницу на составные элементы и проводит их анализ, применяя свои морфологические и лексические виды алгоритмов.
Таким образом, модуль индексирования дает возможность проходить по ссылкам заданного количества ресурсов, скачивать страницы, извлекать ссылочную массу на новые страницы из полученных документов и делать подробный их анализ.
2.БАЗА ДАННЫХ - комплекс хранения данных, массив информации в котором сохраняются определенным образом переделанные параметры каждого обработанного модулем индексации и скачанного документа.
3.ПОИСКОВЫЙ СЕРВЕР - самый важный элемент всей системы, потому что от него зависит скорость и качество поиска.
Поисковый сервер работает следующим образом: • Запрос, который идет от пользователя подвергается морфологическому анализу. • Полученные данные передают как входные параметры специализированному модулю ранжирования. Они обрабатываются по всем документам, и в итоге для каждого такого документа рассчитывается свой рейтинг, который характеризует релевантность такого документа запросу пользователя, и иных составляющих. • В зависимости от условий заданных пользователем этот рейтинг вполне может быть подкорректирован дополнительными. • Затем генерируется сам фрагмент текста , т.е. для любого найденного документа из соответствующей таблицы извлекают заголовок, аннотацию, наиболее отвечающую запросу, и ссылка на этот документ, при этом найденные словоформы и слова подсвечивают. • Результаты полученного поиска передаются осуществившему его человеку в виде страницы, на которую выдают поисковые результаты.
Все эти элементы тесно связаны между собой и функционируют, взаимодействуя, образовывая отчетливый, но достаточно непростой механизм функционирования ПС, требующий громадных затрат ресурсов.
Таким образом, в современном мире существует огромное множество поисковых систем, их создают практически каждый день. Сейчас трудно представить компьютер и работу с ним без «поисковиков». Именно они дали возможность людям черпать информацию, обмениваться ей посредством создания своих источников, работать эффективней и учиться, находя нужную информацию в любое время суток.