Еще совсем недавно эрудиция была в большой цене. Но сегодня знание всех мировых столиц и мельчайших исторических подробностей является абсолютно бесполезным. Вместо того чтобы пичкать свой мозг никому не нужными фактами, достаточно лишь знать, какие есть поисковики в интернете. Все остальное решит умнейший программный алгоритм.

Краткое описание поисковых систем

Поисковая система - это программная система, которая предназначена для поиска информации во Всемирной Паутине. Результаты запроса, как правило, представлены в виде страницы выдачи, состоящей из десятка коротких текстовых блоков (сниппетов) в сочетании с мультимедийным контентом.

Сегодня насчитывается около полутора десятка международных инструментов поиска данных. Все они действуют по одним и тем же принципам:

  1. За сбор информации отвечает краулер - робот (проще - специальная программа), который «ползает» с сайта на сайт и заносит в индекс различные типы данных (содержание страницы, программные сценарии, мета-теги и др.);
  2. После добавления в индекс, информация становится доступной для рядового пользователя через интерфейс поисковой строки;
  3. Выдача на странице результатов ранжируется особым образом. Ключевым показателем является релевантность - соответствие первоначальному запросу.

Как пользоваться поисковиком?

Разработчики этих систем сделали все возможное, чтобы работать с ними мог каждый, даже ребенок. И, нужно сказать, им это удалось:

  1. Для того чтобы обратиться к разуму поисковой машины, достаточно перейти на ее официальный сайт. Дизайн стартовых страниц может отличаться, но строка для ввода текста обязательно будет на самом видном месте;
  2. Еще более простой способ - задание запроса через адресную строку браузера. Большинство современных обозревателей поддерживают данную функцию;
  3. Если набор текста в конкретной ситуации затруднен или невозможен, можно воспользоваться функцией голосового ввода (запускается по нажатию иконки с микрофоном);
  4. Спустя доли секунды после обращения система выдаст результаты;
  5. Для ускорения поиска можно использовать логические операторы. Так, добавление знака «минус» перед словом исключит его из выдачи, знака «плюс» - сообщит поисковой машине, что данное слово обязательно должно быть в искомом тексте, а словосочетание в кавычках запускает поиск по точной фразе;
  6. Если найти нужную информацию не удалось - не беда. Никто не мешает воспользоваться другой службой. Приведем обзор главных игроков на этом рынке.

Обзор ключевых сервисов

На рубеже веков практически каждое государстве имело свой национальный поисковик. Однако по прошествии нескольких лет конкуренция оставила лишь нескольких глобальных игроков:

  • Google - неоспоримый лидер рынка. На него приходится львиная доля мирового поискового трафика. В развитых странах его доля колеблется от 80 до 90%. В России успехи машины не столь впечатляющи: лишь 40% доля;
  • Yandex - основной конкурент для Google в России, на данный момент занимает лидирующее место, по из-за смены поискового алгоритма в 2017 году постепенно стал терять свои позиции;
  • ‒ занимает третье место в рунете (около 5%), поиск от известной российской компании, входит в состав Mail.Ru Group, которой принадлежат социальные сети «Вконтакте», «Одноклассники», поисковик Nigma (про него опишем ниже), платежная система Qiwi и много чего другого.
  • Bing - служба от компании «Майкрософт». Лучшие результаты выдает прежде всего на английском языке. Русскоязычный сегмент практически не развит. Это, однако, не мешает Bing быть поисковиком № 2 в мире (7%);
  • Далее с небольшим отрывом следует китайская компания «Байду » , которая обслуживает в основном рынки Восточной Азии (Китай и Япония). На Западе и в России она мало известна;
  • Yahoo! - стояла у истоков современной сферы высоких технологий, но проиграла в конкурентной борьбе. Сегодня использует решение от «Майкрософт»;
  • Nigma - некогда популярная поисковая система, основанная российскими программистами в 2005 году, теперь почти потерявшая долю трафика;
  • Duckduckgogo - позиционирует себя как сервис, бережно относящийся к персональным данным юзеров (отсутствует сбор кэша и персонализация).

Яндекс: «наше все» в рунете

Разговор о поиске информации в сети был бы неполным без упоминания ключевого игрока на российском рынке - Яндекса. Ее основатели Аркадий Волож и Илья Сегалович запустили совместное предприятия задолго до появления на свет бренда Google. За много десятков лет поисковик выбился в топ крупнейших в мире (№4 с 2014 года).

Основная причина такого феномена заключается в высочайшем качестве сервиса:

  • Яндекс первым запустил поиск с учетом русской морфологии. Эта новация позволила ему в 2001 году обскакать тогдашнего гиганта IT-индустрии Рамблера;
  • С 2009 года служба стала учитывать регион проживания пользователя. Благодаря этому региональные сайты получили импульс к развитию;
  • В том же году был запущен алгоритм машинного обучения «Матрикснет», который значительно увеличил скорость и качество работы сервиса;
  • Параллельно развивался англоязычный сайт, для которого Яндекс арендовал офис в Калифорнии;
  • В 2012 году результаты запроса стали учитывать персональные предпочтения конкретного юзера.

Популярность системы постоянно растет: с 2001 по 2017 годы объем трафика увеличился в 280 раз. Но, как мы писали ранее, после кардинальной смены алгоритма в 2017 году, Яндекс стал терять долю своих посетителей в пользу Гугл, посмотреть полную статистику трафика рунета на текущий момент можно по ссылке .

Как удалить информацию о себе из поисковика?

Интернет является не только благом для всего человечества, но и потенциальным источником угроз. Некоторые из них создают значительную опасность для персональных данных рядовых пользователей. После попадания в сеть даже самые оскорбительные сведения удалить невозможно.

Так, по крайней мере, было до недавнего времени. С января 2016 года в России действует закон «О праве на забвение». Теперь каждый человек, которого не устраивает его репутация в виртуальном мире, может очистить ее вполне легальным способом. Для этого необходимо:

  1. Подать соответствующее заявление организацию, оказывающую поисковые услуги;
  2. Приложить все возможные доказательства ложности и неактуальности данных, которые предлагается удалить из выдачи;
  3. Большинство поисковиков облегчают задачу пользователям. Отправить соответствующую просьбу можно через специальную форму онлайн (для Яндекса);
  4. На протяжении десяти дней компания будет проверять заявление на наличие законных оснований;
  5. При положительном исходе информация подлежит удалению из индекса;
  6. Если оснований для удаления не установлено, организация уведомляет об этом заявителя.

Бессменный ведущий программы «Умницы и умники» Юрий Вяземский в одном из интервью упомянул, как обнаружил необычное слово у Булгакова и пытался найти его значение. Работа в библиотеке заняла целый год (!). Сегодня представить такую ситуацию невозможно: в интернете есть множество поисковиков. Один клик - и каждый может подключиться к мировому разуму.

Видеообзор анонимных поисковых систем

В данном ролике Антон Морозов расскажет, какие существуют поисковики, сохраняющие полную конфиденциальность пользователя:

На первый взгляд может показаться, что быть лучше Google может только «Яндекс», да и то не факт. Эти компании вкладывают в инновации и развитие огромные суммы. Неужели хоть у кого-то есть шанс не только соперничать с лидерами, но и побеждать? Ответ Лайфхакера : «Да!» Есть несколько поисковиков, которым это удалось. Давайте посмотрим на наших героев.

Что это

Это довольно известная поисковая система с открытым исходным кодом. Серверы находятся в США. Кроме собственного робота, поисковик использует результаты других источников: Yahoo! Search BOSS, «Википедия», Wolfram|Alpha.

Чем лучше

DuckDuckGo позиционирует себя как поиск, обеспечивающий максимальную приватность и конфиденциальность. Система не собирает никаких данных о пользователе, не хранит логи (нет истории поиска), использование файлов cookie максимально ограничено.

DuckDuckGo не собирает личную информацию пользователей и не делится ею. Это наша политика конфиденциальности.
Гэбриел Вайнберг (Gabriel Weinberg), основатель DuckDuckGo

Зачем это вам

Все крупные поисковые системы стараются персонализировать поисковую выдачу на основе данных о человеке перед монитором. Этот феномен получил название «пузырь фильтров»: пользователь видит только те результаты, которые согласуются с его предпочтениями или которые система сочтёт таковыми.

DuckDuckGo формирует объективную картину, не зависящую от вашего прошлого поведения в Сети, и избавляет от тематической рекламы Google и «Яндекса», основанной на ваших запросах. При помощи DuckDuckGo легко искать информацию на иностранных языках: Google и «Яндекс» по умолчанию отдают предпочтение русскоязычным сайтам, даже если запрос введён на другом языке.

Что это

« » - российская метапоисковая система, разработанная выпускниками МГУ Виктором Лавренко и Владимиром Чернышовым. Осуществляет поиск по индексам Google, Bing, «Яндекса» и другим, а также имеет собственный поисковый алгоритм.

Чем лучше

Поиск по индексам всех крупных поисковых систем позволяет формировать релевантную выдачу. Помимо этого, «Нигма» разбивает результаты на несколько тематических групп (кластеров) и предлагает пользователю сузить поле поиска, отбросив ненужные или выделив приоритетные. Благодаря модулям «Математика» и «Химия» можно прямо в строке поиска решать математические задачи и запрашивать результаты химических реакций.

Зачем это вам

Избавляет от необходимости искать один и тот же запрос в разных поисковиках. Кластерная система позволяет легко манипулировать результатами поиска. Например, «Нигма» собирает в отдельный кластер результаты из интернет-магазинов. Если вы не намереваетесь что-то покупать, то просто исключите эту группу. Выбрав кластер «Англоязычные сайты», вы получите выдачу только на английском. Модули «Математика» и «Химия» помогут школьникам.

К сожалению, в настоящее время проект не развивается, так как разработчики перенесли свою активность на вьетнамский рынок. Тем не менее «Нигма» пока не только не устарела, но в некоторых вещах по-прежнему даёт фору Google. Будем надеяться, что разработка возобновится.

Что это

not Evil - система, осуществляющая поиск по анонимной сети Tor. Для использования нужно зайти в эту сеть, например запустив специализированный браузер с одноимённым названием. not Evil не единственный поисковик в своём роде. Есть LOOK (поиск по умолчанию в Tor-браузере, доступен из обычного интернета) или TORCH (один из самых старых поисковиков в Tor-сети) и другие. Мы остановились на not Evil из-за недвусмысленного намёка на сам Google (достаточно посмотреть на стартовую страницу).

Чем лучше

Ищет там, куда Google, «Яндексу» и другим поисковикам вход закрыт в принципе.

Зачем это вам

В сети Tor много ресурсов, которые невозможно встретить в законопослушном интернете. И по мере того как ужесточается контроль властей над содержанием Сети, их число будет расти. Tor - это своеобразная Сеть внутри Сети: со своими социалками, торрент-трекерами, СМИ, торговыми площадками, блогами, библиотеками и так далее.

YaCy

Что это

YaCy - децентрализованная поисковая система, работающая по принципу сетей P2P. Каждый компьютер, на котором установлен основной программный модуль, сканирует интернет самостоятельно, то есть является аналогом поискового робота. Полученные результаты собираются в общую базу, которую используют все участники YaCy.

Чем лучше

Здесь сложно говорить, лучше это или хуже, так как YaCy - это совершенно иной подход к организации поиска. Отсутствие единого сервера и компании-владельца делает результаты полностью независимыми от чьих-то предпочтений. Автономность каждого узла исключает цензуру. YaCy способен вести поиск в глубоком вебе и неиндексируемых сетях общего пользования.

Зачем это вам

Если вы сторонник открытого ПО и свободного интернета, не подверженного влиянию государственных органов и крупных корпораций, то YaCy это ваш выбор. Также с его помощью можно организовать поиск внутри корпоративной или другой автономной сети. И пусть пока в быту YaCy не слишком полезен, он является достойной альтернативой Google с точки зрения процесса поиска.

Pipl

Что это

Pipl - система, предназначенная для поиска информации о конкретном человеке.

Чем лучше

Авторы Pipl утверждают, что их специализированные алгоритмы ищут эффективнее, чем «обычные» поисковики. В частности, приоритетными источниками информации являются профили социальных сетей, комментарии, списки участников и различные базы данных, где публикуются сведения о людях, например базы судебных решений. Лидерство Pipl в этой области подтверждено оценками Lifehacker.com, TechCrunch и других изданий.

Зачем это вам

Если вам нужно найти информацию о человеке, проживающем в США, то Pipl будет намного эффективнее Google. Базы данных российских судов, видимо, недоступны для поисковика. Поэтому с гражданами России он справляется не так хорошо.

Что это

Ещё один специализированный поисковик. Ищет различные звуки (дом, природа, машины, люди и так далее) в открытых источниках. Сервис не поддерживает запросы на русском языке, но есть внушительный список русскоязычных тегов, по которым можно выполнить поиск.

Чем лучше

В выдаче только звуки и ничего лишнего. В настройках поиска можно выставить желаемый формат и качество звучания. Все найденные звуки доступны для скачивания. Имеется поиск звуков по образцу.

Зачем это вам

Если вам нужно быстро найти звук мушкетного выстрела, удары дятла-сосуна или крик Гомера Симпсона, то этот сервис для вас. И это я выбрал только из доступных русскоязычных запросов. На английском языке спектр ещё шире. А если серьёзно, специализированный сервис предполагает специализированную аудиторию. Но вдруг и вам пригодится?

Жизнь альтернативных поисковиков часто бывает скоротечной. О долгосрочных перспективах подобных проектов Лайфхакер спросил бывшего генерального директора украинского филиала компании «Яндекс» Сергея Петренко.

Что касается судьбы альтернативных поисковиков, то она проста: быть очень нишевыми проектами с небольшой аудиторией, следовательно без ясных коммерческих перспектив или, наоборот, с полной ясностью их отсутствия.

Если посмотреть на примеры в статье, то видно, что такие поисковики либо специализируются в узкой, но востребованной нише, которая, возможно только пока, не выросла настолько, чтобы оказаться заметной на радарах Google или «Яндекса», либо тестируют оригинальную гипотезу в ранжировании, которая пока не применима в обычном поиске.

Например, если поиск по Tor вдруг окажется востребованным, то есть результаты оттуда понадобятся хотя бы проценту аудитории Google, то, конечно, обычные поисковики начнут решать проблему, как их найти и показать пользователю. Если поведение аудитории покажет, что заметной доле пользователей в заметном количестве запросов более релевантными кажутся результаты, данные без учёта факторов, зависящих от пользователя, то «Яндекс» или Google начнут давать такие результаты.

«Быть лучше» в контексте этой статьи не означает «быть лучше во всём». Да, во многих аспектах нашим героям далеко до Google и «Яндекса» (даже до Bing далековато). Но зато каждый из этих сервисов даёт пользователю нечто такое, чего не могут предложить гиганты поисковой индустрии.

Поисковые системы (ПС) уже приличное время являются обязательной частью интернета. Сегодня они громадные и сложнейшие механизмы, которые представляют собой не только инструмент для нахождения любой необходимой информации, но и довольно увлекательные сферы для бизнеса.


Многие пользователи поиска никогда не думали о принципах их работы, о способах обработки пользовательских запросов, о том, как построены и функционируют данные системы. Данный материал поможет людям, которые занимаются оптимизацией и , понять устройство и основные функции поисковых машин.

Функции и понятие ПС

Поисковая система – это аппаратно-программный комплекс, который предназначен для осуществления функции поиска в интернете, и реагирующий на пользовательский запрос который обычно задают в виде какой-либо текстовой фразы (или точнее поискового запроса), выдачей ссылочного списка на информационные источники, осуществляющейся по релевантности. Самые распространенные и крупные системы поиска: Google, Bing, Yahoo, Baidu. В Рунете – Яндекс, Mail.Ru, Рамблер.

Рассмотрим поподробнее само значение запроса для поиска, взяв для примера систему Яндекс.

Запрос обязан быть сформулирован пользователем в полном соответствии с предметом его поиска, максимально просто и кратко. К примеру, мы желаем найти информацию в данном поисковике: «как выбрать автомобиль для себя». Чтобы сделать это, открываем главную страницу и вводим запрос для поиска «как выбрать авто». Потом наши функции сводятся к тому, чтобы зайти по предоставленным ссылкам на информационные источники в сети.




Но даже действуя таким образом, можно и не получить необходимую нам информацию. Если мы получили подобный отрицательный результат, нужно просто переформировать свой запрос, или же в базе поиска действительно нет никакой полезной информации по данному виду запроса (такое вполне возможно при заданных «узких» параметров запроса, как, к примеру, «как выбрать автомобиль в Анадыри»).

Самая основная задача каждой поисковой системы – доставить людям именно тот вид информации, который им нужен. А приучить пользователей создавать «правильный» вид запросов к поисковым системам, то есть фразы, которые будут соответствовать их принципам работы, практически, невозможно.

Именно поэтому специалисты-разработчики поисковиков делают такие принципы и алгоритмы их работы, которые бы давали пользователям находить интересующие их сведения. Это означает, что система, должна «думать» так же, как мыслит человек при поиске необходимой информации в интернете.

Когда он вводит свой запрос в поисковую машину, он желает найти то, что ему надо, как можно проще и быстрее. Получив результат, пользователь составляет свою оценку работе системы, руководствуясь несколькими критериями. Получилось ли у него найти нужную информацию? Если нет, то сколько раз ему пришлось переформатировать текст запроса, чтобы найти ее? Насколько актуальная информация была им получена? Как быстро поисковая система обработала его запрос? Насколько удобно были предоставлены поисковые результаты? Был ли нужный результат первым, или находился на 30-ом месте? Сколько «мусора» (ненужной информации) было найдено вместе с полезными сведениями? Найдется ли актуальная для него информация, при использовании ПС, через неделю, либо через месяц?




Для того чтобы получить правильные ответы на подобные вопросы, разработчики поиска постоянно улучшают принципы ранжирования и его алгоритмы, добавляют им новые возможности и функции и любыми средствами пытаются сделать быстрее работу системы.

Основные характеристики поисковых систем

Обозначим главные характеристики поиска:

Полнота.

Полнота является одной из главнейших характеристик поиска, она представляет собой отношение цифры найденных по запросу информационных документов к их общему числу в интернете, относящихся к данному запросу. Например, в сети есть 100 страниц имеющих словосочетание «как выбрать авто», а по такому же запросу было отобрано всего 60 из общего количества, то в данном случае полнота поиска составит 0,6. Понятно, что чем полнее сам поиск, тем больше вероятность, что пользователь найдет именно тот документ, который ему необходим, конечно, если он вообще существует.

Точность.

Еще одна основная функция поисковой системы – точность. Она определяет степень соответствия запросу пользователя найденных страниц в Сети. К примеру, если по ключевой фразе «как выбрать автомобиль» найдется сотня документов, в половине из них содержится данное словосочетание, а в остальных просто есть в наличии такие слова (как грамотно выбрать автомагнитолу, и установить ее в автомобиль»), то поисковая точность равна 50/100 = 0,5.

Чем поиск точнее, тем скорее пользователь найдет необходимую ему информацию, тем меньше разнообразного «мусора» будет встречаться среди результатов, тем меньше найденных документов будут не соответствовать смыслу запроса.

Актуальность.

Это значимая составляющая поиска, которую характеризует время, проходящее с момента опубликования информации в интернете до занесения ее в индексную базу поисковика.

К примеру, на следующий день после возникновения информации о выходе нового iPad, множество пользователей обратилась к поиску с соответствующими видами запросов. В большинстве случаев информация об этой новости уже доступна в поиске, хотя времени с момента ее появления прошло очень мало. Это происходит благодаря наличию у крупных поисковых систем «быстрой базы», которая обновляется несколько раз за день.

Скорость поиска.

Такая функция как скорость поиска теснейшим образом связана с так называемой «устойчивостью к нагрузкам». Ежесекундно к поиску обращается огромное количество людей, подобная загруженность требует значительного сокращения времени для обработки одного запроса. Тут интересы, как поисковой системы, так и пользователя целиком совпадают: посетитель хочет получить результаты как можно быстрее, а поисковая система должна отработать его запрос тоже максимально быстро, чтобы не притормозить обработку последующих запросов.

Наглядность.

Наглядное представление результатов является важнейшим элементом удобства поиска. По множеству запросов поисковая система находит тысячи, а в некоторых случаях и миллионы разных документов. Вследствие нечеткости составления ключевых фраз для поиска или его не точности, даже самые первые результаты запроса не всегда имеют только нужные сведения.

Это значит, что человеку часто приходится осуществлять собственный поиск среди предоставленных результатов. Разнообразные компоненты страниц выдачи ПС помогают ориентироваться в поисковых результатах.

История развития поисковых систем

Когда интернет только начал развиваться, число его постоянных пользователей было небольшим, и объем информации для доступа был сравнительно невеликим. В основном доступ к этой сети имели лишь специалисты научно-исследовательских сфер. В то время, задача нахождения информации не была столь актуальна как сейчас.

Одним из самых первых методов организации широкого доступа к ресурсам информации стало создание каталогов сайтов, причем ссылки на них начали группировать по тематике. Таким первым проектом стал ресурс Yahoo.com, который открылся весной 1994-ого года. Впоследствии когда количество сайтов в Yahoo-каталоге существенно увеличилось, была добавлена опция поиска необходимых сведений по каталогу. Это еще не было в полной мере поисковой системой, так как область такого поиска была ограничена только сайтами, входящими в данный каталог, а не абсолютно всеми ресурсами в интернете. Каталоги ссылок весьма широко использовались раньше, однако в настоящее время, практически в полной мере утратили свою популярность.

Ведь даже сегодняшние, громадные по своим объемам каталоги имеют информацию о незначительно части сайтов в интернете. Самый известный и большой каталог в мире имеет информацию о пяти миллионах сайтов, когда база Google содержит информацию о более чем 25 миллиардов страниц.




Самой первой настоящей поисковой системой стала WebCrawler, возникшая еще в 1994-ом году.

В следующем году появились AltaVista и Lycos. Причем первая была лидером по поиску информации очень длительное время.




В 1997-ом году Сергей Брин вместе с Ларри Пейджем создал машину поисковую Google как исследовательский проект в Стэндфордском университете. Сегодня именно Google, самая востребованная и популярная поисковая система в мире.




В сентябре 1997-ом году была анонсирована (официально) ПС Yandex, которая в настоящий момент является самой популярной системой поиска в Рунете.




По данным на сентябрь 2015 года , доли поисковых систем в мире распределены следующим образом:
  • Google - 69,24 %;
  • Bing - 12,26 %;
  • Yahoo! - 9,19 %;
  • Baidu - 6,48 %;
  • AOL - 1,11 %;
  • Ask - 0,23 %;
  • Excite - 0,00 %


По данным на декабрь 2016 года , доли поисковых систем в Рунете:

  • Яндекс - 48,40%
  • Google - 45,10%
  • Search.Mail.ru - 5,70%
  • Rambler - 0,40%
  • Bing - 0,30%
  • Yahoo - 0,10%

Принципы работы поисковой системы

В России главной системой поиска является Яндекс, затем Google, а потом Поиск@Mail.ru. Все большие системы поиска имеют свою структуру, которая весьма отличается от других. Но все-таки можно выделить общие для всех поисковиков основные элементы.

Модуль индексирования.

Данный компонент состоит из трех программ-роботов:

Spider (по англ. паук) – программа которая предназначена для того чтобы скачивать веб-страницы. «Паук» скачивает определенную страницу, одновременно извлекая из нее все ссылки. Скачивается код html практически с каждой страницы. Для этого роботы используют HTTP-протоколы.




«Паук» функционирует следующим образом. Робот передает запрос на сервер “get/path/document” и иные команды запроса HTTP. В ответ программа-робот получает поток текста, который содержит информацию служебного вида и, естественно, сам документ.
  • URL скаченной страницы;
  • дата, когда осуществлялось скачивание страницы;
  • заголовок http-ответа сервера;
  • html-код, «тела» страницы.
Crawler («путешествующий» паук). Данная программа автоматически заходит на все ссылки, которые найдены на странице, а также выделяет их. Его задача – определиться, куда в дальнейшем должен заходить паук, основываясь на этих ссылках или исходя из заданного списка адресов.

Indexer (робот-индексатор) – это программа, анализирующая страницы, которые скачали пауки.



Индексатор полностью разбирает страницу на составные элементы и проводит их анализ, применяя свои морфологические и лексические виды алгоритмов.

Анализ проводится над разнообразными частями страницы, такими как заголовки, текст, ссылки, стилевые и структурные особенности, теги html и др.

Таким образом, модуль индексирования дает возможность проходить по ссылкам заданного количества ресурсов, скачивать страницы, извлекать ссылочную массу на новые страницы из полученных документов и делать подробный их анализ.

База данных

База данных (или индекс поисковика) - комплекс хранения данных, массив информации в котором сохраняются определенным образом переделанные параметры каждого обработанного модулем индексации и скачанного документа.

Поисковый сервер

Это самый важный элемент всей системы, потому что от алгоритмов, лежащих в основе ее функциональности, прямо зависит скорость и, конечно же, качество поиска.

Поисковый сервер работает следующим образом:

  • Запрос, который идет от пользователя подвергается морфологическому анализу. Информационное окружение любого документа, имеющегося в базе, генерируется (оно и будет в дальнейшем отображаться как сниппет, т.е. информационное поле текста соответствующего данному запросу).
  • Полученные данные передают как входные параметры специализированному модулю ранжирования. Они обрабатываются по всем документам, и в итоге для каждого такого документа рассчитывается свой рейтинг, который характеризует релевантность такого документа запросу пользователя, и иных составляющих.
  • В зависимости от условий заданных пользователем этот рейтинг вполне может быть подкорректирован дополнительными.
  • Затем генерируется сам сниппет, т.е. для любого найденного документа из соответствующей таблицы извлекают заголовок, аннотацию, наиболее отвечающую запросу, и ссылка на этот документ, при этом найденные словоформы и слова подсвечивают.
  • Результаты полученного поиска передаются осуществившему его человеку в виде страницы, на которую выдают поисковые результаты (SERP).
Все эти элементы тесно связаны между собой и функционируют, взаимодействуя, образовывая отчетливый, но достаточно непростой механизм функционирования ПС, требующий громадных затрат ресурсов.

Безусловным лидером по запросам в мире является поисковая система Google. Ежедневно поисковик обрабатывает более миллиарда запросов пользователей. Компания имеет самую большую долю (около 62%) всего рынка поисковых систем и предлагает пользователям множество онлайн-сервисов и инструментов, позволяющих наладить выдачу наиболее подходящих результатов. Робот Google сканирует в месяц около 25 млрд веб-страниц, что также является самым большим показателем для веб-поиска. По некоторым данным поисковик способен работать с информацией, размещенной в интернете на 195 языках и одинаково эффективно осуществлять ее поиск.

«Яндекс»

«Яндекс» занимает 4 место в мире по количеству обработанных запросов в день.

Первый по популярности поисковик в России. Изначально построенный на движке Google, на сегодняшний день «Яндекс» предлагает собственный алгоритм поиска, ориентированный на русскоязычных пользователей в России и странах СНГ. Поисковая система успешно справляется со своей задачей и предлагает как посетителям, так и веб-мастерам множество сервисов, способных не только улучшить качество выдаваемых результатов, но и сделать серфинг в интернете наиболее удобным.

Остальные поисковые системы

Существует великое множество популярных поисковиков: Yahoo, AOL, Ask, Mail.ru, «Рамблер». Некоторые поисковики используют заимствованные из других систем механизмы (например, QIP.ru использует движок Yandex).

Среди других поисковиков можно отметить не менее популярный Baidu, основная аудитория которого располагается на территории Китая. Поисковая система занимает 3 место в мире по количеству обработанных запросов. Сайт имеет собственные сервисы, например, энциклопедию, антивирусную программу, переводчик и т.п. Все большую популярность также набирает проект Bing от Microsoft, который также имеет свою долю на рынке и занимает 2 место в мире после Google по количеству траффика. Поисковик официально еще не был запущен в России, однако способен обрабатывать русскоязычные результаты. Поиск Bing по умолчанию используется в Internet Explorer и на телефонах и планшетах, работающих на платформе Windows Phone и Windows 8.

Бывают также узкоспециализированные поисковые системы. Например, можно выделить поисковики картинок (например, TinEye), грабберы (например, «Генон», который показывает содержимое других сайтов на своих страницах). Также существуют поисковые ресурсы с системой регистрации (DuckDuckGo).

Поисковая система - это один из ключевых уровней интернета наравне с контентом и браузером. «Яндекс»-поисковик или аналогичные системы («Гугл», «Бинг», DuckDuckGo и другие) позволяют пользователю осуществлять поиск информации во Всемирной паутине, формулируя запрос.

Работа же поисковой системы заключается в том, чтобы найти по этому запросу (ключевому слову или фразе) все документы, страницы, видео, то есть весь контент.

Какой поисковик самый лучший? Есть ли альтернативные варианты, что-то кроме «Гугла» и «Яндекса»? Какой поисковик интернета больше подходит для сканирования англоязычных источников или, например, музыки? Именно об этом и пойдет речь в статье.

Рейтинг: лидеры рынка

Если говорить о мире в целом, то «Гугл»-поисковик является самой популярной поисковой системой. Корпорация занимает практически 70% рынка. Вторую позицию рейтинга занимает «Бинг» (доля - 12,26%). Борьбу за вторую строчку с ним ведет система Baidu (6,48% по состоянию на сентябрь 2015 года). Время от времени они меняются местами.

Так, например, в 2014 «силы» были распределены по-другому: первое место занимал «Гугл»-поисковик с 68,69%, второе - Baidu (17,7%), третье - «Бинг» с капитализацией рынка в 6,22%.

Но общемировые данные очень обобщенные. Какой поисковик самый лучший?

В Китае, к примеру, очень небольшой процент населения сканирует «Гуглом», большинство использует отечественную систему Soso. В Южной Корее большая часть жителей пользуется собственной разработкой - поисковиком интернета Naver. Правда, в последние несколько месяцев количество запросов в этой системе начало стремительно снижаться.

В Японии и Тайване пользователи чаще других используют Yahoo!

Рейтинг: русскоязычные системы

Какой поисковик самый лучший? В России рейтинг поисковых систем совсем не похож на общемировой. Лидер рынка в русскоязычном сегменте интернета - это «Яндекс», которым пользуются более 55% пользователей.

На втором месте «Гугл» с результатом 37,6%. Согласно данным сервиса LiveInternet, охват русскоязычных поисковых запросов во Всемирной паутине распределился следующим образом:

  1. Универсальные поисковики: «Гугл» (37,6%), «Бинг» (0,3%), Yahoo! (0,1%).
  2. Англоязычные и международные (AskJeeves, например).
  3. Русскоязычные системы поиска: «Яндекс» (56,2%), Mail (5,3%), «Рамблер» (0,5%).

DuckDuckGo

Разговор об альтернативных поисковых системах стоит начать с поисковика DuckDuckGo. Это достаточно известная и распространенная система с открытым исходным кодом. Серверы DuckDuckGo находятся в Соединенных Штатах Америки. Результаты поиска довольно обширные, так как система использует не только собственные алгоритмы, но и результаты некоторых других источников, например, "Википедии", поисковика «Бинг» и Yahoo!

Поисковик DuckDuckGo обеспечивает максимальную безопасность личной информации пользователя, приватность и конфиденциальность. Система не собирает никаких данных о пользователях, не хранит историю и максимально ограничивает использование файлов cookie.

Отличие DuckDuckGo в том, что эта система не персонализирует поисковую выдачу, как это делают другие системы. В «Гугле» или «Яндексе», например, пользователь видит только ту информацию, которая согласуется с его предпочтениями. А вот DuckDuckGo формирует реальную картину и позволяет избавиться от навязчивой конкретной рекламы. Поисковый сервис легко ищет информацию на иностранных языках, тогда как «Яндекс» и «Гугл» по умолчанию отдают предпочтение русскоязычным источникам, даже если запрос введен на английском, немецком или другом языке.

В системе можно настроить интерфейс: изменять можно цветовое оформление, шрифты, ссылки и другие параметры всего в несколько кликов.

Пока еще этой поисковой системе далеко до гиганта «Гугла», но утёнок развивается, так что вполне возможно, что в будущем DuckDuckGo займет одну из лидирующих позиций. Команда создала отличный продукт, который обеспечивает анонимный, быстрый и функциональный поиск, заслуживающий внимания пользователя.

NotEvil

Это система, которая осуществляет поиск по анонимной сети Tor. Поисковая система предустановлена в одноименном браузере. Чем лучше notEvil? Он «проходит» туда, куда не могут добраться «Гугл» или «Яндекс»-поисковик. Вообще, в сети Tor очень много ресурсов которые нельзя посетить в «обычном» (законопослушном) интернете. Это такая себе площадка внутри сети со своими социальными платформами, торрент-трекерами, СМИ, блогами, торговыми центрами, форумами, библиотеками и так далее.

Кстати, notEvil - это не единственный в своем роде поисковик. Еще есть Look, который по умолчанию доступен в том же браузере «Тор», и TORCH - одна из самых старых систем поиска в анонимной сети.

YaCy

Бесплатный поисковик YaCy - это совершенно другой подход к организации поиска во Всемирной паутине. Система работает по принципу Р2Р. Это значит, что каждый компьютер, на котором установлен модуль, самостоятельно сканирует интернет, а потом все полученные результаты собираются в единую базу, которой могут пользоваться все пользователи YaCy.

Система полностью независима, автономна, обеспечивает анонимность каждого пользователя. YaCy подойдет сторонникам открытого интернета, который не подвержен влиянию крупных корпораций и государственных органов.

В быту поисковик пока что не очень полезен, зато в перспективе является достойной альтернативой «Гуглу» даже с точки зрения организации процесса поиска информации.

Pipl

Pipl - система, предназначенная для поиска информации о каком-то определенном человеке. Разработчики утверждают, что алгоритмы поисковика ищут людей эффективнее, чем распространенные во всем мире «Гугл» или «Яндекс».

Приоритетными источниками являются профили в социальных сетях комментарии, списки участников, базы данных, где публикуются разнообразные данные о людях, например, базы судебных решений. Но есть и недостаток. Для Pipl недоступны российские базы данных, так что он будет полезен только для поиска информации о гражданах США.

FindSounds

Какой поисковик самый лучший? Если нужно найти музыку или звуки, то, конечно, самым лучшим будет именно FindSounds. Это специализированный поисковик, где есть список тегов. Тут можно выбрать нужный формат аудиофайла или его качество. Все результаты поиска доступны для скачивания.

Wolfram|Alpha

Эта система выдает не страницы, на которых есть нужная пользователю информация, а готовый результат. Например, карты, графики, таблицы, короткие ответы. Сервис как нельзя лучше подходит для вычисления данных и поиска конкретных фактов. Поисковик пока понимает не все запросы, но постоянно развивается.

С помощью Wolfram|Alpha удобно, например, сравнивать параметры для настройки фотоаппарата, смартфона или ноутбука. Также вычислять уровень алкоголя в крови (система запрашивает у пользователя вес и рост, количество выпитого, время, а затем сообщает, через сколько алкоголь полностью выведется из организма).

Инструмент может конвертировать размеры обуви и одежды, считать калории, смотреть курсы валют или настраивать музыкальный инструмент.

Dogpile

Dogpile выводит результаты из выдач всех распространенных поисковых систем сразу. Сервис использует улучшенный алгоритм и, как уверяют разработчики, формирует самую лучшую выдачу в интернете. Кроме того, здесь мало рекламы. Можно попробовать воспользоваться Dogpile, если нужная информация никак не находится в стандартных «Гугле» или «Яндексе».

BoardReader

Эта система ищет информацию на форумах, опросах, сервисах вопросов и ответов, социальным сообществам, сужая поле поиска до социальных площадок. Можно выставить фильтры: язык и дату публикации, название сайта и тому подобное.

Поисковик может пригодиться специалистам по рекламе, которых интересует мнение аудитории.

В заключение

Часто альтернативные поисковые системы скоротечны. Они появляются также быстро, как и умирают. Большинство альтернативных систем на сегодняшний день специализируются на какой-либо узкой нише или тестируют оригинальный алгоритм в формировании результатов поиска.

В контексте описания альтернативных поисковых систем, критерий «лучше» совсем не означает «лучше во всем». Каждый из перечисленных выше сервисов дает конкретному пользователю что-то такое, чего нет в «Гугле» или «Яндексе». В любом случае, ознакомиться с альтернативными вариантами (на фоне того, что система кажется практически монополизированной поисковыми гигантами) интересно и полезно каждому пользователю.