Метапоиск и зачем он нужен

Dan Voronov
19 min readNov 24, 2021

Метапоисковые системы объединяют и ранжируют результаты сразу нескольких поисковиков. Эти поисковые системы были полезны, когда у каждой поисковой системы был уникальный индекс, и поисковые системы были менее «умными». Поскольку сейчас поиск намного улучшился, потребность в них уменьшилась. (вики)

Поиск через поиски. Когда мне надо найти в Интернет что-то я закидываю запрос в метапоисковик, он дальше раскидывает этот запрос на обычные поисковики и после что-то делает, чтобы из всех ответов собрать свою выдачу. Теоретически качество результата должно быть лучше чем у любого отдельного поисковика. Но для этого подпоисковики должны быть независимы.

История такова

Когда-то давным давно каждый искал по своему и гонка только начиналась. Году в 1998 к фавориту гонки поисковиков 90-ых Yahoo! пришли два студента (один из них родился в Москве) и предложили заплатить за придуманный ими алгоритм PageRank (просчет ценности страницы с точки зрения количества ссылающихся на неё) 1 млн долларов, а сами хотели дальше продолжить учится. В Яху посчитали их ну очень наглыми и ничего не дали: так что Лари и Сергею пришлось основать свой стартап — Google.

Забавно, что уже в 2000 Yahoo! вместо своего алгоритма перешли на поиск Google. В период 2003–2005–2007 Google обошел (в мире) других, но альтернатива была.

Рост Gogole

До 2002 года гугл обновляли свою базу данных и PageRank ранжирование приблизительно раз в месяц. С 2003 — каждый день, что создало целую индустрию SEO-оптимизации.

В 2003 году, когда Брин и Пейдж были в Москве, они ходили в «Яндекс». После встречи около года вели переписку с предложениями стать частью Google так как их поиск плохо работал с русским языком тогда.

С 1 июня 2005 года Google впервые начал использовать историю поиска для формирования выдачи на основе интересов и предпочтений. В 2008 если пользователь начинал вводить первые буквы запроса, то стали появяться поисковые подсказки. В 2012–14 года запустили аглоритм “Pirate”, который убрал из выдачи музыку, торрент, книги, итд.

табличка с той же википедии

Кроме того, постоянно использовали часть прибыли чтобы запихать свой поисковик по умолчанию куда только можно (даже в Firefox) и таким образом достигли доли поискового рынка порядка 80%.

https://youtu.be/tFq6Q_muwG0

Мне было интересно посмотреть официальный фильм о том, как меняли свой алгоритм.

В 2017 году внутренне разработали (см arxiv) языковую модель на основе нейронки — BERT [Bidirectional Encoder Representations from Transformers] она же DeepRank, в ноябре 2018 опубликовали на GitHub, а в октябре 2019 запустили для англоязычных поисков. С того момента и постепенно расширяясь на все запросы гугл старается искать не по ключевым словам, а по смыслу того что вы хотите узнать и учитывает контекст.

(Яндекс кстати тоже в конце 2019 перешел на версию «Вега» с использованием контекста и нейросети)

И качество у такого поиска стало как по мне очень хорошее. Как бы я не хотел не использовать их, сегодня выдача по ощущению содержит подходящие результаты. И это еще только начало, так как теперь разрабатывают новую модель [Multitask Unified Model], которая будет объединять не только текст, а и любой вид контента (фото, аудио, видео).

Этот график показывает всю глубину проблемы в 2021 году и никакие заявления “Мы не монополисты” тут не помогут:

доля гугла в 2021

доп: в некоторых странах (Россия и Китай итд) по разным причинам ситуация другая.

В 2007 Microsoft купила Yahoo! и с 2009 года их поиск работает на том же индексе что и Bing (в разное время время назывался MSN Search, Windows Live Search, Live Search), то есть в этом графике Yahoo! и Bing это одинаковая база данных о сайтах: результаты у них на первой страниц могут отличаться в основном местом: что-то выше, что-то ниже.

https://youtu.be/1a3WL1iOvnE Гугл летит как ракета

доп: Baidu похожа на китайскую копию Гугла и обслуживает “закрытый” китайский независимый Интернет. Интерфейс только на китайском. На русском ищет очень странно, как будто побуквено:

https://www.baidu.com/ как видит Киев китаец

Европейский ответ?

https://www.qwant.com/?l=en

Поисковик Qwant из Франции запущен в 2013 году. Свой индекс создают из сайтов Франции и Британии (и возможно Германии). Притом прикольно что можно искать по диалектам. И есть все прелести GDPR. Но это касается только той части ЕС и максимум пользы от него именно на французском. Для остальных языков, в том числе и русского, используется Microsoft Bing и передаются в Майкрософт данные о том, кто совершает запрос.

Запустить свой отдельный поисковик без больших технических ресурсов всё труднее и труднее.

Созданный с нуля независимый поисковик из Британии, заточенный под ЕС (Британия, Франция, Германия) https://www.mojeek.com на русском языке искать не умеет. Делают его с 2008 года и до сих пор качество выдачи оставляет желать лучшего. Зато 100% самостоятельны.

Не следят, используют свою технологию поиска, независимы и хостятся в зеленых датацентрах

Поиск на русском и украинском есть только у больших компаний: Гугл, Майкрософт и Яндекс.

Как позиционируют себя альтернативы?

Чтобы хоть как-то привлекать народ новые поисковики должны найти в чем слаб поиск от Google и Microsoft и предлагать это нам.

DuckDuckGo

Еще до блокировки Яндекса я перешел на DuckDuckGo (вики). Заметил, что Утка использовала для русскоязычных запросов именно Яндекс (“Yandex is one of many sources we use to provide search results. We primarily use Yandex when you have enabled the Russia region or when you perform searches in Russian.” — ответ тут три года тому). Но не следили.

https://duckduckgo.com/

А вообще, как DDG ищет сегодня уже дело тёмное, они только пишут что точно ничего не берут с Google и у них есть и свой бот-сканер интернета. Если посмотреть в архиве: до 2015 сообщали, что используют Bing, Yahoo!, Яндекс и Yummly — после, с 2016 эти упоминания убрали.

количество в миллионах запросов В ДЕНЬ на ddg

Также список внешних источников, с которых информацию подтягивают для блоков (Tripadvisor, MetroLyrics, StackOverflow точно) почему-то в середине 2021 выкосили, но веб архив то остался. Говорят, что им надо прятать свой код из-за конкуренции.

DDG в сути своей метапоисковик, который имеет в дополнение и свой индекс. Запросы как-то разделяются на свой индекс и на внешние источники.

У меня в таком запросе выдача с Яндексом расходиться:

Яндекс результаты поинтереснее, та же статья с ХАБР https://habr.com/ru/post/496764/

А в таком нет, и справа снизу подписано что результат с Яндекса:

Проблема в том что не понимаю когда что будет источником. Сейчас Утка для русского языка по ощущению выдаёт результаты не такие полезные как у Гугла и Яндекса. Будут ли они в будущем как-то это решать — не понятно.

С другой стороны с показом блока StackOverflow очень удобно получать ответ на вопрос о программировании не уходя с выдачи.

блок ответа с StackOverflow внутри DDG (темная тема)

Поисковик доступен и в виде чистой HTML версии и по .onion адресу для Tor сети.

Радует, что появившись в 2008 и создаваясь несколько лет всего одним человеком (Гэбриел Вайнберг, США), начав бурно развиваться в 2011–12, теперь УткаУткаГу насколько популярна [на сайте альтернатив у нее рейтнг (1349) даже выше поиска от Гугл (941)], что практически в любом браузере можно переключить поиск по умолчанию на нее. Браузеры Safari и Firefox включили во встроенный список поисковых систем в 2014 году.

С 2018 года это не просто поисковик, а и отдельный браузер для мобильных платформ. Сейчас в бете находится и почтовый сервис с защитой конфиденциальности. Запустили так же в Андройд версии систему отслеживания программ-трекеров.

DuckDuckGo позиционируется как:

  • конфиденциальная (не хранит IP-адреса, не ведёт лог пользовательской информации и использует куки минимально).
  • без «пузыря фильтров» то есть не ограничивает / персонализирует результаты поиска по пользователю, местоположению, политической ситуации в стране, итд.

Реально максимально обезличивает выдачу. И на сегодня основной заметный этичный конкурент Гугла (но к сожалению не по качеству русскоязычного поиска). Важно отметить, что в документации они говорят о сохранении себе текстов всех запросов с целью оптимизации поиска — это значит что если я что-то искал у них, это останется записано где-то там в базе. Но не привязано ко мне.

Догоняющий Brave

Недавно Brave такой браузер от Брендана Эйхома (США), создателя JavaScript — запустили в бета свой поисковик. Они идут в противоположном направлении: Утка от поиска к браузеру. С осени 2021 Брейв браузер по умолчанию будет искать не в гугле, а у себя.

Кроме защиты личной информации и честной выдачи они так же делают акцент на свой собственный индекс. В будущем после стадии бета появится (не таргетированная) реклама на своем собственном движке Brave Ads, которую можно будет отключить в платной подписке.

При этом по умолчанию всё таки включена легкая статистика— по каждому дню-неделе-месяцу сколько ты сделал запросов и нажимал ли кнопку “feedback”. Можно отключить в настройках. Так же можно сознательно податься на Web Discovery Project, где твои данные анонимно будут собираться с целью улучшения качества поиска.

https://search.brave.com/

Если в выдаче нажать Info появится надпись, вроде: “6% of results mixed from third-parties.” то есть что в этой выдаче 6% результатов были взяты извне. Как пишут в 99% случаев они выдают полностью свои результаты и будет написано “All results from Brave”. Есть общий замер независимости результатов по всем поискам: можно увидеть если нажать шестеренку справа сверху. На момент написания статьи это 87%.

По умолчанию фильтруют выдачу по геологации из IP адреса [весьма точно, вплоть до индекса] и отключить это или задать локацию вручную можно нажав на малозаметную кнопку справа под строкой поиска.

На youtube по запросу “brave search vs” можно посмотреть как люди оценивают выдачу (на английском языке) в сравнении с Гугл или Уткой. По моему ощущению:

  • Брейв чаще чем Утка вставляет википедию, в том числе огромной блок справа (на поиск “бобры” и “бобёр” да, а на поиск “бобер” нет). У Брейв есть прямо в выдаче вставка обложек с ютуб и сайтов-магазинов, что красивее и информативные. Так же есть показ блока вопросы-ответы (так понимаю, если он правильно размечен на индексируемом сайте).
  • С другой стороны разнообразие боковых блоков у Утки и Гугла шире. Но надо не забывать что Брейв в бета.
  • В выборе региона поиска есть Россия, но нет Украины. Но в “Все регионы” достаточно украинских сайтов.
  • На запрос “новости киева” Утка использует выдачу от Яндекса, где есть и УНИАН, но и русские ТВ канал и агентства. Брейв же выводит украинские новостные сайты, причем вкл-выкл использования геопозиции никак выдачу не изменило (возможно следствие отсутствия Украины в опциях).
  • Поиск в отдельном разделе “News” вообще ничего не находит в Брейв, а в Утке похоже с Яндекса. Интересно что если заменить просто на “киев” то оба поисковика показывают пустые результаты в разделе “News” — скорее всего потому что для такого запроса Утка не использует Яндекс.

В общем как по мне Брейв по крайней мере не уступает Утке при поиске на русском языке. При этом у него продуман и аккуратнее сделан алгоритм обращения к внешним источникам.

Переброс запроса

Если в Брейв добавить в конце поискового запроса !bing или !google то сработает переадресация, а если !mj то выдача с поисковика Mojeek будет на сайте Брейв. странно.

У Утки ж с самого начала есть целая система !бэнг реализации таких модификаторов поиска (на сегодня 13565 шт включая и !brave), которые всегда перебросят твой запрос на другой сайт.

Малоизвестный Whaleslide

Еще один поисковик стартап (Лондон. с 2011 года, на ютуб выложили видео-визитку о запуске 3 мая 2017)— whaleslide тоже “A private, ad free, ethical search engine” — приватный, без рекламы и этичный.

Постарались сделать дизайн в стиле минимализм и позиционируются так же как “для креативных” и филантропов. Результат из поиска можно добавить в коллекцию если создать профиль на сайте. Так же на их сайте можно жертвовать на благотворительность и (этичные) сайты, которые часть денег от прибыли отдают на такое дело в выдаче будут помечены специальным значком (в настройках можно выбрать каким).

https://whaleslide.com/

В интерфейсе поддерживает только два языка — английский и русский (внезапно). Украины в странах нет. Пишут что не определяют геолокацию для поиска и не передают никакой информации. Но кнопка “карты” сразу и напрямую перекидывает в Гугл.

Найти информацию как поиск работает внутри мне не удалось. По сравнению, выдача на русскоязычных запросах один в один не похоже ни на один из больших поисковиков. Ближе к Майкрософт (yahoo!/bing). Скорее всего используют какую-то смесь.

По тому, что на своем ютуб канале выложили только 3 видео 4 года тому, а социальные сети не обновляли с конца зимы 2021 создается впечатление что ковид таки победил их. Но пока поиск работает.

🔧 Сбор данных и Пузырь фильтров 🔧

почему нам предлагают отсутствие слежения и одинаковые результаты для всех?

Google как и другие большие поисковики замечен в таком:

(1) Что я искал?

Собирают и неконтролируемо пользователем используют в своих алгоритмах чужую личную информацию (которую называют не персональной: то ест это не Имя, не Фамилия, не Ник, а): всё что я искал, все места с которых я искал, все переходы по результатам и посещенные сайты. У гугла и партнеров привязывается к единому advertisement ID — у кого Андройд, тому будет очень трудно избавиться от профиля гугл.

Если я залогинен в профиль гугла, вся поисковая история еще объединяться с поисками и историей просмотров в ютуб, карте, плей маркет, итд итп. В настройках профиля гугл можно отключить запись истории разных типов поиска [но карта у меня продолжает сохранять недавние поиски и отключить это как я не нашел]. Подробнее см на лайфхакере.

это расширение от рекламных партнеров будет им говорить что вы не желаете персонализацию рекламы

Теоретически из справки на сайте Google можно отключить персонализированную рекламу у них и у 100+ партнёров, но практически это не сильно поможет, так как отключение персонализации привязывается к ID (они же должны знать кто попросил не следить за ним =) и всё равно “…показ рекламы будет зависеть от таких факторов, как ваше местоположение и контент сайтов, на которые вы заходите”. Значит за нами следят, просто не используют алгоритм более точных выводов из собранных данных. Даже есть у них расширение “не следите за мной” Protect My Choices, которое по сути, как я понимаю, делает обратное: позволяет им сразу определять что вы это вы на всех сайтах их сети.

Многие сайты стараются вычислить человека по разным его неявным следам (fingerprint) вроде подверсии ОС, языковых настроек, установленных плагинах браузера, размеру экрана итд. Ghostery как раз и борется с ними. И приватный поисковик свой Glowstery тоже собрали.

https://glowstery.com/

У Гугла есть и свой браузер, который Chrome (не путать с The Chromium Projects, движком с открытым кодом и на котором основан и Хром и Брейв и Опера и много чего) то он тоже много чего понасохраняет даже без необходимости в fingerprint-е о нас.

В противположность в Firefox встроили технологию котейнеров-вкладок (Container Tabs) — можно сделать чтобы всегда и фейсбук и гугл запускались как-бы в отдельных браузерах и не лезли куда их не просили.

Мы должны доверять Google и всем кому они передают наши данные в своей рекламной сети, да и всем хакерам которые утечки себе копируют хотя б из одной компании этой сети, что все будут вести себя этично и только для блага.

Гугл конечно не facebook, который пора похоронить [и название и логотип компании Цукерберг уже поменял] так как много раз были замечены в алгоритмах манипуляции личными данными во вред пользователю и его психическому состоянию, но всё же.

Как аргумент в обратную сторону часто приводят такой: ты же не платишь за использование поисковика, поэтому им приходится зарабатывать на извлечении твоих личных данных — тут товар ты и это честно. Ты ищешь информацию, они ищут людей. И даже стараются помочь тем, кто продает продавать именно тем, кому это больше всего нужно.

Как контраргумент: ну сделайте платную подписку на поиск без слежки и рекламы итд. Плюс они не только продают кому нужно, они находят наиболее психически уязвимые группы населения, которым трудно отказаться от покупки (многие простые мобильные игры фритуплей зарабатывают кучу денег буквально на десятке самых зависимых пользователей — найти их: вот клондайк).

Мне, вот, моя история поиска просто не нужна. Я не хочу её хранить не потому что там трешИугар или я думаю что я Важен кому-то, а потому что не умею и не хочу извлекать из нее какую-то дополнительную для себя пользу, а польза от таргетированной рекламы для меня сомнительна.

(2) Что я не увижу?

Вспоминаем ситуацию с картами: Яндекс Крым показывал как часть России, но если зайти по IP из Украины — то Украины. В Гугле для России — русский, для Украины — украинский, для остальных — спорная территория.

чудо захода с прокси из США (справа)

Тут заметно что результат немножечко не постоянен — есть некая манипуляция выдачей в зависимости от того, кто спрашивает. Хотя вот как лично вы бы решили, если надо выбрать один ответ про Крым?

Ситуация с изменением поиска в общем похожа на то, как если бы когда изобрели телеграф на одной стороне стучали конкретное сообщение, но до другой стороны приходило бы совсем другое в зависимости от политической ситуации. Понятно что телеграф часто использовался в политических целях, но сам телеграф всегда был телеграфом — просто инструментом точной передачи информации. С Гугл теперь не так.

И когда это не карта, а просто вывод текстовых результатов списка сайтов после запроса, мы в принципе не можем понять “а что оттуда изъяли?”. Кроме того, гугл как-то персонализирует поиск и значит разным людям в зависимости от собранных про них данных и сайтов, который они посещают, будут показываться разные результаты на одинаковый запрос. Можно показывать либо альтернативные позиции, либо поддерживающие точку зрения. Можно пробовать детектировать фейкньюз, а можно их продвигать.

И кто решает когда что?

мультик от Немецкой Волны https://youtu.be/d3xUQFIW290

Мы не сможем поймать гугл за тем, что же было убрано настройками их алгоритмов. Только знаем и гугл сам заявляет, что они сознательно приняли решение изменять поисковую выдачу чтобы соответствовать законам многих стран, бороться с фейкньюз и разжиганием ненависти.

Узнать сможем только если какой-то большой сайт, который есть в первой выдачи и постоянно сам мониторит свою позицию вдруг исчезнет надолго и по этому поводу поднимет шум где-то в соц сетях. Но это вам еще надо доказать, что вас в выдаче нет вообще, а не где-то на 13593384334 позиции. И что вас опустили специально, а не потому что другие сайты теперь более подходят.

Опять же, мы должны доверять гугл что они будут поступать этично. И тут напрягает прецедент, что в сентябре 2021 по просьбе России они выкосили приложение Навального из плеймаркера — опять же это заметно в маркете, а если они из своей поисковой выдачи поубирают часть неугодного, то мы и не заметим.

И ни у одного из конкурентов гугла на сегодня нет настолько мощной инфраструктуры сканирования интернета.

Следствие —базы данных конкурентов так или иначе не полоны и значит происходит обрезка выдачи на самом базовом уровне. Альтернативный поисковик просто не знает о существовании целого ряда сайтов. А гуг знает, но показывать нам не будет.

Гугл без гугла

Как было описано выше, есть альтернативные поисковики, которые уважают приватность — но качество выдачи у них по ощущению хуже чем у гугла, особенно не для английского языка.

Что еще можем придумать — использовать гугл не на прямую? Это один из подходов метапоиска.

Startpage

Проект startpage — обёртка над гуглом. Запустились в 2016. Посылая запрос на стартпейдже я взаимодействую с гуглом через посредника, тем самым решается проблема и приватности и показа персонализированного под меня-пользователя результата.

(!) Но, кстати, никак не решается проблема цензурирования на самом глубоком уровне, которая часть выдачи убирается для всех.

https://www.startpage.com/

Выводят свою рекламу только по тексту запроса —можно отключить в настройках. В язык интерфейса добавили польский, но ни русского ни украинского пока нет.

Доп спосбы анонимизации. Есть возможность хранить настройки не в куках, а генерировать специальную строку, добавив которую в закладки я буду их использовать. Или можно переключить “HTTP request method” на POST и запросы на поисковик будут посылаться внутри, а не в адресной строке — таким образом в истории браузера никогда не будет видно что искали.

Стартпейдж куплены в 2019 году компанией по таргетированной рекламе, что вызвало ряд дискуссии по поводу стоит ли доверять этому сайту и не собирает ли он сам данные, хотя везде пишет обратное. Это было б очень аморально.

По хорошему, для гугла все пользователи стартпейджа должны выглядеть как один. Но есть сомнения: возможно таки пересылается геопозиция, а возможно даже и IP адрес каждого, кто делает запрос — что позволяет выдачу менять.

Похожая идея с проксированием Гугла и у проекта gibiru, запущенного в 2009 году. Его фишка — разделение выдачи на общую и отцензурированую. Не знаю как они это вычисляют, но там обычно куча фейкньюз. Но интересно просто ради чтобы посмотреть.

https://gibiru.com/

Похожая штука, но с использованием результатов от Майкрософт Bing это ecosia. Их фишка в том, что они за 80% прибыли от контекстной рекламы сажают деревья по всему миру.

https://www.ecosia.org/

Сделай сам, Вугл

Если мы не будем ни на кого перекладывать работу по обёртыванию гугла, то уже есть готовые решения в виде кода, которые можно поставить себе на сервер. При этом код можно самому проверить и можно самому что-то дописать.

Проект Whoogle (на Python) с больше чем 4к звёздочек на гитхаб можно поставить как контейнер Docker, разместить по кнопке на Heroku или Repl.it.

https://s.alefvanoon.xyz/

Можно перед отправкой запроса включить расширенные настройки: выбрать и город и язык поиска и фильтр по стране и отключить безопасный поиск.

Я лично не пробовал Whoogle установить, так что ничего сказать не могу.

Но те публичные инстансы, что запущены: похоже гугл уже блокирует, это значит что стоит устанавливать не на очень популярные хостинги.

Есть еще похожий проект Goodgle в разработке на Deno — по сути на javascript и возможно из разработке и не выйдет.

Многие в одном

Цель метапоисковиков новой волны — перемешивания выдачи с разных поисковых систем для того, чтобы обойти их предвзятость. Ну и сохранять приватность.

И чем больше будет новых поисковых систем со своими независимыми индексами, тем лучше качество метапоиска.

metaGer из Германии

Сборщик результатов от нескольких поисковиков metaGer использует Bing и Scopia (движек, который доступен только через МетаГеар) и OneNewspage. Русского языка в интерфейсе нет, но в настройках поиска есть. Если выбрать русский, остается только Bing (тогда уже лучше ecosia использовать). Подписывает в результатах источник.

https://metager.org/

Настроек мало. Хотя радует возможность фильтровать выдачу по домену и наконец-то выкосить всё на фейсбук.

Так же есть более серьезный etools из Швейцарии. Судя по надписи снизу запущены в 1999 году (а судя по дизайну его никогда после не меняли). Закидывает запрос в 17 поисковиков и объеденяет их выдачу. Сейчас это: Ask (Гемания), Base (научные работы), Bing, Brave, DuckDuckGo, Exalead, Fastbot (только Германия), Google, Lilo, Mojeek, Moose (только Австрия), Qwant, Search (только Швейцария), Tiger (только Швейцария), Wikipedia (мировая), Yahoo, Yandex. Русского языка нет. То ли блокирует интернет запросы от украинских интернет провайдеров и тех бесплатных VPN сервисов, что я пробовал, то ли просто уже не работает и выдаёт ошибку.

🔎 searx чудо

SearX — бесплатный мощных настраиваемый движок для метапоиска. Код на Python (github) полностью открыт и может быть проверен. Проект запущен в 2014. До релизной версии 1.0.0 дошел 27 марта 2021 года.

Есть некоторая путаница с именами, так как в SearX один человек сделал форк return42 / searx. Когда мнение разработчиков разошлись, он отделился и запустил свой проект — SearXNG чтобы добавлять больше новых функций. Оригинальный SearX так же существует, но направлен больше на консервативность оставаться таким как есть.

темная тема

Есть русский интерфейс и возможность включить сразу поиск в нескольких вкладках с одной фразы.

Сам поисковик поделен на тематические вкладки:

  • общий текстовой поиск.
  • по картинкам.
  • по коду IT.
  • на карте.
  • по музыке.
  • по новостям.
  • научные текст.
  • социальные сети.
  • видео.
  • + файлы на торрентах (не у всех включен, так как часто там много нелегального контента лежит).

на каждую нужно настроить свой набор поисковых движков, куда отправятся запросы.

По аналогии с !бэнг тут есть тоже модификаторы, только они не переадресовывают на другой сайт, а внутри searx выводят результат только с данного источника.

Возможность для каждый системы поиска записать значимость её результатов (Weigth) от 1 до 100 есть только у того, кто хостит и правил конфиг settings.yml. Притом на самом сайте никак эти веса не выводяться. Если запустить searx на своем компьютере, то это можно под себя настроить.

Варианты поисковых движков есть в документации. Настройка двухуровневая: владелец определяет какие источники у него будут работать и какие включены, а я как пользователь дальше в настройках могу оключить-включить получения результата с любого из выбранных владельцем. Сохранить настройки свои либо в куки, либо в адресную строку (как закладку браузера тем же методом как у стартпейдж).

Минус — судя по форуму на github Яндекс борется все года против searx постоянно блокируя запросы. Может возвращать “CAPTCHA required” или просто ничего. В текущем списке из 88 публичных серверов только на 7 стоял Яндекс и это были старые версии searx. Только на одном из них только один раз я видел результаты из Яндекса. Остается надеяться что на моих запросах DuckDuckGo, который исправно работает почти у всех, подгрузит результаты Яндекса.

Поскольку это код, а не компания-поисковик, каждый у себя на компьютере (если там linux) или на хостинге может установить и запустить его. Нет одного Searx — есть много его работающих копий (это инстансами называется) на разных серверах с личными подстройками разных людей.

обычно доступно около 85 на выбор на https://searx.space/

Можно посмотреть какие инстансы публично открыты. Те, что пониже в списке будут достаточно медленно работать. На тех у кого версия 1.0 можно зайти на их статистику через имя/stats?sort=score (например)

Почти на каждом инстансе поиск ведет себя как-то по разному.

Каждый раз на получение результата от всех выбранных поисковиков дается определенное время и если хотя бы один из них не успел ответить или ответил неожиданно или блокирует данный сервер, то результаты будут отличается от тех, что были в таком же запросе несколько секунд тому.

Поэтому иногда имеет смысл один и тот же запрос выполнить раза три с интервалом в секунд 15 и посмотреть на выдачу.

На один и тот же запрос на русском языке (без подстраивания настроек) разные инстансы показывают разные результаты. А иногда вообще не ищут на русском, даже если специально выставить русский язык.

Можно сделать и приватный инстанс прям только для себя. Но плюс запуска открытого инстанса в перемешивание запросов от многих случайных людей. Из серкса для гугла все запросы будут приходить как от одного пользователя.
А если вместо гугла выбрать сатртпейдж у нас будет двойное дистанцирование: запрос → Searx → Startpage → Google. Но я заметил, что на большинстве публичных инсансов почему-то Startpage возвращает пустые результаты.

Если хочется использовать публичный инстанс Searx прийдется зайти на запущенные, попробовать поискать то что вы обычно ищете, покрутить настройки, почувствовать сущность данного инстанса и выбрать для себя тот, что более подходит. Потом эти настройки сохранить и уже использовать. Не один пока на прямую не заточен под русский язык.

Из тех, в которых Brave (мне интересна его выдача) возвращал не пустой результат я выбрал себе в закладки https://searx.be/ и сделал поиском по умолчанию в Firefox.

Обернул в телеграм бота

На многих публичных инстансах searx можно скачать результаты поиска в csv (таблица), rss или json. И даже подписаться на RSS фид. Но как оказалось если я хочу автоматически забирать, там почти всегда идет перегрузка от чьих-то автозапросов. Похоже ставят очень маленький лимит на количество роботов в минуту.

Поэтому пришлось искать инстанс, который хотя бы на обычную выдачу не блокирует роботов и уже с него парсерить результат. Это https://search.mdosch.de/stats?sort=score

Некие усредненные настройки на нём я добавил в телеграм бота https://t.me/mpskbot. Он по запросу в чат возвращает три верхних результата. Я вырезаю ссылки на закрытые сети: ‘facebook’, ‘вконтакте’, ‘linkedin’, ‘tiktok’. Порадуюсь, если вы им будете пользоваться.

Если что-то не работает, бот ничего не отвечает или по другим вопросам пишите мне в телеграм на @dan_voronov.

Если вам интересно, могу еще сделать статью разбор о децентрализированом поиске вроде https://www.meta-press.es/ и https://yacy.net/

--

--

Dan Voronov

http://danvoronov.com/ #creative #art #designthinking ♥️ #nonmonogamy #equality 👣 🛴 #КИЕВнасквозь