YaCy: un moteur de recherche OpenSource évitant la censure !

Il s’agit d’un moteur de recherche Open Source et surtout, Peer to Peer (P2P). YaCy, contrairement à Google, Yahoo et autres n’est donc pas soumis à la censure.  C’est à dire, qu’il n’est pas sous l’autorité d’une société privée ou d’un pays.

Présentation

Une instance de YaCy partage ainsi son index avec d’autres pairs, cela lui permet aussi de résister à la suppression de fichiers. Vos recherches sont effectuées sur votre instance YaCy et ne sont donc communiquées à personne.

Vous pouvez le configurer de plusieurs façons:

  • en peer to peer (partage des portions de web avec les autres)
  • en autonome pour choisir les portions de web (à vous de les définir)
  • en local pour utiliser des pages web stockées localement (en choisissant les répertoires)
  • intégration de l’API d’une fenêtre de recherche dans un site Web ou widget de recherche

YaCy se décompose en 4 modules : un web crawler, un moteur d’indexation, une base de données et une interface utilisateur. Il est possible de rechercher: du texte,des images,des vidéos et des applications.

Pour une recherche limitée sur un site particulier, il suffit d’indiquer:  “mot site:le_site.com”, mot étant le mot à rechercher sur le site en question.

Les résultats sont très différents de ceux de google, pas forcément meilleurs, il peut donc être un complément de recherche.

YaCy comprend des composants utiles à la mise en réseau, à l’administration, à la maintenance de l’indice avec une gestion des listes noires (black-lists), à la modération de la communauté… La figure suivante montre les différents composants de YaCy:

Yacy communique sur sa philosophie sur la société actuelle et l’accès à l’information. En résumé ils mettent l’accent sur: le respect des droits individuels et de la vie privée,l’écologie du fait du non besoin de data-centers etl’égalité: tous les individus ont les mêmes droits.

Installation

Voici une série de vidéo pour vous aider à mettre en place cet outil:

Il faut télécharger le logiciel et l’installer l’appli sur son poste pour pouvoir l’utiliser. Elle existe en version Windows, Linux et Mac Os.

Il vous donne la possibilité d’exécuter votre portail de recherche sur votre poste en local ou sur un serveur dédié.

Par défaut, à l’installation, c’est le mode intranet qui est activé. Cela signifie que l’application va scanner tous vos dossiers et indexer les documents. C’est bien entendu paramétrable et vous pouvez aussi passer en mode web.

L’option du milieu est tout aussi intéressante: vous pouvez préciser quelques portails et faire en sorte que le système indexe de lui-même toutes les pages de ces derniers. Ainsi, la recherche n’est pas polluée par d’autres résultats.

Et évidemment, la première option consiste à partager avec les autres ses contenus indexés !  (pas en local bien sûr). Imaginez: vous avez un blog et vous souhaitez augmenter ses visites – il suffit de l’indexer et de partager ! Bon, l’idée principale c’est quand même d’échapper à la censure !  (en terme de moteur de recherche, car si on vous supprime votre nom de domaine, y-a plus qu’à pleurer ou aller sur le darknet).

Peu importe le choix, on peut ajouter un balayage de site en utilisant le menu “charger des pages web, balayeur”. Ce qui est top, c’est que si je prend l’exemple de mon blog, je peux faire en sorte d’indexer tous les liens relatifs à ce dernier, c’est à dire tous les articles et autres sites qui m’ont intéressés ! Regardez ce joli index en cours de création et que je vais partager avec tout le monde (cliquez pour agrandir):

Voir le processus en cours d’indexation (chez moi):

La capture ci-dessous correspond à une recherche “Unreal Engine” sur mon propre nœud car “mode furtif” est activé. Si je clique sur “Pair à Pair”, alors j’utilise les nœuds externes du P2P:

Donc, si vous avez une tonne de livres en PDF, des documents dans tous les sens, et des sites préférés bourrés d’infos utiles, ce moteur est aussi fait pour vous ! Vous pourriez même mettre en place un petit serveur Raspberry PI qui s’occupe de tout et que vous pouvez accéder de n’importe où. C’est votre moteur de recherche  ! Et plus si affinité.

Le coté API m’attire bien aussi. Comme je bosse sur Machine Learning en ce moment, cela pourrait être une aide précieuse pour mes tests.

Ces articles pourraient aussi vous intéresser …

Le gros live #2

Au programme:  Les news du blog, Veille techno: UE4.22/Raytracing, Paint3D, Rocket3F, VRoid Studio, Scripting UE4 et...