Pas vraiment une réponse mais trop longtemps pour les commentaires.
Tout d'abord, je suggère fortement que l'OP fasse un peu de lecture en ligne sur le référencement (optimisation des moteurs de recherche), et regarde l'historique des moteurs de recherche en utilisant la recherche moteurs. OP pourrait facilement comprendre le cadre juridique qui permet aux moteurs de recherche de faire ce qu'ils font.
Google, Bing, Yahoo, etc. ne copient pas les pages Web. Ils indexent les pages Web. Comment exactement ils font cela est un secret commercial. Cependant, l'indexation consiste à décomposer un corps de texte en parties pertinentes pour accélérer la recherche d'un corps de texte particulier. Si vous regardiez l'index de cette page car il pourrait être stocké quelque part comme google, vous ne reconnaîtrez aucune partie de la page. La partie de la page qu'ils conservent est décomposée en phrases et en mots, perdant presque tout le contenu original et le contexte humain.
(Il existe une archive Internet https://web.archive.org/, elle ne contient que 325 milliards de pages, y compris quelques sites que j'avais l'habitude d'avoir. Ils peuvent avoir une page expliquant comment ils peuvent le faire sans être poursuivis.)
Dans l'index, ils stockent également un pointeur, qui est simplement l'URL de la page et un petit extrait de la page d'origine, qu'ils affichent avec Les resultats. S'ils archivaient réellement des pages, ils auraient besoin de plus de stockage de données, des centaines de fois plus, car le contenu réel d'une page ne représente qu'une petite quantité de données qui composent la page entière. Quelque chose comme le poids de l'encre par rapport au poids du livre.
Ils peuvent prendre et utiliser les pièces qu'ils font pour gagner de l'argent parce que cela est considéré comme une "utilisation équitable". De la même manière qu'un journal pourrait rédiger une critique de livre, en utilisant le titre et des extraits du livre qu'il examine. En effet, aux débuts d'Internet, quand ils ont déterminé le cadre juridique de base de la recherche et de l'indexation, je suis sûr qu'un avocat a fait cette comparaison.
Ils explorent uniquement les sites Web qui sont enregistrés sur leur référencement ou qui sont sur leur radar et leur classement - je n'ai pas vraiment compris cette partie - mais cela n'a pas beaucoup de sens non plus car ils auraient encore besoin d'explorer d'autres sites Web à mettre à jour.
Un site se fait remarquer en étant lié à un site déjà dans son index.
Donc oui, vous pouvez indexer tous les sites Web que vous vouloir. Vous ne pouvez tout simplement pas les copier et utiliser ces copies pour vos propres moyens sans autorisation. Mais avant de le faire, vous devez étudier les différences entre la copie et la dynamique actuelle avec l'utilisation équitable et l'indexation de parties d'un site et de son contenu associé, comme des images. Vous voudrez peut-être également vous familiariser avec l'exploration de données, qui est l'art d'écrire un programme qui erre sur Internet pour collecter des données, ce qui est tout ce qu'un robot de recherche est.