Question:
Les moteurs de recherche ont-ils besoin d'une autorisation pour lancer la recherche?
user17346
2018-04-01 21:04:12 UTC
view on stackexchange narkive permalink

Il y a quelques jours, je parlais à mes amis des moteurs de recherche et nous avons commencé à nous demander s'ils avaient ou non besoin de l'autorisation des sites Web pour les explorer. J'ai regardé celui-ci et il a dit sur Quora que vous n'avez pas vraiment besoin de permission pour les explorer car ils sont présents dans le domaine public et sont la propriété publique. Si les sites Web veulent la confidentialité, ils peuvent modifier leurs paramètres de manière appropriée.

Cependant, plus tard, j'ai parlé à quelques autres personnes qui ont dit que les moteurs de recherche comme Google et Bing ne se contentaient pas d'explorer tous les sites Web. Ils explorent uniquement les sites Web qui sont enregistrés sur leur référencement ou qui sont sur leur radar et leur classement - je n'ai pas vraiment bien compris cette partie - mais cela n'a pas beaucoup de sens non plus car ils auraient encore besoin d'explorer d'autres sites Web pour être mis à jour.

Ma question est la suivante: si j'avais un moteur de recherche qui fonctionnait à peu près comme Google, Bing, etc., pourrais-je simplement commencer à explorer et afficher les résultats, ou aurais-je besoin d'une autorisation spéciale des milliers de milliards de sites Web avant de pouvoir exécuter mon moteur de recherche?

Deux réponses:
user6726
2018-04-01 21:59:53 UTC
view on stackexchange narkive permalink

Le «domaine public» fait référence à des choses en principe sous copyright mais pour lesquelles la protection a expiré, a été désavouée ou est une exception statutaire (comme les œuvres gouvernementales). Un site Web n'est pas «du domaine public». L'idée selon laquelle un site Web est une "propriété publique" est (* toux *) erronée.

Il existe essentiellement deux façons dont une interaction Web pourrait être illégale. Le premier concerne la question de savoir si l'accès à l'ordinateur d'une autre personne équivaut à accéder illégalement à un ordinateur, ce qui est un crime. L'autorisation se résume essentiellement à une "permission": si le propriétaire me permet d'accéder à l'ordinateur, je suis autorisé. Mettre des choses là-bas sur un serveur Web est une autorisation illimitée de consulter une page Web. Cela signifie simplement que si je crée une page Web (avec un tas de liens ou non), je vous accorde la permission d'interagir avec mon ordinateur dans cette mesure. Il ne crée pas la permission de pirater un sous-répertoire protégé par mot de passe. Un robot d'exploration Web ordinaire automatise ce que fait un humain qui clique.

La loi sur les droits d'auteur est également pertinente, en ce sens que les éléments que j'ai mis sur ma page Web ne doivent pas être copiés sans autorisation. Tout accès à une page Web implique nécessairement une copie automatique d'une machine à l'autre: en mettant des choses là-bas pour que le monde puisse les voir, je dis que le monde peut faire ce niveau de copie automatique qui résulte d'interactions normales html-and-click. Cela ne signifie pas que vous pouvez télécharger et faire des choses avec mon contenu protégé par le droit d'auteur (c'est-à-dire que ce n'est pas un abandon du droit d'auteur: je n'ai pas mis ce contenu dans le domaine public). Mettre une page Web sur le marché de manière illimitée signifie que vous avez donné un certain niveau d'autorisation de "copier" (au moins dans le sens de l'affichage automatique de serveur à navigateur).

Il se peut que je veuille imposer des conditions à l'accès des personnes à mes contenus, afin de pouvoir imposer des conditions à ce type de contenu. Par exemple, je peux demander aux utilisateurs d'accepter certaines conditions avant d'accéder au sous-répertoire CoolStuff. Les utilisateurs doivent ensuite franchir un petit cercle et accepter ces conditions. Dans ce cas, mon autorisation est conditionnelle, et si vous violez les termes de cet accord, je pourrai peut-être vous poursuivre pour violation du droit d'auteur. Cela pourrait alors être une violation de mes conditions de service (TOS) si je dis "vous ne pouvez pas explorer mon site Web" (dans un langage moins vague). Un TOS tire son pouvoir juridique de la loi sur le droit d'auteur, car chaque interaction sur une page Web implique une copie (je suppose que le point technique est évident), et la copie ne peut être effectuée qu'avec autorisation. Vous pouvez technologiquement surmonter ma faible technologie de clic de sorte que le bot dise simplement «sûr de tout» et procède à l'utilisation illégale de ma page Web: je peux maintenant vous poursuivre pour violation du droit d'auteur.

Les méthodes spécifiques aux robots des balises meta et robots.txt n'ont aucune force légale. Bien qu'il existe un moyen de dire «non, vous ne pouvez pas», qui est adapté à l'accès automatisé, la signification et l'application de ces dispositifs n'ont pas encore atteint la loi. Si ma page utilise NOFOLLOW et que votre programme ne connaît pas ou ne s'en soucie pas, vous (votre programme) n'avez pas (encore) le devoir de comprendre, détecter et respecter cette balise. L'enregistrement préalable n'est pas non plus une obligation légale, et de très nombreuses pages qui figurent sur la liste principale d'exploration y parviennent en étant liées par la page Web de quelqu'un d'autre. Encore une fois, il n'y a actuellement aucune obligation légale de pré-enregistrement (et il n'y a pas de mécanisme efficace pour vérifier que le propriétaire du site a enregistré le site).

L'archivage et en particulier la réaffichage du contenu de quelqu'un n'est pas légal. Ce serait clairement une violation du droit d'auteur si vous deviez récupérer la page Web de quelqu'un d'autre et l'héberger. Vous pouvez analyser leur contenu et l'associer d'une manière ou d'une autre à certains termes de recherche et afficher un lien vers cette page, mais vous ne pouvez pas copier et republier leur contenu. Vous pouvez publier de très courts extraits tirés d'une page Web, selon la doctrine de «l'utilisation équitable», mais vous ne pouvez pas republier en gros une page Web. (Il convient de noter que archive.org est une bibliothèque internationalement reconnue et que les bibliothèques ont des pouvoirs statutaires supplémentaires pour archiver).

Ecoute, je vais être honnête. Je n'ai pas compris beaucoup de choses que vous avez dites. Cependant, je comprends certaines choses, avant même que vous les disiez, comme vous ne pouvez pas simplement copier la propriété de quelqu'un. Mais je ne parle d'aucune sorte de copie ou de vol de propriété. Je veux savoir que si j'avais un tout nouveau moteur de recherche que je voulais mettre là-bas pour afficher les résultats, dois-je obtenir la permission des billions de propriétaires pour explorer leurs sites Web ou puis-je explorer leurs sites Web simplement la même chose et s'ils veulent protéger la confidentialité par mot de passe ou quel que soit leur site Web pour cela? Précisez s'il vous plaît.
Je peux donc simplement sortir mon moteur de recherche et commencer à explorer les sites Web et à afficher leurs résultats sans aucun souci? C'est ce que vous dites, non?
Je pense que ce que vous dites à propos de "réafficher ... pas légal" est incorrect, ou du moins manque une nuance. Sinon archive.org, comme le premier exemple qui me vient à l'esprit, n'existerait pas.
@Kevin Le pire qui soit susceptible de se produire est qu'un opérateur de site interdira vos robots d'exploration. Si les résultats de votre site montrent des parties importantes protégées par le droit d'auteur d'autres pages (par exemple, des images, du texte textuel du site Web), le propriétaire peut réclamer une violation du droit d'auteur et vous poursuivre en justice.
Il y a eu des batailles en cours sur le contenu pouvant être affiché dans les résultats de recherche. Google a largement gagné le droit d'afficher des copies d'images à partir de sites Web, mais a récemment accepté de ne plus désactiver les fichiers en pleine résolution dans la recherche d'images: https://arstechnica.com/gadgets/2018/02/internet-rages-after- google-removes-view-image-button-bowing-to-getty / De plus, au-delà des fichiers robots.txt, un administrateur de serveur dispose également de mécanismes pour empêcher les robots d'accéder à leur site, car toutes vos pages sont régulièrement explorées par plusieurs les bots peuvent être ennuyeux.
Je ne suis pas sûr de comprendre ce que vous entendez par «parties du droit d'auteur». Je veux dire, comment Google et les autres moteurs de recherche fonctionnent, c'est qu'un utilisateur entre des mots-clés dans la barre de recherche et le robot d'exploration explore et affiche des liens liés aux mots-clés. Parfois, il y a des images, des vidéos, etc. liées aux mots-clés, mais finalement lorsque vous cliquez sur l'un des liens, vous êtes redirigé vers le site Web d'origine. Alors, où se pose exactement la question du droit d'auteur?
@kevin Par exemple, si mon site Web se compose de critiques de courts métrages, ces critiques sont mon contenu protégé par copyright. Si votre moteur de recherche affiche le texte intégral de mon avis dans vos résultats, je vais voir cela comme une violation de mes droits d'auteur, d'autant plus que cela élimine l'incitation pour quiconque à venir sur mon site. Quelque part entre «zéro» et «une quantité substantielle» de mon contenu sera acceptable. Google, Bing, etc. s'appuient sur des algorithmes pour déterminer les pages "à propos" et afficher ce contenu - parfois un résumé, parfois un extrait - dans les résultats de recherche.
@jeffronicus Exactement. Les moteurs de recherche affichent des liens et une brève description de l'objet du lien. Ils n'affichent pas le contenu réel. C'est ce que je veux dire, si une personne utilise un moteur de recherche utilisant le processus susmentionné, applique également d'autres processus tels que l'utilisation de métadonnées. Cela impliquerait que les liens résultants veulent être trouvés et donc pas question d'illégalité. Ai-je raison ou y a-t-il encore des aspects que je ne comprends pas?
"Archiver et surtout réafficher le contenu de quelqu'un n'est [...] pas légal" Êtes-vous sûr? Cela ressemble à [exactement ce que fait le cache de Google] (https://support.google.com/websearch/answer/1687222?hl=fr).
Il a été décidé en 2006 que le cache de Google ne violait pas les droits d'auteur: https://www.pinsentmasons.com/out-law/news/google-cache-does-not-breach-copyright-says-court
Jon
2018-04-04 15:38:06 UTC
view on stackexchange narkive permalink

Pas vraiment une réponse mais trop longtemps pour les commentaires.

Tout d'abord, je suggère fortement que l'OP fasse un peu de lecture en ligne sur le référencement (optimisation des moteurs de recherche), et regarde l'historique des moteurs de recherche en utilisant la recherche moteurs. OP pourrait facilement comprendre le cadre juridique qui permet aux moteurs de recherche de faire ce qu'ils font.

Google, Bing, Yahoo, etc. ne copient pas les pages Web. Ils indexent les pages Web. Comment exactement ils font cela est un secret commercial. Cependant, l'indexation consiste à décomposer un corps de texte en parties pertinentes pour accélérer la recherche d'un corps de texte particulier. Si vous regardiez l'index de cette page car il pourrait être stocké quelque part comme google, vous ne reconnaîtrez aucune partie de la page. La partie de la page qu'ils conservent est décomposée en phrases et en mots, perdant presque tout le contenu original et le contexte humain.

(Il existe une archive Internet https://web.archive.org/, elle ne contient que 325 milliards de pages, y compris quelques sites que j'avais l'habitude d'avoir. Ils peuvent avoir une page expliquant comment ils peuvent le faire sans être poursuivis.)

Dans l'index, ils stockent également un pointeur, qui est simplement l'URL de la page et un petit extrait de la page d'origine, qu'ils affichent avec Les resultats. S'ils archivaient réellement des pages, ils auraient besoin de plus de stockage de données, des centaines de fois plus, car le contenu réel d'une page ne représente qu'une petite quantité de données qui composent la page entière. Quelque chose comme le poids de l'encre par rapport au poids du livre.

Ils peuvent prendre et utiliser les pièces qu'ils font pour gagner de l'argent parce que cela est considéré comme une "utilisation équitable". De la même manière qu'un journal pourrait rédiger une critique de livre, en utilisant le titre et des extraits du livre qu'il examine. En effet, aux débuts d'Internet, quand ils ont déterminé le cadre juridique de base de la recherche et de l'indexation, je suis sûr qu'un avocat a fait cette comparaison.

Ils explorent uniquement les sites Web qui sont enregistrés sur leur référencement ou qui sont sur leur radar et leur classement - je n'ai pas vraiment compris cette partie - mais cela n'a pas beaucoup de sens non plus car ils auraient encore besoin d'explorer d'autres sites Web à mettre à jour.

Un site se fait remarquer en étant lié à un site déjà dans son index.

Donc oui, vous pouvez indexer tous les sites Web que vous vouloir. Vous ne pouvez tout simplement pas les copier et utiliser ces copies pour vos propres moyens sans autorisation. Mais avant de le faire, vous devez étudier les différences entre la copie et la dynamique actuelle avec l'utilisation équitable et l'indexation de parties d'un site et de son contenu associé, comme des images. Vous voudrez peut-être également vous familiariser avec l'exploration de données, qui est l'art d'écrire un programme qui erre sur Internet pour collecter des données, ce qui est tout ce qu'un robot de recherche est.



Ce Q&R a été automatiquement traduit de la langue anglaise.Le contenu original est disponible sur stackexchange, que nous remercions pour la licence cc by-sa 3.0 sous laquelle il est distribué.
Loading...