Internet

¿Qué es un sitio Scraper?

Un sitio scraper es un sitio web que extrae contenido de otras fuentes y lo vuelve a publicar, generalmente sin atribución. Dichos sitios se mantienen por diversas razones y son motivo de gran preocupación para muchos productores de contenido legítimos en Internet, ya que plantean una serie de problemas. La mayoría de los sitios de raspadores violan la ley de derechos de autor al reimprimir contenido sin consentimiento y sin acreditar al autor, y también causan estragos en los resultados de los motores de búsqueda y la clasificación de sitios, lo que puede dificultar que los usuarios de Internet encuentren los sitios que realmente quieren ver.

La característica clave de un sitio de raspador es que utiliza medios automatizados para recolectar contenido de otros sitios. La práctica de recopilar contenido se conoce como "raspado", y se puede lograr de varias maneras, desde la descarga de sitios completos hasta la extracción de contenido de fuentes generadas en RSS, XML y Atom para el beneficio de los lectores que desean suscribirse a un sitio, en lugar de visitarlo constantemente para buscar material nuevo. Una vez raspado, el contenido se levanta literalmente y se instala en un nuevo sitio.

La mayoría de los sitios scraper se mantienen con el propósito de generar ingresos publicitarios a través de anuncios vinculados con el sitio. Las personas pueden buscar algo inocentemente, aterrizar en el sitio del raspador y luego hacer clic en los anuncios por confusión. Los sitios de raspadores también se utilizan en la agricultura de enlaces, una práctica que implica el mantenimiento de varios sitios que se vinculan entre sí, lo que infla los rankings de los motores de búsqueda.

Cuando se roba el contenido, frustra al creador original porque viola la ley de derechos de autor y porque el sitio de raspador puede privar al propietario del contenido original de ingresos. Muchos webmasters utilizan una variedad de técnicas en un intento por derrotar a los sitios de raspadores, y algunos han pedido acción por parte de los motores de búsqueda y las compañías de publicidad, pidiéndoles que eliminen de la lista los sitios de raspadores o los hagan menos rentables para que la práctica sea menos atractiva.

En los casos en que un sitio de raspador acredita al creador, esto también puede dañar al creador haciendo que parezca que su sitio está en un "vecindario malo", con una gran cantidad de enlaces de spam en lugar de enlaces de sitios respetados. Como resultado, las clasificaciones en los motores de búsqueda pueden caer, y el propietario del sitio puede ser incapaz de hacer algo al respecto, ya que los propietarios del sitio no pueden controlar quién los vincula.

Obtener un sitio de raspador para eliminar contenido protegido por derechos de autor puede ser extremadamente desafiante, ya que muchos de estos sitios usan capas de subterfugios para ocultar a sus propietarios. Algunos webmasters frustrados van directamente a la compañía que aloja el sitio de scraper, citando violaciones de derechos de autor y solicitando una eliminación inmediata del contenido en disputa.

Técnicamente, los motores de búsqueda y los sitios de agregación de noticias también podrían considerarse sitios raspadores. Sin embargo, dado que estos sitios se mantienen para el bien público y debido a que su uso de material cae bajo las pautas de uso justo, estos sitios generalmente no están agrupados con sitios de raspadores dañinos.