Rastreo web o web scraping: Qué es, para qué sirve?

El rastreo web o web scraping, es un conjunto de métodos usados para conocer el contenido de una página web, de forma automática, con el fin de poder clasificar información de acuerdo a su etiquetado html (DOM).

Web Scraping
Web Scraping

Por otro lado encontramos en la web el caso del crawling, donde el rastreo se basa en la búsqueda de links en una página web, para luego rastrear estos nuevos destinos, para buscar nuevos links, y así sucesivamente. Estos bots encargados de este tipo de rastreos, se los conoce como arañas. Así es como funciona el rastreo que hacen los motores de búsqueda tales como Google, Bing, Yahoo, etc.

Las técnicas de web scraping permiten tomar datos no estructurados, provenientes del código html (DOM) de una página web, con el fin de identificar cierto tipo de contenido según las etiquetas de su código, y de ahí ser extraídos estos datos, para ser devueltos en una estructura json, o guardadas en un archivo plano, en un excel, en una base de datos, o para reportarse en otro sitio web.

Para qué se sirve el rastreo o web scraping?

Este tipo de automatizaciones tiene una gran variedad de usos, gracias a que se puede extraer información pública de uno o más sitios web, en cualquier momento, sin una intervención manual.

Por ejemplo, una compañía o un sector económico puede recolectar automática y eficientemente, información de su competencia o proveedores, como pueden ser sus productos y precios públicos, sin gastar mucho tiempo y esfuerzo en ello.

Otro ejemplo es cuando se está interesado en conocer los precios de ciertos productos, en las páginas de grandes e-shops, como por ejemplo Amazon, e-Bay, Alibabá, Linio, MercadoLibre, etc. De este modo, se pueden obtener con prontitud, los precios de productos que pueden ser atractivos para ser comprados, en temporadas de promociones, o cuando hay variaciones de precios estacionales o por otros factores. También se podría recibir información de primera mano, cuando nuevos productos entran al mercado, para tomar decisiones de compra con prontitud, para aprovechar las novedades del mercado.

Otros usos de estos algoritmos de web scraping, se basan en la consolidación de información de varias páginas de un sector en particular, por ejemplo en el sector inmobiliario, para ofrecer en un un único sitio, comparativas de precios, ubicaciones, formas de financiación, o para hacer un estudio de mercado, etc.

A nivel informativo, también se pueden crear sitios web, que consoliden información que viene de varias fuentes, como por ejemplo en este sitio web de Vendiendo.co, se muestran los últimos resultados de las loterías de Colombia.

También se usan estas técnicas de forma poco legal, por ejemplo para copiar automáticamente contenido de blogs, publicaciones científicas, sitios de noticias, etc. con el fin de crear nuevos contenidos, para atraer audiencia a ciertas páginas. Este tipo de prácticas conllevan infracciones a las leyes de protección de datos, o de propiedad intelectual, que lógicamente pueden acarrear problemas penales con las autoridades.

En conclusión, el rastreo o web scraping, es una técnica que puede ser usada para recolectar datos no estructurados de los sitios web, para clasificarlos y consolidarlos, para su uso en diversos tipos de aplicaciones y negocios.

Este artículo hace parte del sistema de divulgación de conocimiento de ITSoftware SAS.

Si te gustó, no te olvides compartirlo en las redes sociales. ;).

Deja un comentario

Tu dirección de correo electrónico no será publicada.

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.