{"id":9395,"date":"2022-08-08T10:53:06","date_gmt":"2022-08-08T15:53:06","guid":{"rendered":"https:\/\/itsoftware.com.co\/content\/?p=9395"},"modified":"2022-08-08T11:46:33","modified_gmt":"2022-08-08T16:46:33","slug":"rastreo-web-o-web-scraping-que-es-para-que-sirve","status":"publish","type":"post","link":"https:\/\/itsoftware.com.co\/content\/rastreo-web-o-web-scraping-que-es-para-que-sirve\/","title":{"rendered":"Rastreo web o web scraping: Qu\u00e9 es, para qu\u00e9 sirve?"},"content":{"rendered":"\n<p class=\"wp-block-paragraph\">El rastreo web o <strong>web scraping<\/strong>, es un conjunto de m\u00e9todos usados para conocer el contenido de una p\u00e1gina web, de forma autom\u00e1tica, con el fin de poder clasificar informaci\u00f3n de acuerdo a su etiquetado html (DOM).<\/p>\n\n\n<div class=\"wp-block-image\">\n<figure class=\"aligncenter size-full\"><img fetchpriority=\"high\" decoding=\"async\" width=\"500\" height=\"369\" src=\"https:\/\/itsoftware.com.co\/content\/wp-content\/uploads\/2022\/08\/web-scraping-its.jpg\" alt=\"Web Scraping\" class=\"wp-image-9390\" srcset=\"https:\/\/itsoftware.com.co\/content\/wp-content\/uploads\/2022\/08\/web-scraping-its.jpg 500w, https:\/\/itsoftware.com.co\/content\/wp-content\/uploads\/2022\/08\/web-scraping-its-300x221.jpg 300w\" sizes=\"(max-width: 500px) 100vw, 500px\" \/><figcaption>Web Scraping <\/figcaption><\/figure>\n<\/div>\n\n\n<p class=\"wp-block-paragraph\">Por otro lado encontramos en la web el caso del <strong>crawling<\/strong>, donde el rastreo se basa en la b\u00fasqueda de links en una p\u00e1gina web, para luego rastrear estos nuevos destinos, para buscar nuevos links, y as\u00ed sucesivamente. Estos bots encargados de este tipo de rastreos, se los conoce como ara\u00f1as. As\u00ed es como funciona el rastreo que hacen los motores de b\u00fasqueda tales como Google, Bing, Yahoo, etc.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Las t\u00e9cnicas de web scraping permiten tomar datos no estructurados, provenientes del c\u00f3digo html (DOM) de una p\u00e1gina web, con el fin de identificar cierto tipo de contenido seg\u00fan las etiquetas de su c\u00f3digo, y de ah\u00ed ser extra\u00eddos estos datos,  para ser devueltos en una estructura json, o guardadas en un archivo plano, en un excel, en una base de datos, o para reportarse en otro sitio web.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Para qu\u00e9 se sirve el rastreo o web scraping?<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Este tipo de automatizaciones tiene una gran variedad de usos, gracias a que se puede extraer informaci\u00f3n p\u00fablica de uno o m\u00e1s sitios web, en cualquier momento, sin una intervenci\u00f3n manual.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Por ejemplo, una compa\u00f1\u00eda o un sector econ\u00f3mico puede recolectar autom\u00e1tica y eficientemente, informaci\u00f3n de su competencia o proveedores, como pueden ser sus productos y precios p\u00fablicos, sin gastar mucho tiempo y esfuerzo en ello.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Otro ejemplo es cuando se est\u00e1 interesado en conocer los precios de ciertos productos, en las p\u00e1ginas de grandes e-shops, como por ejemplo Amazon, e-Bay, Alibab\u00e1, Linio, MercadoLibre, etc. De este modo, se pueden obtener con prontitud, los precios de productos que pueden ser atractivos para ser comprados, en temporadas de promociones, o cuando hay variaciones de precios estacionales o por otros factores. Tambi\u00e9n se podr\u00eda recibir informaci\u00f3n de primera mano,  cuando nuevos productos entran al mercado, para tomar decisiones de compra con prontitud, para aprovechar las novedades del mercado.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Otros usos de estos algoritmos de web scraping, se basan en la consolidaci\u00f3n de informaci\u00f3n de varias p\u00e1ginas de un sector en particular, por ejemplo en el sector inmobiliario, para ofrecer en un un \u00fanico sitio, comparativas de precios, ubicaciones, formas de financiaci\u00f3n, o para hacer un estudio de mercado, etc. <\/p>\n\n\n\n<p class=\"wp-block-paragraph\">A nivel informativo, tambi\u00e9n se pueden crear sitios web, que consoliden informaci\u00f3n que viene de varias fuentes, como por ejemplo en este sitio web de <strong><a rel=\"noreferrer noopener\" href=\"https:\/\/vendiendo.co\/blogs\/loterias-de-colombia-ultimos-resultados\/\" target=\"_blank\">Vendiendo.co<\/a><\/strong>, se muestran los \u00faltimos resultados de las loter\u00edas de Colombia.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Tambi\u00e9n se usan estas t\u00e9cnicas de forma poco legal, por ejemplo para copiar autom\u00e1ticamente contenido de blogs, publicaciones cient\u00edficas, sitios de noticias, etc. con el fin de crear nuevos contenidos, para atraer audiencia a ciertas p\u00e1ginas. Este tipo de pr\u00e1cticas conllevan infracciones a las leyes de protecci\u00f3n de datos, o de propiedad intelectual, que l\u00f3gicamente pueden acarrear problemas penales con las autoridades.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">En conclusi\u00f3n, el rastreo o web scraping, es una t\u00e9cnica que puede ser usada para recolectar datos no estructurados de los sitios web, para clasificarlos y consolidarlos, para su uso en diversos tipos de aplicaciones y negocios.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Este art\u00edculo hace parte del sistema de divulgaci\u00f3n de conocimiento de <strong><a href=\"https:\/\/itsoftware.com.co\/content\/desarrollo-de-software-bogota-colombia\/\">ITSoftware SAS<\/a><\/strong>.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>Si te gust\u00f3, no te olvides compartirlo en las redes sociales. ;).<\/strong><\/p>\n","protected":false},"excerpt":{"rendered":"<p>El rastreo web o web scraping, es un conjunto de m\u00e9todos usados para conocer el contenido de una p\u00e1gina web, de forma autom\u00e1tica, con el fin de poder clasificar informaci\u00f3n[&#8230;]<\/p>\n","protected":false},"author":1,"featured_media":9390,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_jetpack_memberships_contains_paid_content":false,"footnotes":""},"categories":[305,280,1589],"tags":[1593,1590,1592,1591,1594],"class_list":["post-9395","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-automatizacion","category-diseno-web-2","category-web","tag-crawl-bot","tag-crawling","tag-rastreo-web","tag-scraping","tag-scraping-bot"],"aioseo_notices":[],"jetpack_featured_media_url":"https:\/\/itsoftware.com.co\/content\/wp-content\/uploads\/2022\/08\/web-scraping-its.jpg","jetpack_sharing_enabled":true,"_links":{"self":[{"href":"https:\/\/itsoftware.com.co\/content\/wp-json\/wp\/v2\/posts\/9395","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/itsoftware.com.co\/content\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/itsoftware.com.co\/content\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/itsoftware.com.co\/content\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/itsoftware.com.co\/content\/wp-json\/wp\/v2\/comments?post=9395"}],"version-history":[{"count":0,"href":"https:\/\/itsoftware.com.co\/content\/wp-json\/wp\/v2\/posts\/9395\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/itsoftware.com.co\/content\/wp-json\/wp\/v2\/media\/9390"}],"wp:attachment":[{"href":"https:\/\/itsoftware.com.co\/content\/wp-json\/wp\/v2\/media?parent=9395"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/itsoftware.com.co\/content\/wp-json\/wp\/v2\/categories?post=9395"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/itsoftware.com.co\/content\/wp-json\/wp\/v2\/tags?post=9395"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}