{"id":4041,"date":"2017-06-22T19:40:58","date_gmt":"2017-06-23T00:40:58","guid":{"rendered":"https:\/\/itsoftware.com.co\/content\/?p=4041"},"modified":"2020-11-19T15:31:41","modified_gmt":"2020-11-19T20:31:41","slug":"que-es-la-base-de-datos-apache-cassandra","status":"publish","type":"post","link":"https:\/\/itsoftware.com.co\/content\/que-es-la-base-de-datos-apache-cassandra\/","title":{"rendered":"\u00bfQu\u00e9 es la base de datos Apache Cassandra? &#8211; Big Data"},"content":{"rendered":"<figure id=\"attachment_4132\" aria-describedby=\"caption-attachment-4132\" style=\"width: 528px\" class=\"wp-caption aligncenter\"><a href=\"https:\/\/itsoftware.com.co\/content\/wp-content\/uploads\/2017\/06\/que-es-apache-cassandra.png\"><img fetchpriority=\"high\" decoding=\"async\" class=\" wp-image-4132\" src=\"https:\/\/itsoftware.com.co\/content\/wp-content\/uploads\/2017\/06\/que-es-apache-cassandra-300x201.png\" alt=\"Qu\u00e9 es Apache Cassandra\" width=\"528\" height=\"354\"><\/a><figcaption id=\"caption-attachment-4132\" class=\"wp-caption-text\">Qu\u00e9 es Apache Cassandra<\/figcaption><\/figure>\n<p><strong>Apache Cassandra<\/strong> es una base de datos de c\u00f3digo abierto, &nbsp;NoSQL (No s\u00f3lo SQL, no relacional), especialmente dise\u00f1ada para el manejo de grandes cantidades de datos, sobre clientes en configuraci\u00f3n de clusters distribuidos en diferentes datacenters, linealmente escalable y de alta disponibilidad (tolerancia a fallas).<\/p>\n<p><!--more--><\/p>\n<p>Cassandra naci\u00f3 en Facebook, para permitir la b\u00fasqueda en sus buzones de entrada. Fue dirigida a c\u00f3digo abierto en 2008, bajo la administraci\u00f3n de la organizaci\u00f3n Apache.<\/p>\n<p><strong>Apache Cassandra<\/strong> nace de la necesidad de usar modelos de datos diferentes a los usados en las bases de datos relacionales, como por ejemplo con&nbsp;Oracle, MySQL o SQL Server; con el fin de permitir muy bajas latencias, tener millones de datos distribuidos globalmente, leer y escribir desde cualquier lugar, escalar los nodos de manera flexible, poseer una mayor disponibildad frente a fallas, y reducir los costos operacionales&nbsp;de equipos&nbsp;y software.<\/p>\n<p>Las bondades de Cassandra han sido suficientemente probadas por compa\u00f1\u00edas&nbsp;como &nbsp;<a href=\"http:\/\/planetcassandra.org\/blog\/post\/cassandra-at-cern-large-hadron-collider\/\">CERN<\/a>,&nbsp;<a href=\"http:\/\/www.slideshare.net\/daveconnors\/cassandra-puppet-scaling-data-at-15-per-month\">Constant Contact<\/a>&nbsp;, <a href=\"http:\/\/www.slideshare.net\/jaykumarpatel\/cassandra-at-ebay-13920376\">eBay<\/a>,&nbsp;<a href=\"http:\/\/www.slideshare.net\/adrianco\/migrating-netflix-from-oracle-to-global-cassandra\">Netflix<\/a>, <a href=\"http:\/\/planetcassandra.org\/blog\/post\/reddit-upvotes-apache-cassandras-horizontal-scaling-managing-17000000-votes-daily\/\">Reddit<\/a>, <a href=\"http:\/\/planetcassandra.org\/blog\/post\/cassandra-used-to-build-scalable-and-highly-available-systems-at-hulu-streaming-content-to-over-5-million-subscribers\/\">Hulu<\/a>, <a href=\"http:\/\/planetcassandra.org\/blog\/post\/instagram-making-the-switch-to-cassandra-from-redis-75-instasavings\/\">Instagram<\/a>,&nbsp;<a href=\"http:\/\/planetcassandra.org\/blog\/post\/analytics-at-github-with-apache-cassandra\/\">GitHub<\/a>, <a href=\"http:\/\/planetcassandra.org\/blog\/post\/godaddy-worlds-largest-domain-name-registrar-and-web-host-provider-utilizes-cassandra-for-replication-and-scalability\/\">GoDaddy<\/a>,&nbsp;<a href=\"http:\/\/www.slideshare.net\/planetcassandra\/3-mohit-anchlia\">Intuit<\/a>,&nbsp;<a href=\"http:\/\/planetcassandra.org\/blog\/post\/make-it-rain-apache-cassandra-at-the-weather-channel-for-severe-weather-alerts\/\">The Weather Channel<\/a>, y 1500 compa\u00f1\u00edas m\u00e1s,&nbsp;&nbsp;que manejan grandes vol\u00famenes de datos diariamente.<\/p>\n<p><strong>Apache Cassandra<\/strong> es actualmente usada por grandes corporaciones para sus aplicaciones, como es el caso de Apple, con 75.000 nodos que guardan m\u00e1s de 10 PB de datos, Netflix con 2500 nodos, almacenando 420 TB o eBay con 100 nodos y 250 TB.<\/p>\n<h2><strong>\u00bfQu\u00e9 hace diferente a Apache Cassandra de una base de datos relacional?<\/strong><\/h2>\n<table class=\"table-responsive\">\n<thead>\n<tr>\n<th class=\"tableblock halign-left valign-top\">Base de datos relacional<\/th>\n<th class=\"tableblock halign-left valign-top\">Apache Cassandra<\/th>\n<\/tr>\n<\/thead>\n<tbody>\n<tr>\n<td class=\"tableblock halign-left valign-top\">\n<p class=\"tableblock\">Soporta complejas y anidadas transacciones<\/p>\n<\/td>\n<td class=\"tableblock halign-left valign-top\">\n<p class=\"tableblock\">Maneja transacciones sencillas<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td class=\"tableblock halign-left valign-top\">\n<p class=\"tableblock\">Los datos llegan desde uno o pocas ubicaciones<\/p>\n<\/td>\n<td class=\"tableblock halign-left valign-top\">\n<p class=\"tableblock\">Los datos llegan desde muchas ubicaciones<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td class=\"tableblock halign-left valign-top\">\n<p class=\"tableblock\">Unicos puntos de falla, con recuperaci\u00f3n<\/p>\n<\/td>\n<td class=\"tableblock halign-left valign-top\">\n<p class=\"tableblock\">No tiene puntos de falla \u00fanicos, siempre est\u00e1 activa<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td class=\"tableblock halign-left valign-top\">\n<p class=\"tableblock\">Esencialmente maneja datos estructurados<\/p>\n<\/td>\n<td class=\"tableblock halign-left valign-top\">Maneja tanto datos estructurados, como no estructurados<\/td>\n<\/tr>\n<tr>\n<td class=\"tableblock halign-left valign-top\">\n<p class=\"tableblock\">Despliegue en escala vertical<\/p>\n<\/td>\n<td class=\"tableblock halign-left valign-top\">\n<p class=\"tableblock\">Despliegue en escala horizontal<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td class=\"tableblock halign-left valign-top\">\n<p class=\"tableblock\">Maneja vol\u00famenes moderados de datos<\/p>\n<\/td>\n<td class=\"tableblock halign-left valign-top\">\n<p class=\"tableblock\">Gestiona altos vol\u00famenes de datos<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td class=\"tableblock halign-left valign-top\">\n<p class=\"tableblock\">Despliegue centralizado<\/p>\n<\/td>\n<td class=\"tableblock halign-left valign-top\">\n<p class=\"tableblock\">Despliegues descentralizados<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td class=\"tableblock halign-left valign-top\">\n<p class=\"tableblock\">Maneja tasas moderadas de datos de entrada<\/p>\n<\/td>\n<td class=\"tableblock halign-left valign-top\">\n<p class=\"tableblock\">Maneja altas velocidades en los datos de entrada<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td class=\"tableblock halign-left valign-top\">\n<p class=\"tableblock\">Escritura de datos principalmente en una sola ubicaci\u00f3n<\/p>\n<\/td>\n<td class=\"tableblock halign-left valign-top\">\n<p class=\"tableblock\">La escritura de datos se realiza en muchas ubicaciones<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td class=\"tableblock halign-left valign-top\">\n<p class=\"tableblock\">Soporta escalibidad de escritura<\/p>\n<\/td>\n<td class=\"tableblock halign-left valign-top\">\n<p class=\"tableblock\">Soporta escalabilidad de lectura y escritura<\/p>\n<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<p>Como la fundaci\u00f3n Apache se encarga de la administraci\u00f3n del c\u00f3digo abierto de Cassandra, el soporte es brindado por <a href=\"https:\/\/wiki.apache.org\/cassandra\/ThirdPartySupport\">compa\u00f1\u00edas de terceros<\/a>.<\/p>\n<p>Cassandra se puede descargar y usar de manera gratuita desde el siguiente enlace <a href=\"http:\/\/cassandra.apache.org\">http:\/\/cassandra.apache.org<\/a><\/p>\n<h2>Apache Cassandra ofrece los siguientes beneficios:<\/h2>\n<ul>\n<li>Permite la replicaci\u00f3n de lectura\/escritura entre multi-datecenters geogr\u00e1ficamente distribuidos.<\/li>\n<li>Los nodos pueden crecer o decrecer en forma masiva, porque todos los nodos son&nbsp;iguales.<\/li>\n<li>Se tiene una disponibilidad continua, tanto para los datos como para los nodos, lo que permite que siempre el sistema est\u00e9 en funcionamiento.<\/li>\n<li>Todos los nodos tienen la capacidad de leer y escribir, lo que quiere decir que es una arquitectura descentralizada, evitando cuellos de botella de red.<\/li>\n<li>Puede manejar diferentes modelos de datos, tantos los relacionales como los no-relacionales, con altas tasas de lectura y escritura.<\/li>\n<li>La escalabilidad lineal permite aumentar los nodos, sin producir p\u00e9rdidas en producci\u00f3n, reconociendo inmediatamente la mejora en el desempe\u00f1o del sistema.<\/li>\n<li>Puede soportar una fuerte o eventual consistencia de datos a trav\u00e9s de un distribuido cluster de nodos.<\/li>\n<li>Un nodo que falla puede ser restaurado o reemplazado f\u00e1cilmente.<\/li>\n<li>Maneja un lenguaje conocido como CQL (Cassandra Query Language), que es una especie de SQL para hacer m\u00e1s sencilla la transici\u00f3n de las personas que vienen del mundo de las bases relacionales.<\/li>\n<li>Los datos son protegidos fuertemente mediante un sistema de log de transacciones, y con un sistema incluido de respaldo y restauraci\u00f3n.<\/li>\n<li>Permite una alta tasa de compresi\u00f3n sin perder desempe\u00f1o.<\/li>\n<\/ul>\n<p>Una de las grandes ventajas de este tipo de arquitecturas de bases de datos, es que puede crecer o decrecer seg\u00fan las necesidades espec\u00edficas, apoy\u00e1ndose en la infraestructura como servicio que ofrecen empresas como Google, Amazon, Microsoft, IBM, etc., donde el&nbsp;costo del hardware ya es visto como un comodity, que se cobra en la medida en que sea usado o no; reduciendo costos en la gesti\u00f3n de grandes vol\u00famenes de datos.<\/p>\n<blockquote><p><em>Tambi\u00e9n te puede interesar&nbsp;<a href=\"https:\/\/itsoftware.com.co\/content\/que-es-y-para-que-sirve-mysql\/\" rel=\"bookmark\">\u00bfQu\u00e9 es y para que sirve MySQL Database?<\/a><\/em><\/p><\/blockquote>\n<h2>Principales aplicaciones de Apache Cassandra:<\/h2>\n<ul>\n<li>An\u00e1lisis de datos de las redes sociales, lo que les permite hacerle recomendaciones a sus clientes.<\/li>\n<li>Es usado para el manejo y b\u00fasqueda de cat\u00e1logos de productos de tiendas online como es el caso de eBay.<\/li>\n<li>Para IoT (internet de las cosas), para el manejo de los datos de multitud de sensores, instalados en diversos lugares.<\/li>\n<li>Se usa para&nbsp;el manejo de aplicaciones de datos de series temporales, como es el caso de datos del clima, gracias a la velocidad de lectura\/escritura que provee.<\/li>\n<li>Para aplicaciones de mensajer\u00eda, para almacenar los datos de las conversaciones y dem\u00e1s contenido compartido.<\/li>\n<li>Se usa para rastrear y monitorear la actividad de los usuarios, por ejemplo al escuchar m\u00fasica, o ver videos, sitios web, etc.<\/li>\n<\/ul>\n<p>Se puede considerar que el futuro de la gesti\u00f3n de datos est\u00e1 en aplicaciones como \u00e9sta, considerando los grandes vol\u00famenes de datos que cada d\u00eda se generan desde diferentes fuentes, haciendo ya impensable su manejo eficiente con modelos de datos relacionales.<\/p>\n<p>Es por eso recomendable que los profesionales o personas interesadas en temas relacionados con bases de datos, empiecen a voltear sus ojos hacia estas nuevas tecnolog\u00edas, para tener un mayor campo de acci\u00f3n, y aprovechar las ventajas que estos sistemas ofrecen para gestionar grandes cantidades de datos.<\/p>\n<p>&nbsp;<\/p>\n<p>Este art\u00edculo hace parte del sistema de divulgaci\u00f3n de conocimiento de <a href=\"http:\/\/itsoftware.com.co\">ITSoftware SAS<\/a>.<\/p>\n<h3>Si te gust\u00f3, por favor no olvides compartirlo en las redes sociales.;)<\/h3>\n","protected":false},"excerpt":{"rendered":"<p>Apache Cassandra es una base de datos de c\u00f3digo abierto, &nbsp;NoSQL (No s\u00f3lo SQL, no relacional), especialmente dise\u00f1ada para el manejo de grandes cantidades de datos, sobre clientes en configuraci\u00f3n[&#8230;]<\/p>\n","protected":false},"author":1,"featured_media":8610,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_jetpack_memberships_contains_paid_content":false,"footnotes":""},"categories":[97,707],"tags":[],"class_list":["post-4041","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-bases-de-datos","category-big-data"],"aioseo_notices":[],"jetpack_featured_media_url":"https:\/\/itsoftware.com.co\/content\/wp-content\/uploads\/2017\/06\/que-es-apache-cassandra-1.png","jetpack_sharing_enabled":true,"_links":{"self":[{"href":"https:\/\/itsoftware.com.co\/content\/wp-json\/wp\/v2\/posts\/4041","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/itsoftware.com.co\/content\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/itsoftware.com.co\/content\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/itsoftware.com.co\/content\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/itsoftware.com.co\/content\/wp-json\/wp\/v2\/comments?post=4041"}],"version-history":[{"count":0,"href":"https:\/\/itsoftware.com.co\/content\/wp-json\/wp\/v2\/posts\/4041\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/itsoftware.com.co\/content\/wp-json\/wp\/v2\/media\/8610"}],"wp:attachment":[{"href":"https:\/\/itsoftware.com.co\/content\/wp-json\/wp\/v2\/media?parent=4041"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/itsoftware.com.co\/content\/wp-json\/wp\/v2\/categories?post=4041"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/itsoftware.com.co\/content\/wp-json\/wp\/v2\/tags?post=4041"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}