Las pymes deben dejar de buscar orientación en BackBlaze
Tengo que comenzar este artículo con una aclaración, porque la gente a menudo saca estas cosas de contexto y reacciona con vehemencia ante cosas que nunca se dijeron, con el descargo de responsabilidad de que creo que BackBlaze hace un gran trabajo, tiene gente brillante trabajando para ellos y ha hecho un trabajo excelente diseñando y aprovechando tecnología que es absolutamente aplicable y apropiada para sus necesidades. Nada, y de verdad quiero decir nada, en este artículo debe sacarse jamás de contexto ni presentarse como algo negativo sobre BackBlaze. Si algo en este artículo parece o da la sensación de afirmar lo contrario, por favor vuelva a leerlo y confirme que efectivamente se dijo y, de ser así, infórmeme para que pueda corregirlo. Este artículo no tiene intención alguna de dar a entender, de ningún modo, que BackBlaze no esté haciendo lo que es inteligente para ellos, para su negocio y para sus clientes. Ahora pasemos al artículo:
A lo largo de estos muchos años he comprobado que muchos profesionales de TI de pequeñas y medianas empresas se han encandilado con lo que ven como un milagro de almacenamiento de bajo costo y alta capacidad en lo que se conoce como el diseño POD de BackBlaze. En esencia, el POD de BackBlaze es un servidor de almacenamiento de bajo costo, alta capacidad, bajo rendimiento y casi whitebox, construido a partir de un chasis personalizado y piezas de consumo para crear un nodo de almacenamiento desechable utilizado en grandes arreglos de almacenamiento RAIN que aprovechan la codificación de borrado (erasure encoding). BackBlaze diseñó a medida el POD original, y publicó su diseño, para uso exclusivo en sus centros de datos de respaldo alojado a gran escala, donde los POD funcionan como nodos individuales dentro de un arreglo masivo de nodos con replicación entre ellos. A lo largo de los años, BackBlaze ha actualizado el diseño de su POD a medida que la tecnología ha cambiado y se han abordado distintos problemas. Pero el caso de uso fundamental ha seguido siendo el mismo.
Tengo que comparar esto con el enfoque de almacenamiento SAM-SD, que sigue una táctica similar pero lo hace utilizando hardware de grado empresarial y con soporte. Estas diferencias a veces parecen triviales, pero son de todo menos triviales; son pilares clave de lo que hace que las distintas soluciones sean apropiadas en situaciones diferentes. La idea detrás del SAM-SD es que el almacenamiento debe ser fiable y estar diseñado desde el hardware hacia arriba para ser lo más fiable posible y contar con buen soporte para cuando las cosas fallan. El POD adopta el enfoque opuesto, haciendo que el servidor individual sea de naturaleza poco fiable y efímera, y diseñado para desecharse en lugar de repararse en absoluto. El diseño SAM-SD da por sentado que el servidor individual es importante, incluso crítico: cualquier cosa menos desechable.
El concepto SAM-SD, que no es literalmente nada más que un enfoque para construir almacenamiento abierto, está diseñado pensando en el mercado de almacenamiento de las pymes. El POD de BackBlaze está diseñado pensando en un mercado de respaldo de consumo extremadamente de nicho, a gran escala y de caso especial. El SAM-SD está pensado para ser administrado por pequeñas empresas, incluso aquellas sin TI interno. El POD está diseñado para ser implementado y gestionado por un equipo de ingeniería de almacenamiento dedicado y a tiempo completo.
Dado que el POD de BackBlaze está diseñado por expertos, para expertos, en las mayores situaciones de almacenamiento, puede resultar confuso y ser malinterpretado fácilmente por quienes no son expertos en almacenamiento en el espacio de la pequeña empresa. De hecho, se malinterpreta tan a menudo que las objeciones suelen recibirse con comentarios del tipo «creo que BackBlaze sabe lo que hace», lo cual demuestra el enorme malentendido que existe en torno a este enfoque. Por supuesto que BackBlaze sabe lo que hace, pero no está haciendo lo que hace ninguna pyme.
La publicación del diseño del POD provoca mucha confusión porque es solo una parte de un todo mayor. El diseño del centro de datos completo y los medios de redundancia y los mecanismos para ello entre los POD no son públicos, sino propietarios. Así que el POD en sí representa solo un único nodo de un clúster (o Vault) y no refleja la agrupación en clúster en sí misma, que es donde tiene lugar el trabajo más importante. De hecho, el diseño del POD en sí no es más que el trabajo realizado por los proyectos Sun Thumper y SAM-SD de la última década, pero sin las restricciones de fiabilidad. El POD no debería ser un diseño novedoso, sino uno obvio. Uno que durante décadas se ha evitado en el espacio de almacenamiento de las pymes porque es tan drásticamente inaplicable.
Dado que los aspectos de agrupación en clúster y replicación se ignoran al hablar del POD de BackBlaze, se suelen hacer enormes suposiciones sobre la capacidad de un POD que tiene una sobrecarga mucho menor de la que la propia BackBlaze obtiene para la infraestructura de POD, incluso a escala. Por ejemplo, en términos de RAID, esto sería similar a suponer que el POD es RAID 6 (con solo un 5 % de sobrecarga) porque ese es el RAID de un componente individual cuando, en realidad, ¡se utiliza RAID 61 (55 % de sobrecarga)! De hecho, muchos profesionales de TI de pymes, cuando buscan utilizar un diseño POD, en realidad se plantean simplemente usar RAID 6 y, además, usar un único POD. El grado en que esto no sigue el modelo de BackBlaze es asombroso.
BackBlaze: «Los Vaults de Backblaze combinan veinte Storage Pods físicos en un único chasis virtual. El software del Vault implementa nuestra propia codificación Reed-Solomon para distribuir fragmentos de datos por los veinte pods del Vault de forma simultánea, mejorando drásticamente la durabilidad.»
Para que el POD sea una consideración para el mercado de las pymes, es necesario que todo el concepto del POD se saque por completo de contexto. Tanto su caso de uso previsto como su implementación. Lo que hace especial a BackBlaze se elimina por completo y solo se toman los aspectos más triviales y superficiales, convirtiéndolos en algo que en absoluto se asemeja a la visión o el propósito de BackBlaze.
Al ahondar en dónde difiere el diseño del POD de BackBlaze respecto de las necesidades estándar de un negocio normal, encontramos estos problemas:
- El POD está diseñado para ser poco fiable, para depender de una capa de fiabilidad y replicación a nivel de super-POD que requiere que se implemente una gran cantidad de POD y que los datos sean redundantes entre ellos mediante replicación o agrupación en clúster personalizada. Sin esta capa, el POD está completamente fuera de contexto. El nivel de super-POD se conoce internamente como el BackBlaze Vault.
- El POD está diseñado para implementarse en un centro de datos empresarial con cuidadosa amortiguación de vibraciones, acondicionamiento de energía y sistemas ambientales. Es menos resistente a estos problemas que el hardware empresarial estándar.
- El POD está diseñado para reemplazarse normalmente como una unidad completa en lugar de reparar un nodo in situ. Esto es lo opuesto al hardware empresarial estándar con componentes de intercambio en caliente diseñados para repararse sin interrupción, y mucho menos sin un reemplazo completo. A esto lo llamamos un caso de uso desechable o efímero.
- El POD está diseñado para tener un costo increíblemente bajo para necesidades de almacenamiento en frío muy lento. Si bien esto puede existir en una pyme, normalmente no es así.
- El POD está diseñado para ser un único nodo de almacenamiento de alta capacidad dentro de un grupo de capacidad descomunalmente grande. Pocas pymes pueden aprovechar siquiera el potencial de almacenamiento de un solo POD, y mucho menos un grupo lo bastante grande como para justificar el diseño POD.
- El POD de BackBlaze está diseñado para usar codificación de borrado personalizada, no RAID. El RAID no es eficaz a esta escala, ni siquiera al nivel de un solo POD.
- Un POD individual está diseñado para 180 TB de capacidad y un Vault está dimensionado a una escala de 3,6 PB.
Referencia actual del POD 5 de BackBlaze: https://www.backblaze.com/blog/cloud-storage-hardware/
En resumen, el POD de BackBlaze es un pilar brillante de un servicio brillante que satisface una necesidad muy específica que está tan alejada de las necesidades del mercado de almacenamiento de las pymes como razonablemente se pueda estar. Respete a BackBlaze por su gran trabajo, pero no intente emularlo.
