Un Único RAID 10 Grande: un nuevo estándar en el almacenamiento de servidores

A finales de la década de 1990, la regla general estándar para construir un nuevo servidor consistía en colocar el sistema operativo en su propia matriz RAID 1 pequeña y separar las aplicaciones y los datos en una matriz RAID 5 independiente. Esto se hacía por varias razones, muchas de las cuales se han desvanecido, perdidas en las arenas del tiempo. Los principales factores determinantes eran que la capacidad de almacenamiento resultaba extremadamente costosa, los discos eran pequeños, los sistemas de archivos se corrompían con regularidad y los discos duros físicos fallaban a un ritmo muy elevado en comparación con otros tipos de fallos. Las personas estaban motivadas por la necesidad de protegerse frente a los fallos físicos de los discos duros, protegerse frente a la corrupción del sistema de archivos y obtener capacidad suficiente para satisfacer sus necesidades.

Hoy en día el panorama del almacenamiento ha cambiado. Los sistemas de archivos son increíblemente robustos y la corrupción del propio sistema de archivos es prácticamente inaudita y, gracias a tecnologías como el registro por diario (journalling), casi siempre puede corregirse con rapidez y eficacia, protegiendo a los usuarios finales frente a la pérdida de datos. Hoy en día casi nadie se preocupa por la corrupción del sistema de archivos.

Los sistemas de archivos modernos también son capaces de manejar mucha más capacidad de la que podían anteriormente. No era raro, a finales de la década de 1990 y principios de la de 2000, tener la posibilidad de crear fácilmente una matriz de discos más grande de lo que cualquier sistema de archivos por sí solo podía manejar. Hoy en día eso, razonablemente, no es así, ya que todos los sistemas de archivos comunes manejan al menos muchos terabytes y, a menudo, petabytes, exabytes o más de datos.

Los discos duros son mucho más fiables de lo que eran a finales de la década de 1990. Las tasas de fallo de un disco completo son muy bajas, incluso en los discos menos costosos. Tan bajas, de hecho, que los fallos de matriz (la pérdida de datos en toda la matriz RAID) tienen que ver principalmente con matrices que fallan, en lugar del fallo de los discos duros. Ya no reemplazamos discos duros a diestro y siniestro. No es inaudito que matrices grandes funcionen durante toda su vida útil sin perder un solo disco.

Las capacidades han crecido de forma drástica. En lugar de discos duros de 4,3 GB, estamos instalando discos de 3 TB. Casi mil veces más capacidad en un solo eje en comparación con hace menos de quince años.

Estos factores se conjugan para crear la necesidad de un enfoque radicalmente distinto en el diseño del almacenamiento de servidores y un cambio en la “regla general” sobre por dónde empezar al diseñar el almacenamiento.

El enfoque antiguo puede escribirse como RAID 1 + RAID 5. El espacio del RAID 1 se utilizaba para el sistema operativo, mientras que el espacio del RAID 5, presumiblemente mucho mayor, se utilizaba para los datos y las aplicaciones. Este diseño separaba las dos preocupaciones de almacenamiento, dedicando el máximo esfuerzo a proteger el sistema operativo (que era muy difícil de recuperar en caso de desastre y del cual dependía la accesibilidad de los datos) sobre un RAID 1 de alta fiabilidad. El RAID 5, de menor coste y aunque algo más arriesgado, se elegía normalmente para los datos porque el coste de almacenar los datos en RAID 1 era demasiado alto en la mayoría de los casos. Era una concesión que tenía sentido en aquel momento.

Hoy en día, con nuestras preocupaciones muy diferentes, se necesita un nuevo enfoque, y este nuevo enfoque se conoce como “Un Único RAID 10 Grande”, es decir, una única matriz RAID 10 grande con el sistema operativo, las aplicaciones y los datos almacenados todos juntos. Por supuesto, esto es solo lo que decimos para que resulte cómodo; en un sistema sin necesidades de rendimiento o capacidad más allá de un único disco diríamos “Un Único RAID 1 Grande”, pero muchas personas incluyen el RAID 1 dentro del grupo del RAID 10, así que es más fácil decir lo primero.

Para que resulte aún más cómodo, lo abreviamos como OBR10.

Dado que el coste del almacenamiento ha bajado considerablemente y que, en lugar de ser un bien escaso, hoy en día suele ser abundante; dado que los sistemas de archivos son increíblemente fiables; dado que el RAID 1 y el RAID 10 comparten características de rendimiento; y dado que los fallos de matriz no provocados por fallos de disco han pasado de ser ruido de fondo a ser una causa principal de pérdida de datos, el cambio hacia el RAID 10 y la eliminación de la división de matrices se ha convertido en el nuevo enfoque estándar.

Con el RAID 10 ahora disponemos del almacenamiento de alta disponibilidad y resiliencia, anteriormente reservado únicamente para el sistema operativo, para todos nuestros datos. Obtenemos el beneficio del rendimiento del RAID en espejo más el beneficio de ejes adicionales para todos nuestros datos. Obtenemos un mejor aprovechamiento de la capacidad de los discos y un rendimiento basado en ese mejor aprovechamiento.

Incluso la división tradicional de los archivos de registro que normalmente se realiza con las bases de datos (el infame enfoque RAID 1 + RAID 5 + RAID 1) ya no es necesaria, porque el RAID 10 mantiene las características de rendimiento óptimas en todos los datos. Con el RAID 10 eliminamos casi todos los factores que en su día nos llevaban a dividir las matrices.

El único factor significativo, que no se ha mencionado, por el cual las matrices divididas se consideraban tradicionalmente beneficiosas es la contención de acceso: la necesidad de que distintos procesos accedan a distintas partes del disco al mismo tiempo, lo que hace que el cabezal del disco se desplace siguiendo un patrón menos que ideal, reduciendo el rendimiento del disco. La contención era un asunto importante a finales de la década de 1990, cuando se desarrolló la antigua regla general.

Hoy en día, la contención de discos todavía existe, pero se ha mitigado en gran medida mediante el uso de grandes cachés RAID. A finales de los años 90, las cachés de disco eran de unos pocos megabytes en el mejor de los casos y, a menudo, inexistentes. Hoy en día, 256 MB es una caché diminuta y los servidores promedio se implementan con entre 1 y 2 GB de caché solo en la tarjeta RAID. Algunos sistemas están empezando a integrar cachés adicionales basadas en unidades de estado sólido para añadir una caché secundaria más allá de la caché de memoria del controlador. Estas pueden añadir fácilmente cientos de gigabytes de caché de altísima velocidad capaz de amortiguar casi cualquier operación de eje para que no tenga que preocuparse por la contención. Así que el problema de la contención se ha resuelto de otras maneras a lo largo de los años, pero, al igual que otros cambios tecnológicos, nos ha liberado de hecho de las preocupaciones tradicionales que nos obligaban a dividir las matrices.

Al igual que la contención de matrices, otra razón, mucho menos común, para dividir matrices a finales de la década de 1990 era mejorar el rendimiento del bus de comunicaciones debido a las limitaciones de las tecnologías SCSI y ATA de la época. Estas, también, se han eliminado con el cambio a los mecanismos de comunicación serie, SAS y SATA, en las matrices modernas. Ya no estamos limitados a la capacidad de un único bus para cada matriz y podemos crecer mucho más, con mucha más flexibilidad que antes. La contención de bus se ha eliminado casi por completo.

Si existe la necesidad de separar espacio por protección, como el crecimiento de los archivos de registro, esto puede lograrse mediante particionamiento en lugar de mediante la división física de matrices. En general, querrá minimizar el particionamiento, ya que aumenta la sobrecarga y reduce la capacidad de los discos para autoajustarse, pero hay casos en los que es el mejor enfoque. Pero no requiere que el almacenamiento físico subyacente se divida como se hacía tradicionalmente. Mejor incluso que el particionamiento, cuando está disponible, es la gestión de volúmenes lógicos, que crea separaciones similares a las particiones sin las limitaciones de estas.

Así que, a fin de cuentas, la nueva regla general para el almacenamiento de servidores es “Un Único RAID 10 Grande”. Se acabó el RAID 5, se acabó la división de matrices. Se trata de fiabilidad, rendimiento, facilidad de gestión y una rentabilidad moderada. Como todas las reglas generales, esta no se aplica a cada caso concreto, pero sí se aplica de forma mucho más amplia de lo que jamás lo hizo el antiguo estándar. El RAID 1 + RAID 5, como estándar, siempre fue un intento de “arreglárselas” con algo poco deseable y de sacar el mejor partido de una mala situación. El OBR10 no es así. El nuevo estándar es un estándar deseado: es como realmente queremos funcionar, no algo con lo que nos hemos quedado “atascados”.

Al diseñar el almacenamiento para un nuevo servidor, empiece con OBR10 y aléjese de él únicamente cuando, de forma específica, no satisfaga sus necesidades tecnológicas. Nunca debería tener que justificar el uso de OBR10, sino solo justificar no usarlo.

Etiquetadopatterns raid

Más para leer.

Cuando una copia de seguridad no es una copia de seguridad

El punto de inflexión del RAID por software

Nueva hiperconvergencia, viejo almacenamiento