Explicando la falta de estudios a gran escala en TI

Los profesionales de TI los piden todos los días y, sin embargo, no existen – estudios a gran escala sobre riesgo y rendimiento del hardware y software de TI. Esto abarca una amplia gama de posibilidades, pero ejemplos comunes son las tasas de fallos entre distintos modelos de servidores, discos duros, sistemas operativos, tipos de arreglos RAID, equipos de escritorio, portátiles, lo que sea. Y aun así, independientemente de la alta demanda de tales datos, no hay ninguno disponible. ¿Cómo puede ser esto?

No todos los casos son iguales, por supuesto, pero en líneas generales hay tres factores realmente significativos que entran en juego e impiden que este tipo de datos llegue al campo. Estos son el alto costo de realizar un estudio, la larga escala de tiempo necesaria para un estudio y la falta de incentivos para producir o compartir estos datos con otras empresas.

El costo es, con mucho, el factor más grande. Si se pudiera superar el costo de los estudios a gran escala, se podrían encontrar soluciones para todos los demás factores. Pero, lamentablemente, la naturaleza de un estudio a gran escala es que resultará costoso. Como ejemplo podemos observar las tasas de fiabilidad de los servidores.

Para determinar las tasas de fallo de un servidor necesitamos un gran número de servidores con el fin de recopilar estos datos. Esto puede parecer un ejemplo extremo, pero las tasas de fallo de servidores son una de las cifras de estudios a gran escala más solicitadas y, por lo tanto, el ejemplo es importante. Necesitaríamos quizás unos cientos de servidores para un estudio muy pequeño, pero para obtener datos estadísticamente significativos probablemente necesitaríamos miles de servidores. Si suponemos que un solo servidor cuesta cinco mil dólares, lo que sería un servidor de nivel relativamente básico, ¡estamos hablando fácilmente de veinticinco millones de dólares en equipos! Y eso es apenas lo suficiente para hacer una prueba de escala algo pequeña (solo cinco mil servidores) de un dispositivo de costo bastante bajo. Si habláramos de servidores empresariales, llegaríamos fácilmente a treinta o incluso cincuenta mil dólares por servidor, llevando el costo incluso a un cuarto de mil millones de dólares.

Ahora bien, ese costo, por supuesto, es para probar una sola configuración de un solo modelo de servidor. Es de suponer que, para que un estudio sea significativo, necesitaríamos muchos modelos distintos de servidores. Quizás varios de cada proveedor para comparar distintas líneas y características. Quizás muchos proveedores distintos. Es fácil ver cuán rápidamente el costo de un estudio se vuelve imposiblemente grande.

Sin embargo, esto es solo el comienzo del costo. Realizar un buen estudio va a requerir entornos cuidadosamente controlados a la altura de los mejores centros de datos para aislar los problemas ambientales tanto como sea posible. Esto implica electricidad, refrigeración, flujo de aire, control de humedad, control de vibraciones y de polvo altamente fiables. Las buenas instalaciones como estas son muy costosas y son la razón por la que muchas empresas no pagan por ellas, ni siquiera para cargas de trabajo de producción valiosas. En un estudio grande, este costo podría superar fácilmente el costo del propio equipo a lo largo del estudio.

Luego, por supuesto, debemos abordar las necesidades de sensores especiales y de pruebas. ¿Qué constituye exactamente un fallo? Incluso en los sistemas de producción suele haber disputas sobre esto. ¿Es un fallo que un disco duro falle en un arreglo, aunque el arreglo no falle? ¿Es un fallo el fallo predictivo? Si se trata de fallos de discos en un estudio, ¿cómo se tiene en cuenta el componente humano, como el reemplazo de discos, que puede no realizarse de manera uniforme? Hay maneras de manejar esto, pero añaden complicación y hacen que los estudios se desvíen de los datos del mundo real hacia datos artificiales para un estudio. Establecer directrices de estudio que sean aplicables y útiles para los usuarios finales es mucho más difícil de lo que parece.

Y el mayor costo: la mano de obra manual. Mantener un entorno para un estudio grande requerirá capital humano que puede igualar el costo del propio estudio. Se necesita una gran cantidad de personas para mantener un entorno de estudio, ejecutar el estudio mismo, monitorearlo y recopilar los datos. En definitiva, los costos son, por lo general, sencillamente imposibles de asumir.

Por supuesto, podríamos reducir enormemente la prueba, ejecutar solo un puñado de servidores y solo dos o tres modelos, pero el valor de la prueba cae rápidamente y se corre el riesgo de terminar con resultados que nadie pueda usar, habiendo gastado aun así una gran suma de dinero.

El segundo problema insuperable es el tiempo. La mayoría de las cosas deben probarse para conocer sus tasas de fallo a lo largo del tiempo y, como el equipo en TI generalmente está diseñado para funcionar de manera fiable durante décadas, recopilar datos sobre tasas de fallo requiere muchos años. Las cifras del Tiempo Medio Hasta el Fallo (MTTF) solo son útiles hasta cierto punto; el Tiempo Medio Entre Fallos (MTBF) y los tipos, modos y estadísticas de esos fallos son muy importantes para que un estudio sea útil. Lo que esto significa es que, para que un estudio sea verdaderamente útil, debe ejecutarse durante mucho tiempo, generando un costo cada vez mayor.

Pero ese no es el mayor problema. El asunto mucho más grande es que, para que un estudio tenga suficiente tiempo para generar cifras de fallo útiles, incluso si esas cifras salieran “en vivo” a medida que ocurrieran, ya sería demasiado tarde. El equipo en cuestión ya estaría envejeciendo y acercándose al momento de su reemplazo en el mercado de producción para cuando el estudio estuviera produciendo resultados tempranos verdaderamente útiles. A menudo, el equipo de producción solo se compra para una vida útil total de tres a cinco años. Obtener resultados aunque sea un año dentro de ese lapso tendría poco valor. Y los nuevos productos pueden reemplazar a los del estudio incluso más rápidamente de lo que los productos envejecen de forma natural, haciendo que el estudio solo sea valioso desde un contexto histórico, sin ninguna utilidad para determinar elecciones en un rol de decisión de producción – los resultados serían demasiado antiguos para ser útiles para cuando estuvieran disponibles.

El último factor importante es la falta de incentivos para proporcionar los datos existentes a quienes los necesitan. Si bien existen pocas fuentes de datos, algunas hay, pero casi todas están incompletas y existen para que los grandes proveedores midan la calidad de su propio equipo, las tasas de fallo y demás. Estos rara vez se realizan en entornos controlados y a menudo involucran datos recopilados en el campo. En muchos casos, estos datos pueden incluso ser privados de los clientes y, de todos modos, no poder compartirse legalmente.

Pero los proveedores que recopilan datos no los recopilan de una manera uniforme y monitoreada, por lo que compartir esos datos podría ser muy perjudicial para ellos, porque no hay garantía de que existieran datos equivalentes de sus competidores. Estadísticas no controladas como esas no ofrecerían ningún beneficio real al mercado, ni tampoco a los proveedores que las poseen, por lo que los proveedores tienen un fuerte incentivo para mantener esos datos bajo estricta reserva.

La rara excepción son algunos estudios de hardware de proveedores como Google y BackBlaze, que tienen grandes cantidades de discos duros de clase consumidor en entornos relativamente controlados y recopilan tasas de fallo para sus propios fines, pero tienen poco o ningún riesgo de que sus propios competidores aprovechen esos datos y sí tienen valor de relaciones públicas al hacerlo, por lo que, ocasionalmente, publicarán un estudio sobre la fiabilidad del hardware a escala limitada. Estos estudios son devorados con avidez por la industria, aunque generalmente contienen relativamente poco valor, ya que sus datos son antiguos y se obtuvieron bajo condiciones y umbrales desconocidos, y a menudo no contienen datos estadísticamente significativos para la comparación de productos y, en el mejor de los casos, contienen tendencias estadísticas generales de toda la industria que, a lo sumo, son algo útiles para predecir las trayectorias futuras de fiabilidad.

La mayoría de las demás empresas lo suficientemente grandes como para tener estadísticas internas de fiabilidad las tienen sobre una gama estrecha de equipos y consideran que esa información es propietaria, un riesgo potencial si se divulga (revelaría detalles importantes de las implementaciones arquitectónicas) y una ventaja competitiva. Así que, por estas razones, no se comparten.

De hecho, he tenido la fortuna de haber participado y dirigido una prueba de fiabilidad de almacenamiento a gran escala que se llevó a cabo de manera algo informal, pero muy valiosa, en más de diez mil servidores empresariales durante ocho años, lo que resultó en ochenta mil años-servidor de estudio, una oportunidad poco frecuente. Pero lo que se concluyó en ese estudio fue que, si bien fue extremadamente valioso, lo que principalmente demostró fue que, ¡en un conjunto tan grande, aún fuimos incapaces de observar un solo fallo! La ausencia de fallos fue, en sí misma, muy valiosa. Pero fuimos incapaces de producir ninguna estadística estándar como el Tiempo Medio Hasta el Fallo. Para producir el tipo de datos que la gente espera, sabemos que habríamos necesitado cientos de miles de años-servidor, como mínimo, para obtener algún tipo de significancia estadística, pero no podemos afirmar de manera fiable que incluso eso habría sido suficiente. Quizás habrían sido necesarios millones de años-servidor. No hay forma de saberlo con certeza.

Donde esto nos deja es que los estudios a gran escala en TI sencillamente no existen y, probablemente, nunca existirán. Cuando existan, estarán aislados y casi con certeza limitados por las necesidades de la realidad. No hay forma de monetizar estudios a la escala necesaria para que sean útiles, principalmente porque las tasas de fallo del equipo empresarial son muy bajas mientras que el equipo es muy caro, de modo que las empresas externas nunca pueden cubrir el costo de proporcionar esta investigación. Como industria, debemos aceptar que este tipo de datos no existe y buscar activamente alternativas para tener acceso a tales datos. Es sorprendente que tanta gente en el campo espere que este tipo de datos esté disponible cuando, históricamente, nunca lo ha estado.

Nuestras únicas opciones reales, considerando este vacío, son recopilar la evidencia anecdótica que exista (algo muy peligroso de hacer que requiere una cuidadosa consideración del contexto) y la aplicación de la lógica para evaluar enfoques y técnicas de fiabilidad. Esta es una situación amplia donde la observación necesariamente nos falla y solo la lógica y la intuición pueden usarse para llenar el vacío de conocimiento resultante.

Etiquetadoagent buyers agent sellers agent vendor

Más para leer.

El contrato social de las ventas

¿Cuándo considerar la alta disponibilidad?

Repensar las versiones con soporte a largo plazo