Explicando a Falta de Estudos em Larga Escala em TI

Os profissionais de TI os solicitam todos os dias e, ainda assim, nenhum existe – estudos de risco e desempenho em larga escala para hardware e software de TI. Isso abrange uma ampla gama de possibilidades, mas exemplos comuns são as taxas de falha entre diferentes modelos de servidores, discos rígidos, sistemas operacionais, tipos de array RAID, desktops, laptops, o que você imaginar. E, ainda assim, independentemente da alta demanda por esse tipo de dado, não há nenhum disponível. Como isso pode ser.
Nem todos os casos são iguais, é claro, mas, de modo geral, há três fatores realmente significativos que entram em jogo e impedem que esse tipo de dado chegue ao campo. São eles o alto custo de conduzir um estudo, a longa escala de tempo necessária para um estudo e a falta de incentivo para produzir e/ou compartilhar esses dados com outras empresas.
O custo é, de longe, o maior fator. Se o custo dos estudos em larga escala pudesse ser superado, soluções poderiam ser encontradas para todos os outros fatores. Mas, infelizmente, a natureza de um estudo em larga escala é que ele será caro. Como exemplo, podemos olhar para as taxas de confiabilidade de servidores.
A fim de determinar as taxas de falha de um servidor, precisamos de um grande número de servidores para coletar esses dados. Isto pode parecer um exemplo extremo, mas as taxas de falha de servidores são uma das estimativas de estudos em larga escala mais comumente solicitadas e, portanto, o exemplo é importante. Precisaríamos talvez de algumas centenas de servidores para um estudo muito pequeno, mas, para obter dados estatisticamente significativos, provavelmente precisaríamos de milhares de servidores. Se assumirmos que um único servidor custa cinco mil dólares, o que seria um servidor de nível relativamente básico, estamos falando facilmente em vinte e cinco milhões de dólares em equipamentos! E isso é apenas o suficiente para realizar um teste de escala um tanto pequena (apenas cinco mil servidores) de um dispositivo de custo bastante baixo. Se fôssemos falar de servidores corporativos, chegaríamos facilmente a trinta ou até cinquenta mil dólares por servidor, levando o custo até a um quarto de bilhão de dólares.
Ora, esse custo, é claro, é para testar uma única configuração de um único modelo de servidor. Presumivelmente, para que um estudo seja significativo, precisaríamos de muitos modelos diferentes de servidores. Talvez vários de cada fornecedor para comparar diferentes linhas e recursos. Talvez muitos fornecedores diferentes. É fácil perceber a rapidez com que o custo de um estudo se torna impossivelmente alto.
Isto é apenas o começo do custo, no entanto. Realizar um bom estudo exigirá ambientes cuidadosamente controlados, à altura dos melhores datacenters, para isolar os problemas ambientais o máximo possível. Isto significa eletricidade, refrigeração, fluxo de ar, controle de umidade, vibração e controle de poeira altamente confiáveis. Boas instalações como essas são muito caras e são a razão pela qual muitas empresas não pagam por elas, mesmo para cargas de trabalho de produção valiosas. Em um estudo de grande porte, esse custo poderia facilmente exceder o custo do próprio equipamento ao longo do estudo.
Então, é claro, precisamos abordar as necessidades de sensores e testes especiais. O que exatamente constitui uma falha? Mesmo em sistemas de produção, há frequentemente disputa sobre isso. Um disco rígido falhando em um array é uma falha, mesmo que o array não falhe? Uma falha preditiva é uma falha? Ao lidar com falhas de disco em um estudo, como você considera componentes humanos, como a substituição de discos, que pode não ser feita de maneira uniforme? Há maneiras de lidar com isso, mas elas acrescentam complicação e fazem com que os estudos se desviem dos dados do mundo real em direção a dados artificiais para um estudo. Estabelecer diretrizes de estudo que sejam aplicáveis e úteis para os usuários finais é muito mais difícil do que parece.
E o maior custo: a mão de obra manual. Manter um ambiente para um estudo de grande porte exigirá capital humano que pode igualar o custo do próprio estudo. É necessário um grande número de pessoas para manter um ambiente de estudo, conduzir o próprio estudo, monitorá-lo e coletar os dados. De modo geral, os custos são, em geral, simplesmente impossíveis de arcar.
É claro que poderíamos reduzir muito o teste, executar apenas um punhado de servidores e somente dois ou três modelos, mas o valor do teste cai rapidamente e corre o risco de acabar com resultados que ninguém pode usar, tendo ainda assim gasto uma grande quantia de dinheiro.
O segundo problema intransponível é o tempo. A maioria das coisas precisa ser testada quanto às taxas de falha ao longo do tempo e, como os equipamentos em TI são geralmente projetados para funcionar de forma confiável por décadas, coletar dados sobre as taxas de falha requer muitos anos. Os números de Tempo Médio Até a Falha (Mean Time to Failure) têm um valor limitado; o Tempo Médio Entre Falhas (Mean Time Between Failures) e os tipos de falha, os modos e as estatísticas sobre essa falha são muito importantes para que um estudo seja útil. O que isso significa é que, para que um estudo seja verdadeiramente útil, ele deve ser executado por um período muito longo, gerando um custo cada vez maior.
Mas esse não é o maior problema. A questão muito maior é que, para que um estudo tenha tempo suficiente para gerar números de falha úteis, mesmo que esses números surgissem “ao vivo” à medida que ocorressem, já seria tarde demais. O equipamento em questão já estaria envelhecendo e se aproximando do momento de substituição no mercado de produção quando o estudo estivesse produzindo resultados iniciais verdadeiramente úteis. Frequentemente, o equipamento de produção é adquirido para uma vida útil total de apenas três a cinco anos. Obter resultados mesmo após um ano dentro desse período teria pouco valor. E novos produtos podem substituir aqueles do estudo de forma ainda mais rápida do que os produtos envelhecem naturalmente, tornando o estudo valioso apenas de um contexto histórico, sem qualquer utilidade para determinar escolhas em um papel de decisão de produção – os resultados estariam velhos demais para serem úteis quando estivessem disponíveis.
O último fator importante é a falta de incentivo para fornecer os dados existentes àqueles que deles precisam. Embora poucas fontes de dados existam, algumas existem, mas quase todas são incompletas e existem para que grandes fornecedores avaliem a qualidade de seus próprios equipamentos, taxas de falha e afins. Esses dados raramente são obtidos em ambientes controlados e frequentemente envolvem dados coletados em campo. Em muitos casos, esses dados podem até ser privados dos clientes e, de qualquer forma, não podem ser compartilhados legalmente.
Mas os fornecedores que coletam dados não os coletam de maneira uniforme e monitorada, de modo que compartilhar esses dados poderia ser muito prejudicial para eles, porque não há garantia de que dados equivalentes de seus concorrentes existiriam. Estatísticas não controladas como essas não ofereceriam nenhum benefício real ao mercado, nem aos fornecedores que as possuem, de modo que os fornecedores têm forte incentivo para manter esses dados sob rígido sigilo.
A rara exceção são alguns estudos de hardware de fornecedores como Google e BackBlaze, que possuem grandes quantidades de discos rígidos de classe de consumo em ambientes relativamente controlados e coletam taxas de falha para seus próprios fins, mas têm pouco ou nenhum risco de que seus próprios concorrentes aproveitem esses dados; têm, porém, valor de relações públicas ao fazê-lo e, assim, ocasionalmente, divulgam um estudo sobre a confiabilidade de hardware em uma escala limitada. Esses estudos são avidamente devorados pela indústria, mesmo que geralmente contenham relativamente pouco valor, já que seus dados são antigos e obtidos sob condições e limiares desconhecidos, e frequentemente não contêm dados estatisticamente significativos para a comparação de produtos e, na melhor das hipóteses, contêm tendências estatísticas gerais de toda a indústria que são, no máximo, um tanto úteis para prever os rumos futuros da confiabilidade.
A maioria das outras empresas grandes o suficiente para ter estatísticas internas de confiabilidade as possui sobre uma gama restrita de equipamentos e considera essa informação proprietária, um risco potencial caso divulgada (revelaria detalhes importantes das implementações de arquitetura) e uma vantagem competitiva. Por essas razões, elas não são compartilhadas.
Na verdade, tive a sorte de ter participado e conduzido um teste de confiabilidade de armazenamento em larga escala que foi realizado de maneira um tanto informal, mas de forma muito valiosa, em mais de dez mil servidores corporativos ao longo de oito anos, resultando em oitenta mil anos-servidor de estudo, uma oportunidade rara. Mas o que se concluiu nesse estudo foi que, embora extremamente valioso, o que ele mostrou principalmente é que, em um conjunto tão grande, ainda fomos incapazes de observar uma única falha! A ausência de falhas foi, em si, muito valiosa. Mas fomos incapazes de produzir qualquer estatística padrão como o Tempo Médio Até a Falha. Para produzir o tipo de dado que as pessoas esperam, sabemos que teríamos precisado de centenas de milhares de anos-servidor, no mínimo, para obter qualquer tipo de significância estatística, mas não podemos afirmar com confiança que mesmo isso teria sido suficiente. Talvez milhões de anos-servidor tivessem sido necessários. Não há como realmente saber.
O que isso nos deixa é que os estudos em larga escala em TI simplesmente não existem e, provavelmente, nunca existirão. Quando existem, são isolados e quase certamente prejudicados pelas necessidades da realidade. Não há meios de monetizar estudos na escala necessária para serem úteis, principalmente porque as taxas de falha dos equipamentos corporativos são tão baixas, enquanto o equipamento é tão caro, que empresas terceirizadas nunca conseguem cobrir o custo de fornecer essa pesquisa. Como indústria, devemos aceitar que esse tipo de dado não existe e buscar ativamente alternativas ao acesso a tais dados. É surpreendente que tantas pessoas no campo esperem que esse tipo de dado esteja disponível, quando historicamente ele nunca esteve.
Nossas únicas opções reais, considerando esse vácuo, são coletar as evidências anedóticas que existem (algo muito perigoso de se fazer, que exige uma consideração cuidadosa do contexto) e a aplicação da lógica para avaliar abordagens e técnicas de confiabilidade. Esta é uma situação ampla em que a observação necessariamente nos falha e somente a lógica e a intuição podem ser usadas para preencher a lacuna de conhecimento resultante.
