¿Qué es la tolerancia a fallas y por qué difiere de la alta disponibilidad?

¿Qué es la tolerancia a fallas y por qué difiere de la alta disponibilidad? Con las organizaciones cada vez más dependientes que nunca de la disponibilidad de datos , una nueva serie de términos que describen diferentes tipos de redundancias han ingresado al léxico de la infraestructura de TI .

En muchos casos, estos términos no significan lo que suenan ni crean una impresión engañosa sobre las circunstancias específicas que realmente cubren. A veces, términos similares que suenan pueden usarse indistintamente a pesar de referirse a conceptos muy diferentes.
Un buen ejemplo de este último problema son dos términos relacionados con la redundancia: tolerancia a fallas versus alta disponibilidad. Si bien ambos describen métodos para entregar altos niveles de tiempo de actividad de SLA , logran esos niveles de maneras muy diferentes. Para evitar confusiones, vale la pena tomarse el tiempo para comprender cómo se relacionan con las redundancias de redes y centros de datos, el tiempo de inactividad del servidor y cómo se diferencian entre sí.

¿Qué es un sistema tolerante a fallas?

En términos simples, la computación tolerante a fallas es una forma de redundancia de hardware completa. Dos ( o más ) sistemas operan en tándem, reflejando aplicaciones idénticas y ejecutando instrucciones en paso de bloqueo entre sí. Cuando ocurre una falla de hardware en el sistema primario, el sistema secundario que ejecuta una aplicación idéntica asume simultáneamente sin pérdida de servicio y sin tiempo de inactividad. Este enfoque podría usarse para evitar una interrupción del centro de datos , por ejemplo, asegurando que todo el hardware de misión crítica esté totalmente respaldado por sistemas idénticos.

La informática tolerante a fallas requiere hardware especializado que pueda detectar inmediatamente fallas en los componentes y mantener los sistemas duplicados funcionando en perfecto tándem. Para una red típica, esto puede eliminar por completo el tiempo de inactividad del servidor . El beneficio de esta solución es que el estado de la aplicación en memoria de cualquier programa no se pierde en caso de falla y se mantiene el acceso a otras aplicaciones y datos. En sistemas y redes más complejos, la tolerancia a fallas garantiza que cualquier solicitud del sistema se ejecutará en última instancia, independientemente de las fallas, pero a veces puede llevar más tiempo a medida que el sistema se adapta y redirige las solicitudes a través de sus redundancias.

Sin embargo, dado que los sistemas redundantes funcionan en sincronía entre sí, cualquier problema de software que provoque una falla se extenderá al sistema duplicado, haciendo que la informática tolerante a fallas sea vulnerable a los errores del sistema operativo o de la aplicación que aún podrían ocasionar el tiempo de inactividad del servidor o incluso una interrupción del centro de datos.

¿Qué es la arquitectura de alta disponibilidad?

Una solución de alta disponibilidad es un enfoque basado en software para minimizar el tiempo de inactividad del servidor. En lugar de replicar hardware físico redundante, esta solución agrupa un conjunto de servidores que se monitorean entre sí y tienen capacidades de conmutación por error. Cuando algo sale mal en el servidor primario, ya sea un error de software, falla de la aplicación o falla de hardware, uno de los servidores de respaldo entra en acción y reinicia las aplicaciones que estaban activas en el servidor bloqueado.

La arquitectura de alta disponibilidad puede recuperarse de las fallas muy rápidamente, pero hay un retraso en el tiempo de inactividad del servidor que puede provocar que los datos y las aplicaciones críticos no estén disponibles mientras el sistema se reinicia. Los estados de aplicación en memoria a menudo se pierden, aunque la solución suele ser lo suficientemente flexible como para recuperar datos que se estaban ejecutando en otro servidor en el clúster. Dado que los servidores de respaldo en una arquitectura de alta disponibilidad son independientes entre sí, ofrecen una protección sustancial contra fallas de software e interrupciones del centro de datos. Si el servidor primario se cae debido a un error del sistema operativo, el problema no se replicará en el servidor de respaldo independiente.

Tolerancia a fallas versus alta disponibilidad: ¿cuál es mejor?

La verdad es que depende.

Los sistemas tolerantes a fallas brindan una excelente protección contra fallas en los equipos , pero pueden ser extraordinariamente costosos de implementar porque requieren un conjunto de hardware totalmente redundante que necesita estar vinculado al sistema primario. La arquitectura de alta disponibilidad es mucho más rentable, pero también trae consigo la posibilidad de un tiempo de inactividad costoso , incluso si ese tiempo de inactividad solo dura unos momentos.

Por lo general, los sistemas tolerantes a fallas se aplican en industrias o redes donde el tiempo de inactividad del servidor simplemente no es aceptable. Cualquier sistema que pueda tener un impacto potencial en la vida humana, como la fabricación de equipos o dispositivos médicos , generalmente incorporará computación tolerante a fallas en su diseño. Desde el punto de vista de TI de la red, la infraestructura crítica puede utilizar sistemas tolerantes a fallas porque la solución tiene sentido para las redundancias de hardware y centros de datos. Asegura que si alguien desconecta un servidor, todo el sistema no se apagará porque las funciones se reflejan en un servidor redundante.

Desafortunadamente, la computación tolerante a fallas ofrece poca protección contra fallas de software, que es una causa importante de tiempo de inactividad e interrupciones en el centro de datos para la mayoría de las organizaciones. La arquitectura de alta disponibilidad tiene más sentido para una empresa que proporciona servicios basados en software, donde unos pocos momentos de inactividad del servidor pueden afectar el resultado final, pero no ponen en riesgo la vida de nadie. Dado que la arquitectura de alta disponibilidad no requiere que cada pieza de infraestructura física de TI sea replicada e integrada, es una solución mucho más rentable. La mayoría de las organizaciones están dispuestas a aceptar la posibilidad de un tiempo de inactividad ocasional por la certeza de pagar para implementar una solución tolerante a fallas que aún puede verse comprometida por problemas de software.

Afortunadamente, los centros de datos y proveedores de servicios actuales están mejorando cada vez más en la entrega de altos niveles de tiempo de actividad del servidor a pesar de las crecientes demandas de uso. Al implementar una amplia gama de estrategias para proporcionar copias de seguridad y otras redundancias, pueden ayudar a los clientes a obtener acceso a las aplicaciones y servicios que necesitan con una interrupción mínima.

Leer también:Tipos de métodos de integración de sistemas, TI; Explicación De IaaS: Cómo Usar IaaS Para Hacer Crecer Su Negocio; Software-defined storage SDS, almacenamiento definido por software