Componentes Clave y Tecnologías de Servidores para Máximo Rendimiento y Disponibilidad

Pilares del Rendimiento y Confiabilidad en Servidores

Las características distintivas de los servidores incluyen: elevada capacidad de cómputo (que se apoya en múltiples CPU de alta velocidad y una elevada capacidad de memoria), sistemas de almacenamiento de alta velocidad y gran capacidad, una elevada disponibilidad y mecanismos para la gestión fuera de línea. Estos elementos son cruciales para su rol fundamental en la infraestructura tecnológica actual.

1. Capacidad de Cómputo Superior

Procesadores (CPU) Optimizados para Servidores

Existen familias de procesadores diseñadas específicamente para el entorno de servidores, entre las que destacan:

  • Familia Xeon de Intel
  • Familia EPYC de AMD
Mejoras Clave en CPU de Servidor (frente a procesadores para equipos de escritorio):
  • Mayor número de núcleos.
  • Memorias caché de mayor tamaño.
  • Mecanismos que posibilitan el trabajo colaborativo entre dos o más procesadores.
  • Soporte para mayores tamaños de memoria RAM.

Memoria RAM de Alta Capacidad

Objetivo: Proporcionar el soporte necesario para aplicaciones que requieren grandes cantidades de memoria, como es el caso de Big Data y los entornos de consolidación de servidores.

Especificaciones Típicas de Memoria RAM en Servidores:
  • Tecnología actual: DDR4 (y evoluciones posteriores).
  • Implementación física: Módulos DIMM DDR4.
  • Capacidad máxima teórica: Puede alcanzar los 512 GiB por módulo, o incluso más.

El diseño para una elevada capacidad de memoria es proporcionado por las placas base de los servidores, mediante la implementación de un elevado número de conectores (sockets) para módulos de memoria DDR4 de alta capacidad.

2. Sistemas de Almacenamiento Avanzados

Almacenamiento de Alta Velocidad

  • Uso de tecnología RAID: Eleva las prestaciones del subsistema de disco mediante técnicas como la fragmentación de datos (data striping).
  • Uso de dispositivos SSD (Unidades de Estado Sólido): Mejora sustancialmente las prestaciones en comparación con los dispositivos HDD (Discos Duros tradicionales), sobre todo en operaciones de acceso aleatorio.

Elevada Capacidad de Almacenamiento

Se logra mediante diseños con múltiples bahías y el uso de tecnologías de control avanzadas:

  • Diseños con múltiples bahías (drive bays): Una bahía es un espacio de tamaño estandarizado cuyo objetivo es albergar un dispositivo hardware, habitualmente de almacenamiento. Los tamaños de bahía habituales en servidores son de 2,5 pulgadas y 3,5 pulgadas.
  • Uso de controladoras RAID SAS: Con capacidad para gestionar múltiples discos y ofrecer diversas configuraciones de redundancia y rendimiento.
  • Uso de expansores SAS: Permiten aumentar el número de dispositivos SAS conectables al sistema.

3. Alta Disponibilidad y Fiabilidad

La alta disponibilidad es una característica esencial de los servidores, intrínsecamente ligada a la fiabilidad de sus componentes.

Fundamentos de la Fiabilidad

Concepto de fiabilidad: Se define como la probabilidad de que un componente funcione correctamente hasta un determinado momento del tiempo.

Un parámetro indicativo clave de la fiabilidad de un componente es el MTBF (Mean Time Between Failures) o Tiempo Medio Entre Fallos.

Concepto de MTBF

El MTBF representa el tiempo medio esperado entre dos fallos consecutivos de un componente reparable. Habitualmente se expresa en horas.

Cálculo de la Fiabilidad en Función del Tiempo:

Z9PYqFKggAAAAASUVORK5CYII=

Beneficios de la Fiabilidad

El uso de componentes de alta fiabilidad disminuye la probabilidad de fallo de los mismos, lo que redunda en una mejora de la disponibilidad del sistema en el que se integran dichos componentes.

¿Qué Componentes Presentan Mayores Problemas de Fiabilidad?

Los componentes con mayores problemas de fiabilidad suelen ser:

  • Discos duros
  • Fuentes de alimentación
  • Ventiladores

Causa: Principalmente, sus características electromecánicas y la presencia de elementos móviles, que son más susceptibles al desgaste y fallo.

Fiabilidad en las Memorias RAM

Celdas de Memoria (Repaso)

La celda es el elemento fundamental de la memoria RAM que almacena 1 bit de información. Está constituida básicamente por un condensador. La carga del condensador (es decir, cargado o descargado) determina el estado lógico de la celda (‘0’ o ‘1’). Un chip de memoria RAM se organiza como una matriz de estas celdas.

Tipos de Errores en los Módulos de Memoria RAM
  • Errores duros (hard errors): Son debidos a roturas o defectos físicos del hardware. Estos errores provocan que el chip dañado devuelva siempre datos erróneos.
  • Errores blandos (soft errors): Son errores aleatorios, causados por perturbaciones eléctricas que alteran el estado de carga de las celdas, variando su estado lógico. Se denominan blandos porque no son debidos a un mal funcionamiento intrínseco de las celdas.

Consecuencia de los errores blandos: Disminuyen la fiabilidad del sistema de memoria.

Memorias RAM ECC (Error Correcting Code)

Para mejorar la fiabilidad, se utilizan memorias RAM con mecanismos de detección y corrección de errores. La memoria RAM ECC es un tipo de memoria que implementa estos mecanismos.

Una ECC básica puede corregir errores de 1 bit y detectar un fallo en 2 bits en cada bloque de 64 bits de datos.

El checksum es un código (habitualmente de 8 bits en implementaciones ECC simples) que se calcula y almacena para cada bloque de 64 bits de memoria. Este código se utiliza para detectar y corregir los posibles errores ocurridos en dicho bloque.

Funcionamiento del Mecanismo ECC

El controlador de memoria de la placa base, mediante un circuito EDAC (Error Detection and Correction), gestiona el proceso:

  1. El checksum se genera y almacena cada vez que se escribe en un bloque de 64 bits.
  2. Posteriormente, cuando se lee dicho bloque, el checksum se vuelve a calcular y se compara con el que fue almacenado previamente.
  3. Si ambos checksums coinciden, no hay error, y se puede continuar con la lectura de los datos.
  4. Si no coinciden, se ha detectado un error. En este último caso, el checksum (junto con la información del EDAC) se utiliza para realizar la corrección del error, tras lo cual, se continúa con el proceso de lectura con los datos ya corregidos.

Redundancia de Componentes

Objetivo: Proporcionar un mecanismo de tolerancia a fallos, de modo que, aunque se produzca un fallo en un componente, el servidor pueda seguir en funcionamiento gracias a un componente redundado o a un sistema de respaldo.

Esta estrategia incrementa significativamente la disponibilidad del servidor.

Componentes Habitualmente Redundados:
  • Discos duros (gestionados en configuraciones RAID como RAID 1, RAID 5, RAID 6 o RAID 10).
  • Fuentes de alimentación (con configuraciones N+1 o N+N).
  • Módulos de memoria RAM (mediante técnicas como el memory sparing o mirroring, soportadas por algunas plataformas).

4. Gestión Fuera de Línea (Out-of-Band Management)

La gestión fuera de línea es una característica vital en servidores que permite a los administradores monitorizar, gestionar y controlar el hardware del servidor de forma remota, independientemente del estado del sistema operativo principal. Esto es crucial para tareas de mantenimiento, diagnóstico y recuperación ante fallos.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.