S.M.A.R.T.

La tecnología de autocontrol, análisis e información, o S.M.A.R.T., es un sistema de vigilancia de los discos duros de los ordenadores para ayudar a frenar el riesgo de fallos. Lo hace vigilando la fiabilidad de los discos duros para intentar ver cuándo puede producirse un fallo y dónde.

 

Fondo

Los fallos de los discos duros se dividen en dos categorías:

  • Los "fallos predecibles" se producen durante un periodo de tiempo más largo. Ejemplos de ello son el desgaste mecánico o la degradación de la superficie del dispositivo de almacenamiento.
  • Los fallos imprevisibles se producen de forma repentina, de manera imprevista. Ejemplos de ello son el fallo de un componente electrónico, o un fallo mecánico repentino, quizá debido a una mala manipulación.

Los fallos previsibles pueden ser detectados por ciertos dispositivos de control. Es como un termómetro en un vehículo que puede alertar al conductor para que haga algo antes de que se produzcan daños graves, por ejemplo, porque el motor está demasiado caliente.

Aproximadamente el 60% de las averías de las transmisiones se deben a fallos mecánicos. La mayoría de los fallos mecánicos son consecuencia del desgaste gradual. Un eventual fallo puede ser catastrófico. Antes de que se produzca el fallo completo, suele haber ciertos signos de que el fallo es inminente. Estos pueden incluir un aumento de la producción de calor, una unidad más ruidosa, problemas con la lectura o escritura de datos y un gran aumento del número de sectores de disco dañados.

El objetivo del S.M.A.R.T. es avisar al usuario o al administrador del sistema de que una unidad está a punto de fallar. En el momento de la advertencia, suele haber tiempo para hacer ciertas cosas para evitar la pérdida de datos, por ejemplo, copiar los datos a una unidad diferente. Aproximadamente el 30% de los fallos pueden predecirse mediante el S.M.A.R.T. El trabajo realizado en Google con más de 100.000 unidades ha demostrado el escaso valor predictivo general del estado del S.M.A.R.T. en su conjunto. El estudio sugiere que ciertas subcategorías de información que algunas implementaciones de S.M.A.R.T. rastrean se correlacionan con las tasas de fallo reales. En los 60 días posteriores al primer error de escaneado de una unidad, ésta tiene 39 veces más probabilidades de fallar de media que si no se hubiera producido dicho error. Asimismo, los primeros errores en las reasignaciones, las reasignaciones fuera de línea y los recuentos probatorios están fuertemente correlacionados con mayores probabilidades de fallo.

La página de PCTechGuide sobre el S.M.A.R.T. comentaba en 2003 que la tecnología había pasado por tres fases:

"

En su encarnación original, SMART proporcionaba una predicción de fallos mediante la supervisión de ciertas actividades en línea del disco duro. Una versión posterior mejoró la predicción de fallos añadiendo una exploración de lectura automática fuera de línea para supervisar operaciones adicionales. La última tecnología SMART no sólo supervisa las actividades del disco duro, sino que añade la prevención de fallos al intentar detectar y reparar los errores de sector. Además, mientras que las versiones anteriores de la tecnología sólo supervisaban la actividad del disco duro para los datos recuperados por el sistema operativo, esta última tecnología SMART comprueba todos los datos y todos los sectores de una unidad mediante la "recopilación de datos fuera de línea" para confirmar la salud de la unidad durante los períodos de inactividad.

"

 

Historia y predecesores

La primera tecnología de supervisión de discos duros del sector fue introducida por IBM en 1992 en sus matrices de discos IBM 9337 para servidores AS/400 que utilizaban unidades de disco IBM 0662 SCSI-2. Más tarde se denominó tecnología de Análisis Predictivo de Fallos (PFA). Medía varios parámetros clave del estado del dispositivo y los evaluaba dentro del firmware de la unidad. Las comunicaciones entre la unidad física y el software de monitorización se limitaban a un resultado binario: "el dispositivo está bien" o "es probable que la unidad falle pronto".

Más tarde, el fabricante de ordenadores Compaq y los fabricantes de unidades de disco Seagate, Quantum y Conner crearon otra variante, denominada IntelliSafe. Las unidades de disco medirían los "parámetros de salud" del disco, y los valores se transferirían al sistema operativo y al software de supervisión del espacio del usuario. Cada proveedor de unidades de disco era libre de decidir qué parámetros debían incluirse en la monitorización y cuáles debían ser sus umbrales. La unificación se hacía a nivel de protocolo con el host.

Compaq presentó su implementación al Small Form Committee para su estandarización a principios de 1995. Contó con el apoyo de IBM, de los socios de desarrollo de Compaq, Seagate, Quantum y Conner, y de Western Digital, que no tenía un sistema de predicción de fallos en ese momento. El Comité eligió el enfoque de IntelliSafe, ya que ofrecía más flexibilidad. La norma resultante, desarrollada conjuntamente, se denominó S.M.A.R.T.

 

Información SMART

La documentación técnica de SMART se encuentra en la norma AT Attachment (ATA).

La información más básica que proporciona SMART es el estado de SMART. Sólo proporciona dos valores: "umbral no superado" y "umbral superado". A menudo se representan como "accionamiento correcto" o "accionamiento defectuoso", respectivamente. Un valor de "umbral superado" pretende indicar que existe una probabilidad relativamente alta de que la unidad no pueda cumplir sus especificaciones en el futuro, es decir, que la unidad está "a punto de fallar". El fallo previsto puede ser catastrófico o puede ser algo tan sutil como la incapacidad de escribir en determinados sectores, o quizás un rendimiento más lento que el mínimo declarado por el fabricante.

El estado SMART no indica necesariamente la fiabilidad pasada o presente de la unidad. Si una unidad ya ha fallado de forma catastrófica, el estado SMART puede ser inaccesible. Por otra parte, si un accionamiento ha tenido problemas en el pasado, pero los sensores ya no los detectan, el estado SMART puede sugerir, en función de la programación del fabricante, que el accionamiento está en buen estado.

La incapacidad de leer algunos sectores no siempre es una indicación de que una unidad esté a punto de fallar. Una de las formas en que pueden crearse sectores ilegibles, incluso cuando la unidad funciona dentro de las especificaciones, es a través de un corte de energía repentino mientras la unidad está escribiendo. Para evitar este problema, los discos duros modernos siempre terminan de escribir al menos el sector actual inmediatamente después de que falle la alimentación (normalmente utilizando la energía de rotación del disco). Además, incluso si el disco físico está dañado en un lugar, de manera que un determinado sector es ilegible, el disco puede utilizar el espacio de reserva para reemplazar el área mala, de manera que el sector puede ser sobrescrito.

Se pueden obtener más detalles sobre la salud de la unidad examinando los Atributos SMART. Los atributos SMART se incluyeron en algunos borradores de la norma ATA, pero se eliminaron antes de que la norma fuera definitiva. El significado y la interpretación de los atributos varía entre los fabricantes, y a veces se consideran un secreto comercial para un fabricante u otro. Los atributos se analizan con más detalle a continuación.

Las unidades con SMART pueden admitir opcionalmente una serie de "registros". El registro de errores registra información sobre los errores más recientes que la unidad ha comunicado al ordenador central. El examen de este registro puede ayudar a determinar si los problemas del ordenador están relacionados con el disco o son causados por otra cosa.

Una unidad compatible con SMART puede admitir opcionalmente una serie de rutinas de autocomprobación o mantenimiento, y los resultados de las pruebas se guardan en el registro de autocomprobación. Las rutinas de autocomprobación pueden utilizarse para detectar cualquier sector ilegible en el disco, de modo que puedan restaurarse desde fuentes de respaldo (por ejemplo, desde otros discos en un RAID). Esto ayuda a reducir el riesgo de incurrir en una pérdida permanente de datos.

 

Normas y aplicación

Muchas placas base muestran un mensaje de advertencia cuando una unidad de disco se aproxima a un fallo. Aunque es un estándar de la industria entre la mayoría de los principales fabricantes de discos duros, hay algunos problemas pendientes y mucho "conocimiento secreto" patentado por los fabricantes individuales en cuanto a su enfoque específico.

Desde un punto de vista legal, el término "S.M.A.R.T." se refiere únicamente a un método de señalización entre los sensores electromecánicos internos de la unidad de disco y el ordenador central. Por lo tanto, los fabricantes pueden afirmar que una unidad incluye soporte S.M.A.R.T. aunque no incluya, por ejemplo, un sensor de temperatura, que el cliente podría esperar razonablemente que estuviera presente. Además, en el caso más extremo, un fabricante de discos podría, en teoría, producir una unidad que incluya un sensor para un solo atributo físico, y luego anunciar legalmente el producto como "compatible con S.M.A.R.T.".

Dependiendo del tipo de interfaz que se utilice, es posible que algunas placas base habilitadas para S.M.A.R.T. y el software correspondiente no se comuniquen con determinadas unidades habilitadas para S.M.A.R.T. Por ejemplo, pocas unidades externas conectadas mediante USB y Firewire envían correctamente los datos S.M.A.R.T. a través de esas interfaces. Con tantas formas de conectar un disco duro (SCSI, Fibre Channel, ATA, SATA, SAS, SSA, etc.), es difícil predecir si los informes S.M.A.R.T. funcionarán correctamente en un sistema determinado.

Incluso en los discos duros e interfaces que lo soportan, la información S.M.A.R.T. puede no ser reportada correctamente al sistema operativo del ordenador. Algunas controladoras de disco pueden duplicar todas las operaciones de escritura en una unidad secundaria "de reserva" en tiempo real. Esta característica se conoce como "RAID mirroring". Sin embargo, muchos programas diseñados para analizar los cambios en el comportamiento de las unidades y transmitir alertas S.M.A.R.T. al operador no funcionan correctamente cuando un sistema informático está configurado para soportar RAID. En general, esto se debe a que, en condiciones normales de funcionamiento de RAID, el subsistema RAID no permite al ordenador "ver" (o acceder directamente) a las unidades físicas individuales, sino que sólo puede acceder a los volúmenes lógicos.

En la plataforma Windows, muchos programas diseñados para supervisar e informar sobre la información S.M.A.R.T. sólo funcionan bajo una cuenta de administrador. En la actualidad, el S.M.A.R.T. es implementado individualmente por los fabricantes, y aunque algunos aspectos están estandarizados para la compatibilidad, otros no.

 

Atributos de ATA S.M.A.R.T.

Cada fabricante de unidades define un conjunto de atributos y establece unos valores umbral por encima de los cuales los atributos no deben pasar en condiciones normales de funcionamiento. Cada atributo tiene un valor bruto, cuyo significado depende enteramente del fabricante del accionamiento (pero que suele corresponder a recuentos o a una unidad física, como los grados centígrados o los segundos), y un valor normalizado, que va de 1 a 253 (donde 1 representa el peor caso y 253 el mejor). Dependiendo del fabricante, a menudo se elige un valor de 100 o 200 como valor "normal".

Entre los fabricantes que han apoyado al menos un atributo S.M.A.R.T. en varios productos se encuentran: Samsung, Seagate, IBM (Hitachi), Fujitsu, Maxtor, Toshiba, Western Digital y ExcelStor Technology.

Umbral Superado Condición

La condición de umbral excedido (TEC) es una supuesta fecha en la que un atributo estadístico crítico del accionamiento alcanzará su valor de umbral. Cuando el software Drive Health informa de un "T.E.C. más cercano", debe considerarse como una "fecha de fallo".

El pronóstico de esta fecha se basa en el factor "Velocidad de cambio de atributos"; cuántos puntos cada mes está disminuyendo/aumentando el valor. Este factor se calcula automáticamente en cualquier cambio de atributos S.M.A.R.T. para cada atributo individualmente. Tenga en cuenta que las fechas de la TEC no son garantías; los discos duros pueden durar y durarán mucho más o fallarán mucho antes de la fecha dada por una TEC.

 

AlegsaOnline.com - 2020 / 2023 - License CC3