Publicación semestral   • ISSN 2683-2968   •  Febrero 2024   •  Número de revista 9
DOI: https://doi.org/10.22201/dgtic.26832968e

Resumen Introducción  •  Desarrollo  • Conclusiones  •  Bibliografía  •  Anexo 1 •  [Versión PDF]

3/6

Desarrollo

Almacenamiento Masivo
Entiéndase el almacenamiento masivo como un conjunto de sistemas destinados a guardar grandes cantidades de datos, a corto, mediano o largo plazos, en soportes físicos como discos ópticos o duros, cintas magnéticas, unidades Zip y la nube, entre otros, con el objetivo de buscar, leer y recuperar información, garantizando su permanencia con base en políticas de preservación, así como estrategias y tecnologías. También se asocia con copias de seguridad y la recuperación de datos.

Dentro de los estándares y proyectos internacionales, se tiene el modelo OAIS y la alianza NDSA-LDP, como grandes aportes para la PD. OAIS está dedicado a la gestión, la preservación y el almacenamiento de archivos. Es utilizado para garantizar que el contenido digital sea almacenado adecuadamente, permanezca completo y reproducible con el tiempo, por medio de actualizaciones periódicas de los medios y la migración de formatos, y cuente con mecanismos de salvaguarda, procedimientos de comprobación de errores y planes de recuperación ante desastres. [1] El NDSA-LDP es un grupo con más de 140 organizaciones, que busca establecer, mantener y anticipar la capacidad para preservar los recursos digitales nacionales (EE. UU.), como un beneficio para las generaciones presentes y futuras, creando niveles de PD, buenas prácticas y guías estructuradas en 36 actividades de preservación digital englobadas en 5 categorías y ponderadas en 4 niveles con acciones específicas en PD. [2]

Es importante señalar que la PD tiene requerimientos de almacenamiento masivo muy particulares, acordes con la estrategia de preservación, visión y misión, establecidas por cada institución.

Descripción del Instrumento (temáticas, muestra y recolección)
Las preguntas del instrumento surgieron conforme a las experiencias del Grupo de Almacenamiento Masivo y las instituciones representadas, además de la revisión de artículos referentes al tema y los niveles de almacenamiento de la NDSA-LDP. Se utilizaron preguntas de opción múltiple, cerradas y abiertas, para conocer otras tecnologías o procesos no contemplados, logrando mejorar y robustecer el instrumento en cuanto a reactivos e instituciones participantes.

El instrumento contempló las secciones:

  1. Interés del almacenamiento en materia de PD: tipo de institución, experiencias problemáticas y/o necesidades, importancia o desconocimiento del tema.
  2. Acervo digital: tamaño, tipo de formatos y contenidos a preservar, crecimiento y prioridad.
  3. Infraestructura: estado, espacio, medios de almacenamiento y respaldo, actual y futuro.
  4. Personal: capacitado y calificado.

Participantes
El instrumento se aplicó al GAM, obteniendo una muestra de 6 registros. Después, se distribuyó al Grupo de Preservación Digital (GPD), [3] creciendo a 12 registros, y, por último, se compartió con instituciones externas, con injerencia e interés en la PD. Las instituciones participantes están enmarcadas en sectores gubernamentales, asociaciones civiles, organizaciones educativas, así como entidades científicas, sociales, institucionales, tecnológicas y culturales, además de bibliotecas y centros de investigación, alcanzándose una muestra de 32 registros: 21 instituciones mexicanas (10 entidades de la UNAM) y 11 instituciones latinoamericanas (3 de Colombia, 3 de Nicaragua, 2 de Cuba, 2 de Panamá y 1 de Costa Rica). Anexo I 

Análisis en cuanto a acervo, materiales y formatos
En el análisis, un 75% de las instituciones participantes mostró interés en preservar por normatividad, mientras que el 25% restante investiga e implementa acciones por convicción. Con respecto al tipo de formatos y contenido, las instituciones prefieren preservar archivos históricos que de servicios, y preservar multimedios que archivos comprimidos. La mayor variedad de formatos y contenidos la reportaron las entidades participantes de la UNAM.

Figura 1

 Figura 1
Tipos de contenido a preservar
Fuente: propia, con base en el análisis del instrumento

Infraestructura y espacio de almacenamiento
El 37.5% de las instituciones participantes manifestó no contar con infraestructura para dedicarla a la PD, mientras que el 53% indicó que sí. De este segundo grupo, el 46.8% cuenta con equipos especializados, como servidores, unidades de almacenamiento, servicios en la nube, almacenamiento institucional remoto y sistemas de gestión de medios (MAM). De las entidades de la UNAM, el 72.7% cuenta con infraestructura dedicada y el 63.6%, especializada. El alto porcentaje obtenido por entidades de la UNAM puede deberse a la custodia de acervos importantes de carácter nacional, históricos y propios de la Universidad.

Sobre la infraestructura necesaria, fueron mencionados equipos para centros de datos o jerárquicos, servicios en la nube o distribuidos y sistemas completos de preservación, para el largo plazo y la alta disponibilidad, además de híbridos. Adicionalmente, se necesita personal debidamente capacitado para las labores de administración, captura, catalogación y digitalización.

En cuanto al espacio disponible y el designado para la preservación, se identificaron intervalos en ambos grupos de respuestas, desde los que cuentan con menos de 10 TB, hasta los que pueden acceder a más de 150 TB. Uno de los participantes indicó que su capacidad es ilimitada. Utiliza cintas LTO, que pueden incrementarse conforme sea necesario.

Figura 2

Figura 2
Espacio disponible y destinado a la PD
Fuente: propia, con base en el análisis del instrumento

En 17 casos fue posible determinar la proporción del espacio que puede dedicarse a la preservación, en relación al disponible, encontrando que alrededor de una quinta parte puede dedicar la totalidad de su capacidad de almacenamiento y otra quinta, la mitad o más.

Tamaños de acervo y de archivos, disponibilidad y tasa de crecimiento anual
Los tamaños de acervo varían desde los mayores a 200 TB (14.2%), hasta aquellos menores a 1 TB (7.1%). La mayoría de los casos se encuentra en el rango entre 1 y 19 TB (28.5%), aunque hay que considerar que el 32.1% lo desconoce o no contestó.

Al cuestionar el tamaño promedio de los archivos a preservar, se identificó que el 31.2 % se encuentra en el rango de 1 a 99 MB; el 25% entre 100 MB y 10 GB, y el 9.3% es mayor a 10 GB.

En relación a la disponibilidad, el 55.1% manifestó que requiere que sea del 99.9%, mientras que el 37.9% lo estimó por arriba del 50%. Esto demuestra, nuevamente, que existe la necesidad de contar con almacenamiento de alta disponibilidad, así como para la preservación en el largo plazo.

Figura 3
Tamaño del acervo actual, de los archivos a preservar y tasa de crecimiento anual
Fuente: propia, con base en el análisis del instrumento

En cuanto a las necesidades futuras, el 56.2% estima que su acervo crecerá anualmente en menos del 20%, mientras que el 34.3% considera que lo hará entre el 21% y el 40%. Sólo un 3.1% consideró que se duplicará.

Ubicación de la infraestructura de preservación e interoperabilidad
Si bien se recomienda que la infraestructura de preservación esté distribuida geográficamente, al analizar los resultados se encontró que el 48.3% sólo cuenta con almacenamiento en servidores propios y el 25.8%, con un esquema combinado, que incluye además una nube comercial o espacio en el centro de datos gestionado ante la Dirección General de Cómputo y de Tecnologías de Información y Comunicación (DGTIC) de la UNAM. En un solo caso se cuenta con un esquema de 3 ubicaciones, que incluye servidores propios, el espacio en la DGTIC y un esquema híbrido. 

Figura 4
Ubicación de la infraestructura de preservación
Fuente: propia, con base en el análisis del instrumento

Acotando las respuestas a entidades de la UNAM, observamos que 5 de ellas ubican su almacenamiento únicamente en servidores propios y 2 sólo en el centro de datos de la DGTIC, mientras que 4 lo hacen en ambos. Cabe mencionar que, a pesar de la conveniencia de contar con almacenamiento en nubes públicas, por normatividad algunas instituciones no pueden hacerlo.

Con respecto a la interoperabilidad, necesaria para la comunicación entre los subsistemas de preservación, el 25% indicó que no es considerada, mientras que el 65.6% expresó que sí, a través de interfaces de programación de aplicaciones (API) y protocolos de almacenamiento.

Procedimientos en el almacenamiento
El análisis estableció que el 20% de las instituciones sólo tiene una copia de seguridad, casi la mitad (46.8%) cuenta con al menos 2 copias y 2 de cada 10 realizan 3 copias. Por otra parte, casi el 10% asegura que no cuenta con copias de seguridad, lo que resulta en un riesgo muy alto para el acervo histórico y la continuidad de los servicios de esas instituciones. Según los niveles de PD, NDSA refiere que para alcanzar el nivel básico (proteger los datos) es necesario tener 2 copias completas que no estén unidas, es decir, que se encuentren en 2 dispositivos y con soportes heterogéneos. [4] En este sentido, los que realizan al menos un respaldo, lo hacen en la ubicación del contenido original, lo que se traduce en vulnerabilidad ante desastres naturales. Casi la mitad (46.6%) de los que realizan 2 respaldos sí tienen una ubicación geográfica diferente para sus datos.

Resultó evidente la falta de normatividad al interior de las instituciones, para contar con un mecanismo escrito y formal que obligue a los responsables de los datos a realizar sus respaldos de manera procedimental. El 46% desconoce si los respaldos se hacen siguiendo un procedimiento, el 18% aseguró que no lo hace y sólo el 34% lo lleva a cabo de manera formal. Resulta importante decir que las entidades que realizan 3 copias o más, aplican un procedimiento perfectamente establecido en los lineamientos de su institución.

La periodicidad de los respaldos debe contemplar el tipo de contenido, el uso, la importancia y el espacio disponible para tal fin. El análisis reveló que 4 de cada 10 participantes desconoce la temporalidad con que se realizan sus respaldos porque lo delegan al área de sistemas de su institución. Realizar respaldos de forma semanal y mensual fue lo más común, con un 17%. Sólo el 10% realiza copias diariamente. Un dato preocupante es que el 6.9% no realiza nunca una copia de seguridad.

Al analizar el medio de almacenamiento utilizado, se estableció a los HDD, CD, NAS y discos duros externos, como los dispositivos que más se utilizan para almacenar datos, como se observa en la figura 5. Resulta relevante que el almacenamiento en la nube sólo es utilizado por 10%. En gran medida se debe a que la mayoría son instancias educativas y de gobierno, que tienen restringida la salida de información de sus instalaciones por normatividad de protección de datos personales, sensibles y confidenciales.

Figura 5
Medios de almacenamiento utilizados por las instituciones para almacenar sus datos
Fuente: propia, con base en el análisis del instrumento

Otro aspecto a considerar es que sólo la tercera parte de las instituciones cuenta con esquemas de respaldo y recuperación. Otra tercera parte expresó que no lo tiene implementado y el resto lo desconoce. Esto indica que gran parte de estas entidades se encuentra indefensa para afrontar una pérdida de datos, que puede darse por daños en el hardware o el software e, incluso, por alguna intrusión que secuestre la información.

Problemas en el almacenamiento
Los problemas que más se presentan son la falta de mantenimiento a los dispositivos, escaso personal calificado y espacio insuficiente, que en conjunto abarcan el 57% de las contrariedades que se han presentado en las instituciones participantes. Estos datos son muy congruentes con la encuesta de la NDSA 2021, en que el 36% consideró que tiene personal insuficiente, el 17% subcontrata el servicio y el 7% no tiene personal técnico especializado. [5]

figura 6

Figura 6.
Problemas detectados en el almacenamiento de datos
Fuente: propia, con base en el análisis del instrumento

1Levels of Digital Preservation (LDP) https://ndsa.org//publications/levels-of-digital-preservation/
2Hard Disk Drive (Disco Duro por sus siglas en inglés)
3Compact Disc Recordable (Disco Compacto Grabable por sus siglas en inglés)
4Network Attached Storage (Almacenamiento Conectado en Red por sus siglas en inglés)
5Results of the 2021 Staffing Survey, National Digital Stewarship Alliance. https://osf.io/2rb7k

Fecha de recepción: marzo 24, 2023
Fecha de publicación: febrero, 2024

Resumen Introducción  •  Desarrollo  • Conclusiones  •  Bibliografía  •  Anexo 1 •  [Versión PDF]

TIES, REVISTA DE TECNOLOGÍA E INNOVACIÓN EN EDUCACIÓN SUPERIOR (www.ties.unam.mx) 2024, Año 5, No. 9, febrero 2024, es una publicación semestral editada por la Universidad Nacional Autónoma de México (UNAM), Ciudad Universitaria, Alcaldía Coyoacán, C.P. 04510, Ciudad de México, a través de la Dirección General de Cómputo y de Tecnologías de Información y Comunicación, (DGTIC), Circuito Exterior s/n, Ciudad Universitaria, Alcaldía Coyoacán, C.P. 04510, Ciudad de México, Teléfono: (55) 56228166, https://www.ties.unam.mx, revista.ties@unam.mx. Directora editorial: Dra. Marina Kriscautzky Laxague. Número de reserva de Derechos de Autor otorgado por INDAUTOR: 04-2019-011816190900-203 ISSN: 2683-2968, ambos otorgados por el Instituto Nacional del Derecho de Autor. Responsable de la última actualización de este número, Dirección General de Cómputo y de Tecnologías de Información y Comunicación, (DGTIC). Circuito Exterior s/n, Ciudad Universitaria, Alcaldía Coyoacán, C.P. 04510, Ciudad de México, fecha de la última modificación, diciembre de 2022. El contenido de los artículos es responsabilidad de los autores y no refleja el punto de vista de los árbitros, del Editor o de la UNAM. Se autoriza la reproducción total o parcial de los textos aquí publicados siempre y cuando se cite la fuente completa y la dirección electrónica de la publicación. La revista se ha desarrollado sin fines de lucro, con finalidades de diseminación del conocimiento, bajo licencia Creative Commons Reconocimiento-NoComercial (CC BY-NC-SA 4.0). Hecho en México, 2024.