3-Preservación y acceso a objetos digitales fuera de línea

El contenedor de objetos digitales

Todo acervo de objetos digitales tiene que almacenarse, al menos por duplicado [7], en algún tipo de memoria cuyo soporte físico denominaremos contenedor de objetos digitales (COD). El método de preservación que describiremos no depende ni del tipo de objeto ni de la tecnología del COD, por lo que convenimos en este artículo que el acervo digital se preserva en CODs como discos ópticos o de estado sólido, cintas o discos magnéticos, etc. Siendo la preservación una actividad continua [8], es indispensable revisar periódicamente los CODs y el estado de los objetos digitales que almacenan.

La preservación de un objeto digital debe prevenir o, cuando menos, detectar la más mínima alteración causada por el fenómeno bit flip [9]. La técnica para detectar cuando este fenómeno ya afectó⁶ a un objeto digital se conoce como fixity checksum [10] o “suma de comprobación de la fijeza”, a la que en lo subsecuente nos referiremos como “chequeo de fijeza” o simplemente “fijeza”. Esta técnica se apoya en algún algoritmo para calcular funciones de dispersión empleadas en criptografía [11]. El algoritmo debe de aceptar como entrada cualquier secuencia ordenada de bits, —como son los archivos de objetos digitales—, sin importar su tamaño ni lo que representa. El resultado calculado por el algoritmo será otra secuencia pequeña de bits conocida como digest, o checksum o hash. El quid del uso del algoritmo para checar la fijeza es que al repetir el cálculo sobre la misma entrada siempre obtendremos el mismo resultado, pero ante la misma entrada alterada en uno o más de sus bits obtendremos un checksum diferente.

Explicaremos dos scripts que emplean el paquete FCIV [12] con MD5⁷. Un script se usa para hacer copiado íntegro a CODs de preservación. El otro se utiliza periódicamente para revisar los contenidos digitales de cada contenedor y el estado físico de los CODs.

Copiado íntegro
La figura 3 ilustra los tres pasos de un copiado íntegro. Después de efectuar los tres pasos de la figura 3, cuando la copia es íntegra, los archivos fciv1.XML y fciv2.XML serán idénticos, lo que se verifica comparándolos con un comando del sistema de archivos.

Por último, el .XML con los metadatos de fijeza se copia al COD que contiene los objetos digitales referenciados dentro del .XML. Esta es una solución práctica ya que almacenar los .XML por fuera de su COD, aumentará la complejidad del sistema y el trabajo de chequeo de la fijeza.

A modo de ejemplo, la figura 4 muestra un extracto del .XML resultante al aplicar nuestro script a los 86,400 archivos con fotogramas DPX de una película digitalizada. En estos archivos .XML, cada par de etiquetas delimita un par con el nombre del archivo de un fotograma y otro con su correspondiente digest, este último representado en “base64” y no en hexadecimal como es más usual [13].

El script para el copiado íntegro acepta estructuras arborescentes raíz-subcarpetas-archivos; la ruta o path de cada archivo se incluye como prefijo de cada nombre (omitido en el ejemplo). La verificación de integridad informa cuando la comparación de los .XML difiere, en cuyo caso el copiado debe reintentarse.

Revisión periódica de metadatos de fijeza
El script para la verificación periódica de la fijeza se apoya en el mismo principio que el copiado íntegro (ver figura 3), salvo porque en su primer y único paso trabaja con el contenido del COD verde para producir un nuevo .XML que se compara contra el .XML almacenado en el COD.

La ejecución del script detectará cualquier daño, ya sea electromecánico del COD o por bit flip.
Ante los daños, se tiene la esperanza de recuperar documentos dañados de la segunda copia que también debe ser sujeta a la verificación periódica de la fijeza de su contenido, – si bien la recomendación del NDSA [7] es copiar por triplicado.

Necesariamente, la verificación periódica de la fijeza incluye la revisión del estado físico del COD, esto es que pueda leerse sin problemas.

Convenciones de estructura de CODs en la Filmoteca
Haciendo nuevamente referencia a la figura 3, el COD azul corresponde con almacenamiento masivo en NAS/SAN utilizado para depositar temporalmente los trabajos de digitalización y restauración digital; el COD verde corresponde a cintas magnéticas LTO-6. Después de obtener 2 copias en LTO-6 con sus metadatos de fijeza, la fuente se elimina del NAS/SAN para reutilizar el espacio de almacenamiento en nuevos proyectos de digitalización, restauración, conformación, cambios de formato y acceso a ejemplares digitales del acervo.

Al digitalizar una película y producir ejemplares en diferentes formatos, los objetos digitales resultantes se organizan en lo que denominamos una unidad de respaldo. La unidad de respaldo es el árbol de carpetas, subcarpetas y archivos que penden jerárquicamente de una raíz. Cada raíz corresponde a un proyecto de digitalización y recibe un nombre único compuesto por un folio seguido del nombre del título que CLAF registra y administra; sus subcarpetas reciben nombres de acuerdo con su contenido y convenciones adoptadas como “<número de rollo>”, “DPX”, “WAV”, “DCP”, “Full HD”, “h.264”, etc. Esta organización se respeta en los copiados íntegros a LTO y es recuperable.

⁶ No es posible anticipar las pérdidas por bit flip, de ahí la recomendación de copiar por triplicado.
⁷ MD5 es menos demandante en recursos de cómputo que SHA cuyas cualidades de robustez criptográfica no interesan en la preservación.

Fecha de recepción: marzo 30, 2023
Fecha de publicación: febrero, 2024

Resumen • Introducción • Datos y metadatos • El contenedor de objetos digitales • Almacenamiento jerárquico • Conclusiones • Bibliografía • [Versión PDF]

TIES, REVISTA DE TECNOLOGÍA E INNOVACIÓN EN EDUCACIÓN SUPERIOR (www.ties.unam.mx) 2024, Año 5, No. 9, febrero 2024, es una publicación semestral editada por la Universidad Nacional Autónoma de México (UNAM), Ciudad Universitaria, Alcaldía Coyoacán, C.P. 04510, Ciudad de México, a través de la Dirección General de Cómputo y de Tecnologías de Información y Comunicación, (DGTIC), Circuito Exterior s/n, Ciudad Universitaria, Alcaldía Coyoacán, C.P. 04510, Ciudad de México, Teléfono: (55) 56228166, https://www.ties.unam.mx, revista.ties@unam.mx. Directora editorial: Dra. Marina Kriscautzky Laxague. Número de reserva de Derechos de Autor otorgado por INDAUTOR: 04-2019-011816190900-203 ISSN: 2683-2968, ambos otorgados por el Instituto Nacional del Derecho de Autor. Responsable de la última actualización de este número, Dirección General de Cómputo y de Tecnologías de Información y Comunicación, (DGTIC). Circuito Exterior s/n, Ciudad Universitaria, Alcaldía Coyoacán, C.P. 04510, Ciudad de México, fecha de la última modificación, diciembre de 2022. El contenido de los artículos es responsabilidad de los autores y no refleja el punto de vista de los árbitros, del Editor o de la UNAM. Se autoriza la reproducción total o parcial de los textos aquí publicados siempre y cuando se cite la fuente completa y la dirección electrónica de la publicación. La revista se ha desarrollado sin fines de lucro, con finalidades de diseminación del conocimiento, bajo licencia Creative Commons Reconocimiento-NoComercial (CC BY-NC-SA 4.0). Hecho en México, 2024.

Preservación y acceso a objetos digitales fuera de línea:experiencias en la Filmoteca de la UNAM

El contenedor de objetos digitales

Preservación y acceso a objetos digitales fuera de línea:
experiencias en la Filmoteca de la UNAM