DOI: 10.22201/dgtic.26832968e.2024.9.6
Gerardo León Lastra, Filmoteca de la UNAM
Gustavo Lucio José, Filmoteca de la UNAM
Manuel Comi Xolot, Filmoteca de la UNAM
Luis Felipe Maciel Mercado, Filmoteca de la UNAM
4/7
Todo acervo de objetos digitales tiene que almacenarse, al menos por duplicado [7], en algún tipo de memoria cuyo soporte físico denominaremos contenedor de objetos digitales (COD). El método de preservación que describiremos no depende ni del tipo de objeto ni de la tecnología del COD, por lo que convenimos en este artículo que el acervo digital se preserva en CODs como discos ópticos o de estado sólido, cintas o discos magnéticos, etc. Siendo la preservación una actividad continua [8], es indispensable revisar periódicamente los CODs y el estado de los objetos digitales que almacenan.
La preservación de un objeto digital debe prevenir o, cuando menos, detectar la más mínima alteración causada por el fenómeno bit flip [9]. La técnica para detectar cuando este fenómeno ya afectó6 a un objeto digital se conoce como fixity checksum [10] o “suma de comprobación de la fijeza”, a la que en lo subsecuente nos referiremos como “chequeo de fijeza” o simplemente “fijeza”. Esta técnica se apoya en algún algoritmo para calcular funciones de dispersión empleadas en criptografía [11]. El algoritmo debe de aceptar como entrada cualquier secuencia ordenada de bits, —como son los archivos de objetos digitales—, sin importar su tamaño ni lo que representa. El resultado calculado por el algoritmo será otra secuencia pequeña de bits conocida como digest, o checksum o hash. El quid del uso del algoritmo para checar la fijeza es que al repetir el cálculo sobre la misma entrada siempre obtendremos el mismo resultado, pero ante la misma entrada alterada en uno o más de sus bits obtendremos un checksum diferente.
Explicaremos dos scripts que emplean el paquete FCIV [12] con MD57. Un script se usa para hacer copiado íntegro a CODs de preservación. El otro se utiliza periódicamente para revisar los contenidos digitales de cada contenedor y el estado físico de los CODs.
Copiado íntegro
La figura 3 ilustra los tres pasos de un copiado íntegro. Después de efectuar los tres pasos de la figura 3, cuando la copia es íntegra, los archivos fciv1.XML y fciv2.XML serán idénticos, lo que se verifica comparándolos con un comando del sistema de archivos.
Figura 3. Flujo para verificar la integridad del copiado del COD azul al COD verde.
Fuente: elaboración propia.
Por último, el .XML con los metadatos de fijeza se copia al COD que contiene los objetos digitales referenciados dentro del .XML. Esta es una solución práctica ya que almacenar los .XML por fuera de su COD, aumentará la complejidad del sistema y el trabajo de chequeo de la fijeza.
A modo de ejemplo, la figura 4 muestra un extracto del .XML resultante al aplicar nuestro script a los 86,400 archivos con fotogramas DPX de una película digitalizada. En estos archivos .XML, cada par de etiquetas
El script para el copiado íntegro acepta estructuras arborescentes raíz-subcarpetas-archivos; la ruta o path de cada archivo se incluye como prefijo de cada nombre (omitido en el ejemplo). La verificación de integridad informa cuando la comparación de los .XML difiere, en cuyo caso el copiado debe reintentarse.
Revisión periódica de metadatos de fijeza
El script para la verificación periódica de la fijeza se apoya en el mismo principio que el copiado íntegro (ver figura 3), salvo porque en su primer y único paso trabaja con el contenido del COD verde para producir un nuevo .XML que se compara contra el .XML almacenado en el COD.
La ejecución del script detectará cualquier daño, ya sea electromecánico del COD o por bit flip.
Ante los daños, se tiene la esperanza de recuperar documentos dañados de la segunda copia que también debe ser sujeta a la verificación periódica de la fijeza de su contenido, – si bien la recomendación del NDSA [7] es copiar por triplicado.
Necesariamente, la verificación periódica de la fijeza incluye la revisión del estado físico del COD, esto es que pueda leerse sin problemas.
Convenciones de estructura de CODs en la Filmoteca
Haciendo nuevamente referencia a la figura 3, el COD azul corresponde con almacenamiento masivo en NAS/SAN utilizado para depositar temporalmente los trabajos de digitalización y restauración digital; el COD verde corresponde a cintas magnéticas LTO-6. Después de obtener 2 copias en LTO-6 con sus metadatos de fijeza, la fuente se elimina del NAS/SAN para reutilizar el espacio de almacenamiento en nuevos proyectos de digitalización, restauración, conformación, cambios de formato y acceso a ejemplares digitales del acervo.
Al digitalizar una película y producir ejemplares en diferentes formatos, los objetos digitales resultantes se organizan en lo que denominamos una unidad de respaldo. La unidad de respaldo es el árbol de carpetas, subcarpetas y archivos que penden jerárquicamente de una raíz. Cada raíz corresponde a un proyecto de digitalización y recibe un nombre único compuesto por un folio seguido del nombre del título que CLAF registra y administra; sus subcarpetas reciben nombres de acuerdo con su contenido y convenciones adoptadas como “<número de rollo>
6 No es posible anticipar las pérdidas por bit flip, de ahí la recomendación de copiar por triplicado.
7 MD5 es menos demandante en recursos de cómputo que SHA cuyas cualidades de robustez criptográfica no interesan en la preservación.
Fecha de recepción: marzo 30, 2023
Fecha de publicación: febrero, 2024