Publicación semestral   • ISSN 2683-2968   •  Febrero 2024   •  Número de revista 9
DOI: https://doi.org/10.22201/dgtic.26832968e

5/7

Incorporación de la preservación digital en la HNDM

Para la incorporación de los procesos de preservación en los flujos de trabajo de extremo a extremo, se definieron un conjunto de premisas a considerar, entre las que destacan:

  • Digitalización ordenada y documentada
  • Catalogación de materiales digitalizados
  • Planificación e instrumentación de procesos de preservación digital
  • Inclusión de metadatos para una mejor preservación
  • Incorporación de estándares y buenas prácticas de digitalización
  • Automatización de procesos para la validación y la creación de paquetes de preservación y distribución
  • Optimización de flujos de trabajo

A partir del establecimiento de estas premisas, se integraron procesos de preservación en el flujo de trabajo de la HNDM, como se muestra en la figura 2.

Figura 2

Figura 2. Flujo de trabajo de la HNDM

A continuación, se detalla el flujo de trabajo de la HNDM:

a) Evaluación y selección de materiales

Con respecto a la evaluación y la selección de materiales a digitalizar, la HNM contempla los criterios y los factores siguientes: 

  • Alineación con la misión de la institución
  • Valor histórico, científico, cultural, administrativo y económico
  • Autenticidad, integridad y origen
  • La demanda de la publicación por parte de los usuarios

A los criterios descritos se suman otros más especializados, como la viabilidad técnica, la interoperabilidad y la responsabilidad, es decir, que los materiales a digitalizar estén bajo resguardo de la HNM.

Además, el estado legal de los materiales se considera un criterio muy importante para la digitalización, pues en este proyecto únicamente se digitalizan publicaciones del dominio público, publicaciones oficiales de los gobiernos estatales y publicaciones del gobierno federal, así como las publicaciones de las que se tiene la autorización expresa de los titulares de los derechos.

b) Evaluación y selección de formatos digitales

Para la evaluación y la selección de formatos digitales, fue necesario valorar las características técnicas y conciliar los requerimientos tecnológicos disponibles en el momento. Es importante recordar que el objetivo principal de la digitalización es producir imágenes digitales lo más parecidas a los materiales impresos originales: fotografías, mapas, planos, etcétera. Por esa razón, la calidad de la captura de imágenes digitales varía según su utilidad. En el caso de la HNDM, las imágenes deben integrar características de preservación, es decir, de alta calidad en la captura.

A partir de estas imágenes de alta calidad, se generan los archivos de distribución que se ponen a disposición de los usuarios en la plataforma web de la HNDM, razón por la cual es necesario elegir un formato adecuado.

Con respecto a la selección del formato para la preservación, y con base en la clasificación desarrollada por la Biblioteca del Congreso de Estados Unidos, [13] se tomaron en cuenta factores de sustentabilidad, como: mecanismos de protección, adopción del formato, documentación, divulgación, transparencia y apertura.

Con base en dichos factores, se optó por el formato tiff (Tag Image File Format), [14] [15] que presenta las siguientes características:

  • Presentación de la información (texto, imágenes, gráficos, etcétera) de la misma manera, independientemente del dispositivo de visualización
  • Formato de archivo universalmente compatible, basado en el formato PostScript y altamente portable
  • Aceptado globalmente como el estándar convencional para el intercambio de documentos e información
  • Respaldado por un gran ecosistema de sistemas operativos, aplicaciones de software y dispositivos móviles, que aseguran un acceso universal a los archivos
  • Formato autocontenido
  • Archivos optimizados para diferentes propósitos
  • Documentación publicada y abierta

c) Estabilización y captura de imágenes
Todo material impreso, seleccionado para la digitalización, pasa por un proceso de revisión de su estado físico. En caso necesario, se realiza una estabilización del material, para evitar su desgaste o daño durante el proceso de captura. La estabilización se realiza de manera controlada y documentada. En esta etapa también se define la forma como será manipulado el material impreso y la forma correcta de hacer la captura, tomando en consideración sus dimensiones, así como el tamaño del texto, las imágenes y otros contenidos relevantes. [17]

Una vez verificado y estabilizado el material, se continúa con el proceso de captura de imágenes. Cada formato de archivo tiene propiedades específicas, que influyen en su apariencia, preservación y accesibilidad. [18] La captura es un proceso técnico especializado en el que se define la calidad de la digitalización. Por ello, las capturas de imagen se llevan a cabo de acuerdo con estándares y buenas prácticas, como los lineamientos FAGI (Federal Agencies Digital Guidelines Initiative) [19] sobre la captura de imágenes, tomando en cuenta los parámetros mínimos siguientes:

  • Espacio de color
  • Profundidad de bit
  • Resolución

d) Conversión a pdf

Una funcionalidad importante para la hndm es la búsqueda, la localización y la consulta de textos dentro de los materiales. Para lograr dicha funcionalidad, a partir de la imagen tiff se realiza una conversión a formato pdf y el reconocimiento óptico de caracteres (ocr, por sus siglas en inglés) para cada página generada en el proceso de captura. Como resultado, se obtienen los archivos con capacidad de búsqueda dentro del texto. Ambos archivos forman parte de la preservación a largo plazo.

e) Integración de metadatos

Los metadatos son elementos fundamentales en cualquier proyecto de digitalización. Es una buena práctica recopilar tanta información, como sea necesaria, en el momento de la creación de los materiales digitales. [20] Por lo tanto, es recomendable la integración de metadatos sobre el objeto original y el digital creado, conteniendo, por ejemplo, parámetros de imagen digital, equipo utilizado, fecha y hora de creación, etcétera. En el caso de la hndm, los dispositivos de captura de imágenes se configuran para agregar a los archivos el conjunto de metadatos técnicos de forma automática.

Otros metadatos que se agregan al archivo son los descriptivos. Éstos se obtienen del sistema de información de la Hemeroteca y se incrustan tanto en las imágenes tiff como en los archivos de distribución pdf. Todos los materiales a digitalizar deben estar correctamente catalogados, ya que el registro bibliográfico se agrega en un archivo tipo MARC-xml, conteniendo la descripción bibliográfica completa de la obra. Tanto la inserción de metadatos como la creación del archivo externo se realizan de forma automática con un programa de procesamiento por lotes. Un elemento importante en todo el proceso, es la asignación de identificadores únicos a los objetos digitales, los cuales sirven para localizar inequívocamente a los objetos, que en este proyecto se construyen a partir del número de sistema asignado por el sistema de información de la HNM y el código de barras asignado al material impreso.

f) Conformación de paquetes para la preservación y distribución

Para la creación de paquetes fue necesario establecer una convención con respecto al nombramiento de archivos y la estructura de carpetas, la cual facilitó la automatización de los procesos de validación y verificación mediante el uso de un programa de cómputo. Este programa valida y verifica que las carpetas contengan los objetos digitales y los metadatos correspondientes, que el nombramiento de archivos sea el adecuado, que la estructura de carpetas sea válida y que los archivos pdf cuenten con capacidad de búsqueda en texto, entre otras validaciones.

Después de los procesos de validación y verificación se generan los paquetes de preservación y distribución. Los paquetes de preservación integran archivos de imágenes y materialidad en formato tiff, archivos xml con la catalogación bibliográfica completa, archivos pdf de distribución y un archivo manifiesto con la suma de verificación de cada uno de los archivos. Una vez conformados, los paquetes pasan al sistema de almacenamiento de preservación, donde son resguardados y gestionados mediante procesos específicos para la preservación digital. Vale la pena mencionar que, para el resguardo de paquetes de preservación, se ha creado una estructura de almacenamiento estable con dos copias, y se continúa trabajando en la gestión de preservación, que comprende el desarrollo de actividades de seguridad, el monitoreo de almacenamiento, el control de acceso, la implementación de estrategias de preservación y la actualización de paquetes de distribución.

Por otra parte, los paquetes de distribución son integrados únicamente por los archivos en formato pdf, los cuales se cargan al sistema de gestión para ser publicados en la HNDM.

Es importante resaltar que la creación de paquetes es un proceso automatizado que evita errores humanos en el nombramiento de archivos, en la estructura de los paquetes y en la creación de los registros de carga en la hndm. Todos estos procesos facilitan la distribución de imágenes y, principalmente, disminuyen el tiempo de publicación de los materiales digitalizados, sin dejar de mencionar los beneficios en la agilización de los flujos de trabajo y el incremento de la productividad.

g) Distribución

La plataforma web, denominada HNDM, evolucionó notablemente con la reciente incorporación del sistema de gestión del repositorio virtual con el que se han incorporado nuevas funcionalidades, entre las que destacan: la carga automática de archivos para publicación, la actualización de paquetes de distribución, la creación de indicadores estadísticos, la descarga de archivos pdf y la conformación de colecciones dinámicas. Estas funcionalidades estarán a disposición de los usuarios en los próximos meses.

Así, la plataforma de distribución facilita que la Hemeroteca Nacional brinde acceso continuo y constante a los materiales digitalizados, independientemente de la ubicación geográfica de los usuarios, además de ofrecer continuamente nuevos títulos digitalizados de publicaciones impresas que son de gran valor y utilidad para investigadores y para el público en general. En la figura 3, “Nuevas publicaciones en la HNDM”, se muestra la interfaz web con los últimos títulos agregados a la plataforma y demás detalles del ítem digitalizado.  

figura 3

Figura 3. Nuevas publicaciones en la HNDM

figura 4

Figura 4. Objeto digital en formato PDF

En la figura 4 se puede observar el objeto digital en la versión de distribución (PDF), así como las opciones de visualización y descarga.

Asimismo, es importante destacar que, gracias a las nuevas funcionalidades y al incremento de los materiales digitalizados, la plataforma de la HNDM se ha posicionado como el principal recurso de información consultado por parte de usuarios y público en general. Prueba de ello es que, en los últimos dos años, de acuerdo con las estadísticas de la HNDM, se tiene un registro de más de 263 mil visitas.

Fecha de recepción: marzo 30, 2023
Fecha de publicación: febrero, 2024

TIES, REVISTA DE TECNOLOGÍA E INNOVACIÓN EN EDUCACIÓN SUPERIOR (www.ties.unam.mx) 2024, Año 5, No. 9, febrero 2024, es una publicación semestral editada por la Universidad Nacional Autónoma de México (UNAM), Ciudad Universitaria, Alcaldía Coyoacán, C.P. 04510, Ciudad de México, a través de la Dirección General de Cómputo y de Tecnologías de Información y Comunicación, (DGTIC), Circuito Exterior s/n, Ciudad Universitaria, Alcaldía Coyoacán, C.P. 04510, Ciudad de México, Teléfono: (55) 56228166, https://www.ties.unam.mx, revista.ties@unam.mx. Directora editorial: Dra. Marina Kriscautzky Laxague. Número de reserva de Derechos de Autor otorgado por INDAUTOR: 04-2019-011816190900-203 ISSN: 2683-2968, ambos otorgados por el Instituto Nacional del Derecho de Autor. Responsable de la última actualización de este número, Dirección General de Cómputo y de Tecnologías de Información y Comunicación, (DGTIC). Circuito Exterior s/n, Ciudad Universitaria, Alcaldía Coyoacán, C.P. 04510, Ciudad de México, fecha de la última modificación, diciembre de 2022. El contenido de los artículos es responsabilidad de los autores y no refleja el punto de vista de los árbitros, del Editor o de la UNAM. Se autoriza la reproducción total o parcial de los textos aquí publicados siempre y cuando se cite la fuente completa y la dirección electrónica de la publicación. La revista se ha desarrollado sin fines de lucro, con finalidades de diseminación del conocimiento, bajo licencia Creative Commons Reconocimiento-NoComercial (CC BY-NC-SA 4.0). Hecho en México, 2024.