Mini/Manual

Archivamiento Web conceptos básicos, estrategias y mejores prácticas Mini/Manual Archivamiento Web conceptos básicos, estrategias y mejores prácticas

Subdirección de Tecnologías de la Información Archivística y Documento Electrónico

2 MiniManual Archivamiento Web - Archivo General de la Nación

Créditos

ARCHIVO GENERAL DE LA NACIÓN JORGE PALACIOS PRECIADO -COLOMBIA Establecimiento público adscrito al Ministerio de Cultura

Consejo Directivo Ministerio de Cultura Ministra: Mariana Garcés Córdoba Viceministra: María Claudia López Sorzano Presidenta del Consejo

Representante de los Archivos del País Margarita Monsalve Salas Alcaldía Distrital de Barranquilla

Academia Colombiana de Historia Juan Camilo Rodríguez Gómez Presidente

Colciencias Juanita León Peñarenas Delegada de la Sra. Directora Autor Archivo General de la Nación Jhon Alexander González Flórez Carlos Alberto Zapata Cárdenas Director General Preparado por: Iván Eduardo Triana Bohórquez Comité Editorial Carlos Alberto Zapata Cárdenas Gráficas Claudia Ivonne Fáctor Lugo Ivan Triana Bohorquez Mauricio Tovar González Jhon Alexander González Flórez ISBN John Francisco Cuervo Alonso 978-958-8242-35-4 Natacha Eslava Vélez Dania Paola Asprilla Yurgaqui Archivo General de la Nación de Colombia Carrera 6 No. 6-91 Coordinación Editorial y Diagramación Teléfono: 328 2888 Fax: 337 2019 Dania Paola Asprilla Yurgaqui E-mail: [email protected] Sandra Cardona Carvajal Página web: www.archivogeneral.gov.co Catalina Lozano Ortega Bogotá D.C., Colombia - 2015

Fotografía de Carátula Las publicaciones del Archivo General de la Na- Atribución-NoComercial-SinDerivadas 2.0 Gené- ción de Colombia están protegidas por lo dispuesto rica (CC BY-NC-ND 2.0) -jadjadjad https://www. en la Ley 23 de 1982. Podrán reproducirse extrac- flickr.com/photos/jadjadjad/3116787127 tos sin autorización previa, indicando la fuente.

3 MiniManual Archivamiento Web - Archivo General de la Nación

Contenido 5 1. 6 1.1 7 1.2 10 1.2.1 11 1.2.2 12 1.3 13 1.3.1 13 1.3.2 14 1.4 15 1.5 16 2. 25 31 32

4 MiniManual Archivamiento Web - Archivo General de la Nación

Introducción

Este Minimanual pretende ser del 14 de diciembre de 2012, “Por un referente conceptual y de el cual se reglamenta el Título V de la buenas prácticas para aquellas Ley 594 de 2000, parcialmente los ar- entidades públicas y privadas u tículos 58 y 59 de la Ley 1437 de 2011 otros, interesados en estructurar y se dictan otras disposiciones en ma- y desarrollar proyectos o inicia- teria de Gestión Documental para to- tivas de archivamiento web, de das las Entidades del Estado” y el De- cara al importante reto que asu- creto 2693 21 de diciembre de 2012, me la gestión documental en el de Gobierno en Línea “Por el cual se país, con la penetración y uso de establecen los lineamientos generales las nuevas tecnologías de la in- de la estrategia de Gobierno en Línea formación y comunicación. de la República de Colombia, se regla- mentan parcialmente las Leyes 1341 Está dirigido a la Administración de 2009 y 1450 de 2011, y se dictan Pública en sus diferentes niveles: otras disposiciones”. Así mismo, en nacional, departamental, distrital estándares tales como la Norma ISO y municipal; a las entidades terri- 28500: Information and documenta- toriales indígenas y demás enti- tion. The WARC File Format. dades territoriales que se creen por Ley; a las divisiones adminis- Es así como para facilitar el entendi- trativas; a las entidades privadas miento del lector, esta publicación se que cumplen funciones públicas, desarrolla en dos partes: la primera, a las entidades públicas en las aborda y define el concepto de archi- distintas ramas del poder; a las vamiento web, sus tipos, clases y prin- instituciones culturales y educa- cipales retos. Igualmente, se hace re- tivas, empresas del sector priva- ferencia a las principales herramientas do, autores y personas naturales tecnológicas utilizadas y los casos de interesadas en gestionar y pre- éxito más representativos a nivel mun- servar el patrimonio web. dial. La segunda, resume en cinco pa- sos, las mejores prácticas y estrategias El contexto normativo se enmarca para estructurar un proyecto de archi- en la Ley 594 de 2000, “Por medio vamiento web que permita garantizar de la cual se dicta la Ley General la captura, organización, preservación, de Archivos y se dictan otras dispo- continuidad y consulta del patrimonio siciones” - Título XI, Conservación registrado en la web, a las generacio- de Documentos, el Decreto 2609 nes actuales y futuras.

5 1. Importancia del Archivamiento Web MiniManual Archivamiento Web - Archivo General de la Nación

El vertiginoso uso de la web como canal de comunicación y publicación de información en todos sus niveles, desde el gu- bernamental hasta el individual, demanda la necesidad de desa- rrollar estrategias e iniciativas que garanticen la disponibilidad de estos registros como eviden- cias de la gestión y la historia actual para las presentes y futu- ras generaciones. Como respuesta a esta nece- sidad, el archivamiento web es el “proceso de recolección de fracciones o partes de la World Wide Web y la garantía de que la colección se conserva en un vidades son automatizadas con archivo o sistema de información herramientas de software espe- para futuros investigadores, his- cialmente diseñadas para la re- toriadores y público en general”1. colección de los registros objeto El proceso del archivamiento de preservación. web es liderado por archivistas y desarrollado con las actividades 1.1 Tipos de tradicionales del archivo físico: Archivamiento Web seleccionar, almacenar, preser- Existen tres tipos para archivar var y consultar. Sin embargo, contenidos web2. Su elección por la cantidad de información depende de la afinidad y concor- contenida en la web, estas acti- dancia con los objetivos y reque-

1. COLOMBIA. MINISTERIO DE TECNOLOGÍAS DE LA INFORMACIÓN Y LAS COMUNICACIONES. Estrategia de Go- bierno en Línea [En línea]. [citado el 2 de octubre de 2013]

2. UNITED KINGDOM. THE NATIONAL ARCHIVES. Guidance [En línea]. [citado el 3 de octubre de 2013]

7 MiniManual Archivamiento Web - Archivo General de la Nación

rimientos planteados en el pro- de autor. El software empleado yecto de archivamiento web. navega por todo el sitio web y extrae los contenidos disponi- Archivamiento web bles en cada enlace. El éxito de de lado del cliente la captura de contenidos depen- Es el tipo archivamiento web más derá del nivel de optimización y popular y empleado por institu- accesibilidad del sitio web. ciones interesadas en preservar Archivamiento web la web, debido a su simplicidad y basado en transacciones escalabilidad. Permite capturar cualquier sitio disponible abier- Este modelo es operado desde tamente en la web, sin restric- el servidor que almacena el sitio ciones técnicas ni de derechos web. Busca capturar sólo aque-

8 MiniManual Archivamiento Web - Archivo General de la Nación

llos contenidos visualizados por trabajo en equipo con el admi- los usuarios y evita los conteni- nistrador del servidor, para ac- dos que nunca fueron visitados. ceder a los informes de consul- Su principal ventaja es la aser- ta y capturar los registros. Por tividad en seleccionar para su sus condiciones técnicas, es un preservación los contenidos que enfoque atractivo para proyec- han sido de interés para la co- tos internos de archivamiento munidad de usuarios. web corporativo. Para emplear este tipo de archi- vamiento web, es necesario el

9 MiniManual Archivamiento Web - Archivo General de la Nación

Archivamiento web Su principal beneficio, está en del lado del servidor la capacidad de capturar conte- nidos inaccesibles por los soft- El enfoque desde el lado del servi- ware del archivamiento web del dor, busca crear una copia del sitio lado del cliente. web directamente del servidor que lo custodia. Al igual que el modelo 1.2 Retos para el anterior, requiere el consentimien- Archivamiento Web to del administrador del mismo. Al crear una copia del sitio web, per- Para desarrollar un proyecto de mite archivarlo conservando sus archivamiento web exitoso, que características de navegabilidad. cumpla con la totalidad de los re- querimientos de calidad, captu- Los retos principales de este ra y preservación, es necesario modelo, se centran en mantener definir estrategias que superen la captura total y constante del los retos que se presentan en su sitio, más cuando los conteni- implementación. Estos retos es- dos son dinámicos y generados tán clasificados en dos grupos: a intervalos de tiempo cortos. Técnicos y Administrativos3.

3. BALL, Alex. Web Archiving [en línea]. [cita- do el 5 de octubre de 2013]

10 MiniManual Archivamiento Web - Archivo General de la Nación

Retos del Archivamiento Web

Administrativos Técnicos

»» Legal. »» Coherencia Temporal. »» Selección y Alcance. »» Limitaciones de los rastreadores actuales. »» Asignación de responsabilidades. »» Virus y Malware. »» Duplicación. »» Preservación a largo plazo.

1.2.1 Retos Administrativos »» Selección y alcance: La falta de claridad en los objetivos y en el alcance del archivamiento Son los relacionados con la pla- web, son los principales causantes del fracaso neación y dirección de quienes del proyecto. Es indispensable definir con exac- están gestionando el archiva- titud, los resultados esperados para de esta for- miento web, incluyendo tanto a ma contar con el equipo de trabajo, la infraes- los líderes del proyecto como a tructura tecnológica y el tipo de colección que los autores de los contenidos. se va a capturar, sea la colección completa de un dominio o un enfoque selectivo de recursos. »» Legal: Es el mayor reto no téc- nico al que se enfrenta un pro- yecto de archivamiento web, dado que un gran porcentaje »» Asignación de responsabilidades: Asumir una de los sitios web y recursos iniciativa que busque capturar y preservar el pa- publicados no especifican una trimonio web, exige que se compartan respon- licencia de uso de sus conteni- sabilidades, procesos y recursos, de lo contra- dos para ir acorde con las res- rio, todo proyecto se asumirá como un esfuerzo tricciones de derechos de au- aislado y de poca relevancia. El reto a superar tor y no capturar registros sin es conformar un equipo de trabajo con respon- la autorización requerida. sabilidades definidas y capacidades claras.

11 MiniManual Archivamiento Web - Archivo General de la Nación

1.2.2 Retos Técnicos Los contenidos que evidencian las principales limitaciones de Los retos técnicos del archivamien- los rastreadores hacen parte de to web están relacionados con los la web profunda. Por ejemplo: aspectos tecnológicos como el dinamismo de los contenidos, las * Contenidos dinámicos que se limitaciones de los software de generan desde la base de da- captura, los virus, la obsolescen- tos del sitio en respuesta a la cia y la duplicidad de recursos. petición de un usuario.

»» Coherencia temporal: Se re- * Archivos multimedia transmiti- fiere a la actualización cons- dos por streaming. tante de las páginas web. Un * Contenidos protegidos reto que es completo de abor- con contraseña. dar cuando el número de pági- nas a archivar incrementa por * Contenidos que sólo son acce- la falta de consistencia entre el sibles con una búsqueda local recurso archivado y el sitio web dentro del sitio web. disponible en línea. Cabe acla- rar que este reto no se aborda cuando se archivan sitios web »» Virus y Malware: Con el ob- que ya no están en línea. jetivo de mantener una cap- tura integral de los conteni- »» Limitaciones de los rastrea- dos web, el archivamiento dores actuales: Para la auto- web, de acuerdo con sus ob- matización de las actividades jetivos, políticas y alcances, del archivamiento web se uti- debe convivir con los virus y lizan software especializados. el malwere en la captura de Para la selección y captura los sitios web, dado que pue- se utilizan software llamados den ser objeto de investiga- rastreadores o crawlers. Por ciones para futuros usuarios. la complejidad de los conteni- Es importante definir las he- dos disponibles en la web, y a rramientas y procedimientos pesar de los desarrollos y me- necesarios para evitar alterar joras, aún existen limitaciones los contenidos a procesar y que evitan su selección y cap- poner en riesgo la seguridad tura adecuada. del repositorio de archivo.

12 MiniManual Archivamiento Web - Archivo General de la Nación

»» Duplicación: En los procesos »» Preservación a largo plazo: de captura de recursos web, La gran cantidad de forma- existen altas probabilidades tos publicados en la web y de duplicar contenidos, que los enlaces entre los diferen- aunque sean extraídos de di- tes recursos representan un ferentes sitios, es el mismo. reto importante para el archi- Esto entorpece la eficiencia del vamiento web. No sólo para proyecto tanto en el acceso a garantizar una buena captura, la información como en el ren- sino por mantener el acceso dimiento del servidor destina- futuro a los contenidos. La ob- do para el archivamiento web, solescencia de formatos y los siendo importante definir una riesgos de romper el enlace estrategia que evite o elimine, entre los recursos, son varia- con cierta frecuencia, los con- bles que deben contemplarse tenidos duplicados. al inicio del proyecto.

1.3 Archivamiento Web a Gran y Pequeña Escala Para desarrollar un proyecto de archivamiento web existen dos grandes clases: gran y peque- ña escala4. Dependiendo de los objetivos trazados, se hará la captura selectiva de recursos individuales o el archivamiento de dominios completos o de la web en general. 1.3.1 Gran Escala Esta clase busca la captura de Para garantizar la calidad de las un gran volumen de recursos, capturas, se hace la integración como el archivamiento de la web de dos condiciones: la elección en general o de un dominio com- del dominio y la definición de cri- pleto, por ejemplo archivar todos terios de captura, que una vez los sitios web .co. definidas, se parametrizan en

4. BALL, Alex. Op. Cit.

13 MiniManual Archivamiento Web - Archivo General de la Nación

las herramientas de software se- complejidad da protagonismo a leccionadas para esta labor. la mayoría.

Los criterios pueden incluir: la 1.3.2 Pequeña Escala frecuencia con la cual se harán las capturas, el lenguaje de los A diferencia de la clase ante- contenidos, la relevancia de los rior, la pequeña escala se en- recursos a capturar, los permi- foca en capturar recursos es- sos de captura y reuso de con- pecíficos de acuerdo con las tenidos, la captura de eventos necesidades o intereses de y noticias importantes, entre una comunidad reduci-da de otros, que se definan dentro del usuarios (investigadores, aca- alcance. Es importante tener en démicos, usuarios individua- cuenta, que elegir esta clase de les o autores). Sus principales archivamiento, exige analizar ventajas se visualizan en pro- a profundidad estrategias que cesos simples de captura, in- superen los retos mencionados versión reducida y enfoque en en la sección anterior (técnicos los contenidos puntuales de in- y administrativos), dado que su terés para los usuarios.

14 MiniManual Archivamiento Web - Archivo General de la Nación

Para el proceso de archivamien- »» Repositorio de citas: Captu- to existen tres formas, cada una ra todos los recursos citados con su uso específico: en publicaciones académicas digitales. Toma como punto de »» Archivado basado en la partida la bibliografía del docu- nube: Consiste en que el pro- mento e inicia con el proceso pietario de la web, envía cap- de archivamiento con el fin de turas de sus páginas a un ter- mantener disponibles las fuen- cero para su preservación. tes utilizadas por los autores.

»» Archivo local: El usuario tiene la posibilidad de realizar cap- turas directamente desde su equipo a los recursos web que considera importantes.

1.4 Herramientas de Software Para llevar a cabo un proyecto de archivamiento web es indispen- sable analizar y elegir las herramientas de software más adecua- das para cumplir con los requerimientos y alcance deseado. En la siguiente tabla se mencionan las principales herramientas para la automatización de la selección, captura y visualización de recursos:

Software Descripción

Es un software rastreador desarrollado por la iniciativa en código abierto con licencia Apache 2.0. Esta aplicación sirve para identificar y capturar en http://webarchive.jira.com/wiki/dis- la web los recursos seleccionados para su proceso de play/Hiritrix/Hiritrix archivamiento. Respeta las restricciones de las etiquetas o ficheros robot.txt de cadapágina web a captura. Los resultados de rastreo los almacena en un fichero ARC.

Es una aplicación de software libre que permite la des- HTTrack carga total o parcial de un sitio web a un equipo local, www.httrack.com permitiendo su navegación sin conexión a Internet. Es ideal para el archivaminto local de pequeña escala.

Es una aplicación de código abierto desarrollada en el año 2007 y utilizada por el Archivo Digital de Dina- Netarchivesuite marca. Este software puede capturar la web de tres http://sbforge.org/display/NAS- maneras: 1. Captura eventos específicos importantes DOC42/NetarchiveSuite+Overview como día de elecciones, movimientos sociales, catás- trofes, entre otros; 2. Carptura selectiva de dominios específicos; 3. Captura a gran escala.

15 MiniManual Archivamiento Web - Archivo General de la Nación

(PANDORA Digital Archiving System) Es un soft- ware desarrollado por la Biblioteca Nacional de Australia. Facilita la automatización de los flojos de trabajo del archivamiento web como: la identifi- PANDAS cación, elección de los posibles recursos a archi- pandora.nla.gov.au/pandas.htlm var; la búsqueda y captura de los recursos con permisos concedidos; la gestión de metadatos; la configuración de restricciones de acceso; la progra- mación automatizada de captura de recursos; y la visualización de contenidos.

Fue desarrollado en el año 2006 entre la Biblioteca Nacional de Nueva Zelanda y la Biblioteca Británi- ca. Es una aplicación de código abierto disponible bajo licencia Apache. Esta aplicación facilita la Web Curator Tool (WCT) gestión de flujos de trabajo para archivar selecti- webcurator.sourceforge.net vamente recuersos web. Automatiza la revisión de permisos concedidos en los recursos, la progra- mación de rastreo, la captura de contenido y los metadatos descriptivos.

Es una herramienta de indexación y búsqueda de NutchWAX colecciones web para archivo en formato ARC. Es http://archiveaccess.sourceforge. patrocinado y utilizado por Internet Archive, Interna- net/projects/nutchwax/ tional Internet Preservation Consortium - IIPC y el Nordic Web Archive - NWA.

Es una aplicación para la navegación de recursos archivados. Genera una base de datos con cada recurso capturado para facilitar su localización y visualización al usuario final, quien puede elegir le archive.org/web/web.php fecha de captura dek recurso que quiere consultar. Es un software de código abierto utilizado por el Internet Archive.

Es una herramienta de navegación de las colec- ciones web archivadas. Permite al usuario final Memento visualizar versiones anteriores de un sitio o página www.mementoweb.org web a través de un menú de navegación por fechas de captura.

1.5 Casos de Éxito Para ilustrar los resultados y los diferentes enfoques del archivamien- to web, se describen los siguientes casos de éxito para que sirvan como referentes en la estructuración y diseño de futuras iniciativas:

16 MiniManual Archivamiento Web - Archivo General de la Nación

Internet archive

http://archive.org

Es una de las primeras iniciativas bles en su portal para cualquier de archivamiento web a gran es- persona interesada. Dispone a cala fundada en 1996, con el ob- su vez, de una interfaz muy in- jetivo de construir una biblioteca tuitiva que permite hacer los fil- de Internet que facilitara el acce- tros y búsquedas de manera fá- so a investigadores, historiado- cil y rápida; con lo que el usuario res, académicos y al público en tiene la posibilidad, por medio general, a sus colecciones web. de un calendario que resalta las fechas de captura de cada sitio, Esta iniciativa cuenta en este de visualizar la evolución a tra- momento con una colección uni- vés de la historia de su página versal de más de 240 millones web de interés. de páginas, que están disponi-

17 MiniManual Archivamiento Web - Archivo General de la Nación

Library of Congress Web Archives -LCWA

http://lcweb2.loc.gov/diglib/lcwa/html/lcwa-home.html

Inició en el año 2000 como un La biblioteca ha conformado un proyecto piloto para capturar y archivamiento temático basado preservar los sitios web de Esta- en eventos importantes de la na- dos Unidos. Con este propósito ción estadounidense como las conformó un equipo interdiscipli- elecciones, la guerra en Irak y los nario para evaluar, seleccionar, sucesos del 11 de septiembre. recopilar, catalogar, preservar y proporcionar acceso a los recur- sos capturados.

18 MiniManual Archivamiento Web - Archivo General de la Nación

Archivo Web del Reino Unido

http://www.webarchive.org.uk

Este proyecto inició en el año acontecimientos políticos, cultu- 2004 por el Archivo Nacional del rales, sociales y económicos de Reino Unido como estrategia la nación. para capturar y preservar la me- Los usuarios tienen acceso pú- moria web de la nación. Sus co- blico a sus colecciones desde su lecciones están compuestas por portal, el cual cuenta con varias páginas web que reflejan la di- operaciones de filtro, búsqueda versidad, intereses y actividades y navegación. del Reino Unido. Igualmente ar- chiva los sitios que registran los

19 MiniManual Archivamiento Web - Archivo General de la Nación

Pandora

http://pandora.nla.gov.au/

Preserving and Accessing Net- En este momento, debido a la worked Documentary Resources complejidad del archivamiento, of Australia, es un proyecto lide- la Biblioteca ha buscado realizar rado por la Biblioteca Nacional un trabajo colectivo con las bi- de Australia desde el año 1996. bliotecas públicas y otras entida- Su objetivo se centra en la cap- des relacionadas con la gestión tura selectiva de publicaciones del patrimonio cultural con el ob- y sitios relacionados con dicho jetivo de compartir responsabili- país y los australianos. Sus co- dades y recursos. lecciones contienen registros de la vida política, social, cultural e intelectual de la nación.

20 MiniManual Archivamiento Web - Archivo General de la Nación

Netarkivet

http://netarkivet.dk/

Es una iniciativa que busca ar- 1. Captura de todos los dominios chivar todos los recursos web daneses cuatro veces al año. relacionados con los daneses, bajo el cumplimiento de la Ley 2. Captura selectiva diaria de re- Nacional de Depósito Legal. cursos relacionados con los Para la captura de los sitios web, daneses. combina tres estrategias: 3. Captura de eventos represen- tativos del país cada dos o tres veces por año.

21 MiniManual Archivamiento Web - Archivo General de la Nación

Padicat

http://www.padicat.cat/

Iniciativa liderada por la Biblio- A través de su portal, el usuario teca de Cataluña desde el año cuenta con varios filtros de bús- 2005, que busca la captura y queda que facilitan la consulta y preservación de los sitios web navegación de los recursos. de Cataluña. Trabaja conjunta- mente con el Centro de Servicios Científicos y Académicos de Ca- taluña, quien apoya los aspectos tecnológicos y técnicos.

22 MiniManual Archivamiento Web - Archivo General de la Nación

NARA

http://webharvest.gov/

El Archivo Nacional de Estados las entidades del estado. Esta Unidos lidera el archivamiento estrategia ha facilitado la preci- web de todos los sitios de las sión y calidad en la captura de entidades públicas del país. los recursos, que están disponi- bles para la ciudadanía de forma Su estrategia de archivamien- pública en su portal web. to se basó en la definición de directrices para la optimización de sitios web, las cuales tuvie- ron que ser adoptadas por todas

23 MiniManual Archivamiento Web - Archivo General de la Nación

Archivo Web de Coca Cola

http://www.coca-colacompany.com/stories/ 1s-and-0s-the-history-of-the-coca-cola-companys-website

Es un proyecto privado, cuyo ob- sus comunicaciones web han jetivo es capturar y preservar los servido como evidencia ante ins- sitios web de las empresas lo- tancias judiciales. El acceso es cales de Coca Cola. Inició en el limitado y únicamente está dis- año 2009, utilizando un servicio ponible para los empleados de comercial de archivado en el que Coca Cola, a través de la herra- se ha capturado y recuperado el mienta de navegación de su pro- patrimonio web de la empresa. veedor. Su colección cuenta con más de seis millones de páginas Adicionalmente, el proyecto ha web corporativas. facilitado el acceso a sus regis- tros históricos y la captura de

24 2. Estrategias y mejores prácticas: 5 pasos para el Archivamiento Web MiniManual Archivamiento Web - Archivo General de la Nación

Los 5 pasos para estructurar un proyecto de archivamiento web son formulados como punto de partida para facilitar la selección, captura, preservación y acceso de los recursos web conforme con los objetivos planteados por la organiza- ción interesada en proteger y mantener el patrimonio web.

Estos 5 pasos son planteados Paso 1: Definir objetivos con la recopilación de buenas Toda organización interesada en prácticas del Modelo del Ciclo de emprender un proyecto de archi- Vida del Archivamiento Web pro- vamiento web, debe evaluar y ana- puesto por el equipo de trabajo lizar sus funciones, plan estratégi- de Archive-it y la Guía de Archi- co, misión y visión, que le permita vamiento de Recursos Web del delimitar el alcance y la precisión Archivo Nacional de Australia. de los objetivos del proyecto.

26 MiniManual Archivamiento Web - Archivo General de la Nación

La definición adecuada de los ob- archivado y las estrategias ade- jetivos, garantizará el éxito y sos- cuadas para superar los retos y tenimiento del archivado, dado riesgos asociados al proyecto. que se enmarca dentro del pro- pósito de la organización, selec- Paso 2: Identificar aliados ciona específicamente qué sitios Abordar un proyecto de archi- web va a capturar, dimensiona la vamiento web puede ser des- complejidad del proceso de ar- gastante y muy costoso, de- chivado, identifica si es a gran o pendiendo del alcance de los pequeña escala y elige el tipo de objetivos planteados. Para su-

27 MiniManual Archivamiento Web - Archivo General de la Nación

perar este reto administrativo, re un nivel elevado de liderazgo la organización debe identificar por parte de la organización para aliados que se articulen con la unir esfuerzos dirigidos hacia un iniciativa y estén interesados propósito en común. en integrarse al proyecto. Paso 3: Crear una política Es importante analizar las for- talezas y recursos disponibles La política de archivamiento web de cada aliado para garantizar orientará y facilitará la toma de la definición y estandarización decisiones en la ejecución del de los procesos y los flujos de proyecto, la elección de las herra- trabajo del archivamiento web, mientas de software, la definición la asignación de responsabilida- y estandarización de procesos y des y los niveles de participación flujos de trabajo, la asignación de de las partes. Este paso requie- responsabilidades y la adminis-

28 MiniManual Archivamiento Web - Archivo General de la Nación

tración, uso, reuso y acceso de se deben elegir estrategias sus colecciones a la comunidad de preservación adecuadas de usuarios interesados. al proyecto, que garanticen la Esta política debe crearse en disponibilidad y acceso a los conjunto con los aliados y en co- recursos a largo plazo. La uti- herencia con los objetivos plan- lización de mejores prácticas y teados en el proyecto. estándares internacionales es fundamental para afrontar los Paso 4: Elegir estrategias principales retos del archiva- de preservación miento web. De acuerdo con la compleji- Sin embargo, la preservación dad de las colecciones web, digital es un tema en constan-

29 MiniManual Archivamiento Web - Archivo General de la Nación

te evolución, lo cual exige una perar los retos y riesgos tanto actualización y formación cons- técnicos como administrativos tante por parte de los líderes del del archivamiento web, es una proyecto. actividad que debe gestionarse de forma transversal y continua Paso 5: durante la ejecución del proyec- Asegurar la calidad to para identificar oportunida- El seguimiento y análisis en el des de mejora y evitar desvíos cumplimiento de los procesos en el enfoque de los métodos establecidos y las responsabili- de trabajo. dades asignadas, de las herra- El resultado de este paso debe mientas tecnológicas, el des- generar estrategias o alternati- empeño, la asertividad de las vas de solución para asegurar la estrategias elegidas para su- calidad del archivamiento.

30 MiniManual Archivamiento Web - Archivo General de la Nación

Glosario

ARC: Formato creado por Internet Archive para la captura y archivado de sitios web. Crawler: Software que indexa o descarga conte- nido de la web de forma automática. WARC: Web Archive, formato estándar por ISO 28500 para la captura y archivado de recursos web.

31 MiniManual Archivamiento Web - Archivo General de la Nación

Bibliografía

AUSTRALIA. NATIONAL ARCHIVES OF AUSTRALIA. Archiving web resources: guidelines for keeping records of web-based acti- vity in the commonwealth government [En línea]. [citado el 12 de octubre de 2013] BALL, Alex. Web Archiving [en línea]. [citado el 5 de octubre de 2013] BRAGG, Molly y HANNA, Kristine. The web archiving life cycle model [En línea]. [citado el 11 de octubre de 2013] COLOMBIA. MINISTERIO DE TECNOLOGÍAS DE LA INFOR- MACIÓN Y LAS COMUNICACIONES. Estrategia de Gobierno en Línea [En línea]. [citado el 2 de octubre de 2013] PENNOCK, Maureen. Web Archiving: DPC Technology Watch Report 13-01 March 2013[En línea]. [citado el 2 de octubre de 2013] UNITED KINGDOM. THE NATIONAL ARCHIVES. Web Archiving Guidance [En línea]. [ci- tado el 3 de octubre de 2013]

32 @ArchivoGeneral CanalAGNColombia AGN Colombia

Archivo General de la Nación - Colombia Establecimiento público adscrito al Ministerio de Cultura Carrera 6 No. 6-91 - Tel: 328 2888 - Fax: 337 2019 [email protected] - www.archivogeneral.gov.co Bogotá D.C - Colombia