La BNE guarda para su conservación cerca de 2 millones de dominios web en tan sólo 25 días

En este foro los usuarios podrán subir las noticias que se vayan produciendo, sobre la temática de la web, y también se abrirá un hilo por cada noticia que se publique en la página principal.

Moderadores: Juan, Moderadores

Avatar de Usuario
Vainaimoinen
Administrador
Mensajes: 6537
Registrado: Sab Dic 20, 2008 9:54 pm

La BNE guarda para su conservación cerca de 2 millones de dominios web en tan sólo 25 días

Mensaje por Vainaimoinen »

La BNE guarda completos el 87% de los dominios .es

  • Acaba la sexta recolección del dominio .es con 68 Tb de información descargada de la web

Madrid, 3 de agosto de 2021.- La Biblioteca Nacional de España tiene entre sus funciones preservar el patrimonio documental en internet. Para ello, se lleva a cabo, por sexto año consecutivo, la recolección masiva de sitios web pertenecientes al dominio .es, como parte de la memoria colectiva de nuestro país. En total, la BNE ya conserva el 87% de los dominios .es

Se trata de un complejo desafío a nivel técnico que ha supuesto guardar más de 1.970.00 dominios durante 25 días rozando los 68 TB de información. El número de dominios .es desde 2016 ha aumentado en 180.000 y la infraestructura tecnológica usada ha mejorado su eficacia reduciendo considerablemente el tiempo necesario para la descarga de la información, de los 92 días en 2016 a los 25 días en 2021.

Para guardar los contenidos se trabaja con un software de recolección automático, NetarchiveSuite, que utiliza 71 arañas que rastrean la web y guardan los contenidos pinchando y descargando la información de los enlaces que encuentra.

El contenido se almacena en un formato específico, conocido como WARC (Web Archive), que permite la consulta de los sitios web tal y como se haría navegando por Internet. A las recolecciones se les establece un límite de tamaño de descarga por cada sitio web para evitar la sobrecarga y saturación del sistema de recolección. La BNE establece un límite de 150 Megabytes por cada dominio, por lo que una vez llegado a este límite la recolección para, continuando con el siguiente dominio. Este año y con esta configuración, se ha logrado guardar de manera completa el 87% del total de los dominios.

Archivo de la Web española: un proyecto coral, atento a la actualidad

El Archivo de la Web Española desde su creación en 2009, complementa las recolecciones masivas con una selección de sitios web que recogen, con mayor profundidad y frecuencia, más de 40.000 sitios web en cualquier dominio (.com, .net, etc.) importantes por su valor histórico, social o cultural. Esto no sería posible sin el apoyo del Consejo de Cooperación Bibliotecaria, que posibilita la colaboración de más de 30 conservadores web de diferentes comunidades autónomas, que seleccionan e incorporan contenidos al Archivo de la Web Española. Las últimas en incorporarse al proyecto han sido la ciudad autónoma de Ceuta y las Islas Baleares.

 La actualidad es fundamental en el Archivo de la Web Española. A las colecciones de mayor recorrido como política nacional o medios de comunicación, se unen colecciones específicamente creadas para abordar los temas de mayor actualidad como el cambio climático, el feminismo o los videojuegos. En esta línea, se siguen guardando contenidos sobre la pandemia del Coronavirus con más 6.000 sitios web guardados hasta la fecha. También se han cubierto acontecimientos como las elecciones de Cataluña y Madrid; fiestas de importancia social y reivindicativa como el 8 de marzo, el Día Internacional de la Mujer, o el Orgullo LGTBI. Sin este trabajo, muchos de los contenidos generados de forma masiva y continuada en Internet se perderían para siempre, haciendo imposible el estudio de nuestra sociedad por los ciudadanos e investigadores, actuales y futuros.

Toda la información del Archivo de la Web Española es consultable a través de terminales informáticos situados en las salas de la BNE, así como desde las bibliotecas autonómicas.

 

Imagen
Responder

Volver a “NOTICIAS”