fevereiro 26, 2010 alexdasilveira 1 comentário
Continuando a análise de arquivos da web que o Bibliotecno iniciou (veja as análises do Bibliotecno para o UK WEB ARCHIVE da Biblioteca Britânica e do LCWA/MINERVA da Library of Congress) chegamos ao Arquivo da Web Portuguesa (AWP) que ainda está em fase experimental, mas tem seu histórico com raízes em 2001 com o projeto tumba (temos um motor de busca alternativo) desenvolvido por um grupo de investigação da Universidade de Lisboa.
Recentemente o AWP liberou uma versão experimental do arquivo, contudo, antes mesmo desta versão experimental já era possível verificar ações interessantes sobre o projeto. A principal inovação é o rARC (Replicador de Arcs), sistema de salvaguarda da informação arquivada do AWP, que tem como novidade utilizar um determinado espaço dos computadores dos próprios usuários como Backup do arquivo. A idéia é de que mesmo que o arquivo central se perca por completo ainda assim será possível recuperá-lo. Cada usuário que tiver interesse em colaborar com a preservação do AWP poderá ceder no mínimo 100mb de seu disco rígido (espaço para guardar um arquivo arc). A idéia não é utilizar o espaço do HD do usuário para sempre, possibilitando a este apagar o conteúdo arquivado e aumentar ou diminuir o espaço destinado a colaboração, assim, o AWP irá redistribuir os arquivos para computadores de outros usuários, mantendo este como um processo em plena mutação.
A tela inicial da versão experimental do AWP é bem simples, com um campo de pesquisa por termo livre e um diferencial em relação aos arquivos analisados: a possibilidade de demarcação de período cronológico. Mas há um link para uma segunda interface que apresenta a pesquisa avançada com a segregação dos campos por: palavras (contendo palavras, frase exata ou exclusão de termos), data (permitindo combinar o período com refinamentos de ordenação), formato de arquivo, URL e quantos resultados serão exibidos por página.
Para análise da versão experimental foi utilizado a busca pelo termo “literatura” em todo o período de arquivamento. O resultado, em formato parecido com o do buscado google, apresentou 2.255.868 itens extraídos da web de Portugal e sobre portugal (foco do arquivamento) . A unica interferência do AWP é uma tira amarela na parte superior informando a url da página quando entrou no, o que se torna um recurso interessante já que no navegador o que se encontra é a url da página arquivada, e a data de arquivamento. Esta tira pode ser retirada com o link “esconder”.
Na pesquisa/exemplo foi possível encontrar um website que tinha uma determinada linguagem não verbal em 2002 e que hoje se encontra modificado e que apresenta um dos links inacessíveis na versão atual, mas completo e integro na versão de 2002, conforme as imagens abaixo.
Em outras pesquisas realizadas o resultado do arquivamento pode ser considerado satisfatório, sendo possível acessar novamente páginas antigas conforme elas eram no ato de sua publicação ou quando existiam (finalidade do conceito de arquivamento da web) até mesmo em páginas com uma quantidade maior de atualizações, contudo, é possível encontrar páginas onde os elementos visuais (linguagem não verbal) não foram preservados, principalmente nos conteúdos mais antigos.
É possível concluir que para um arquivo em fase experimental o AWP já está nivelado em relação aos demais arquivos existentes, possibilitando constatar o bom trabalho da Fundação para a Computação Científica Nacional, do Programa Operacional Sociedade do Conhecimento e da Agência para a Sociedade do Conhecimento. Diferente dos demais arquivos já apresentados no Bibliotecno este não é mantido por uma Biblioteca Nacional. Na página do AWP é possível encontrar várias outras informações: http://arquivo-web.fccn.pt/
ARQUIVAMENTO DA WEB, Arquivo da web portuguesa - AWP, memoria, preservação digital, web portuguesa ARQUIVAMENTO DA WEB
[...] da Biblioteca Britânica ( http://alexdasilveira.com/?p=412 ) e o Arquivo da Web Portuguesa ( http://alexdasilveira.com/?p=474 ), contudo, várias outras bibliotecas já tem seus arquivos da web, além do pioneiro Internet [...]