Preservação da Web – Analise do Arquivo da Web Portuguesa (AWP)

fevereiro 26, 2010 alexdasilveira 1 comentário

Continuando a análise de arquivos da web que o Bibliotecno iniciou (veja as análises do Bibliotecno para o UK WEB ARCHIVE da Biblioteca Britânica e do LCWA/MINERVA da Library of Congress) chegamos ao Arquivo da Web Portuguesa (AWP) que ainda está em fase experimental, mas tem seu histórico com raízes em 2001 com o projeto tumba (temos um motor de busca alternativo) desenvolvido por um grupo de investigação da Universidade de Lisboa.

Recentemente o AWP liberou uma versão experimental do arquivo, contudo, antes mesmo desta versão experimental já era possível verificar ações interessantes sobre o projeto. A principal inovação é o rARC (Replicador de Arcs), sistema de salvaguarda da informação arquivada do AWP, que tem como novidade utilizar um determinado espaço dos computadores dos próprios usuários como Backup do arquivo. A idéia é de que mesmo que o arquivo central se perca por completo ainda assim será possível recuperá-lo.  Cada usuário que tiver interesse em colaborar com a preservação do AWP poderá ceder no mínimo 100mb de seu disco rígido (espaço para guardar um arquivo arc). A idéia não é utilizar o espaço do HD do usuário para sempre, possibilitando a este apagar o conteúdo arquivado e aumentar ou diminuir o espaço destinado a colaboração, assim, o AWP irá redistribuir os arquivos para computadores de outros usuários, mantendo este como um processo em plena mutação.

Tela inicial experimental do AWP

A tela inicial da versão experimental do AWP é bem simples, com um campo de pesquisa por termo livre e um diferencial em relação aos arquivos analisados: a possibilidade de demarcação de período cronológico. Mas há um link para uma segunda interface que apresenta a pesquisa avançada com a segregação dos campos por: palavras (contendo palavras, frase exata ou exclusão de termos), data (permitindo combinar o período com refinamentos de ordenação), formato de arquivo, URL e quantos resultados serão exibidos por página.

Pesquisa avançada do AWP experimental

Pesquisa avançada do AWP experimental

Para análise da versão experimental foi utilizado a busca pelo termo “literatura” em todo o período de arquivamento. O resultado, em formato parecido com o do buscado google,  apresentou 2.255.868 itens extraídos da web de Portugal e sobre portugal (foco do arquivamento) . A unica interferência do AWP é uma tira amarela na parte superior informando a url da página quando entrou no, o que se torna um recurso interessante já que no navegador o que se encontra é a url da página arquivada, e a data de arquivamento. Esta tira pode ser retirada com o link “esconder”.

Tela de Resultado da pesquisa parecida com a do buscador google

Tela de Resultado da pesquisa parecida com a do buscador google

Na pesquisa/exemplo foi possível encontrar um website que tinha uma determinada linguagem não verbal em 2002 e que hoje se encontra modificado e que apresenta um dos links inacessíveis na versão atual, mas completo e integro na versão de 2002, conforme as imagens abaixo.

Página do Centro Virtual Camões arquivada em 2002

Página do Centro Virtual Camões arquivada em 2002

Mesma página do Centro Virtual Camões em 2010, mudanças na linguagem não verbal

Mesma página do Centro Virtual Camões em 2010, mudanças na linguagem não verbal

Link ficção da página do Centro Virtual Camões em 2002

Link ficção da página do Centro Virtual Camões em 2002

Em 2010 o link "ficção" da imagem acima não encontra-se disponível

Em 2010 o link "ficção" da imagem acima não encontra-se disponível

Em outras pesquisas realizadas o resultado do arquivamento pode ser considerado satisfatório, sendo possível acessar novamente páginas antigas conforme elas eram no ato de sua publicação ou quando existiam (finalidade do conceito de arquivamento da web) até mesmo em páginas com uma quantidade maior de atualizações, contudo, é possível encontrar páginas onde os elementos visuais (linguagem não verbal) não foram preservados, principalmente nos conteúdos mais antigos.

É possível concluir que para um arquivo em fase experimental o AWP já está nivelado em relação aos demais arquivos existentes, possibilitando constatar o bom trabalho da Fundação para a Computação Científica Nacional, do Programa Operacional Sociedade do Conhecimento e da Agência para a Sociedade do Conhecimento. Diferente dos demais arquivos já apresentados no Bibliotecno este não é mantido por uma Biblioteca Nacional. Na página do AWP é possível encontrar várias outras informações: http://arquivo-web.fccn.pt/




Artigos relacionados (leia também):

  1. Preservação da Web pela Library of Congress com o LCWA / Minerva – Análise
  2. A Preservação da publicidade online através do conceito de arquivamento da web
  3. Memória da web: o caso da British Library com o UK Web Archive
  4. QR CODE : QUANDO A PRESERVAÇÃO DA WEB TAMBÉM É UMA NECESSIDADE EM RELAÇÃO AO JORNAL IMPRESSO
  5. A perda da memória ou a preservação digital

, , , , ARQUIVAMENTO DA WEB

1 comentário → “Preservação da Web – Analise do Arquivo da Web Portuguesa (AWP)”

  1. [...] da Biblioteca Britânica ( http://alexdasilveira.com/?p=412 ) e o Arquivo da Web Portuguesa ( http://alexdasilveira.com/?p=474 ), contudo, várias outras bibliotecas já tem seus arquivos da web, além do pioneiro Internet [...]

Comente!

Blog WebMastered by All in One Webmaster.