janeiro 31, 2010 alexdasilveira 3 comentários
O conceito de arquivamento da web engloba a preservação de web sites mantendo suas linguagens verbal e não verbal, permitindo que gerações seguintes acessem websites mesmo que não estejam no ar com a mesma experiência de quando estiveram disponíveis ao público. Com o arquivamento da web torna-se possível avaliar o histórico de um website, analisar a evolução da web entendendo a evolução de um dado (CAMPOS, 2007). São vários os casos de Arquivamento da web ( web archive ) no mundo, iniciado pelo Internet Archive ( EUA ) em 1996. Neste texto iremos analisar o UK Web Archive, da British Library.
Além das questões tecnológicas, um projeto que vise arquivar a web deve responder a questões relativas a qual será sua função, o que será seu acervo. Segundo Gomes, Silva e Freitas (2006, tradução nossa), “existe a necessidade de definir estratégias para preencher um arquivo da web no âmbito de suas ações e recursos disponíveis”. Anterior a fase de captura se faz necessário a “definição ou não de um critério de seleção” , necessária por questões econômicas ( gasto para se arquivar tudo ), pela qualidade e objetivo do arquivo e por questões de direito autoral.
No caso do UK Web Archive a página de informações sobre o arquivo aponta que este contém websites que publicam pesquisa, que refletem a diversidade de vidas, interesses e atividades em todo o Reino Unido, e que demonstram a inovação na web, incluindo a “literatura cinzenta”. O foco da preservação não está apenas em um determinado tipo de website, mas em toda a web, com a atribuição de critérios de seleção em relação ao todo, de forma a levantar os principais sites da web local.
Mesmo assim outras limitações são encontradas e ainda não dizem respeito ao âmbito tecnológico, mas ao direito autoral. O Arquivo trabalha a solicitação de autorização para a captura aos proprietários dos sites, o que torna o processo difícil e caro. O mesmo vem fazendo “lobby” junto ao governo buscando as mudanças necessárias na lei de depósito legal, visando tornar o arquivo viável.
O UK Web Archive pretende alcançar todos os públicos com seu acervo, conforme indicado em seu próprio website “foi projetado para atrair usuários através de um amplo espectro de interesse e conhecimento: o leitor em geral, o professor, o jornalista, o decisor político, o pesquisador acadêmico e pessoal, e muitos mais. Representadas pelos próprios sites, com toda a diversidade do Reino Unido, também são destinados a utilizadores prime”.
Logo na página é possível verificar a diversidade através das coleções especiais.
Observa-se a existência de uma coleção exclusiva para blogs além de categorias por assunto e por região. Para uma análise escolhemos o item “European Parliament Elections 2009″ que remeteu 196 websites. Logo pode-se observar que os primeiros resultados remetiam a sites de notícias como a “BBC-News”. Mas é possivel encontrar páginas de partidos políticos com o texto nas épocas em que foram colocados no ar, álbuns de fotos no Flickr. Na localização de websites por coleções o UK Web Archive encontra páginas exclusivamente dedicadas ao assunto e não um website como um todo. Na imagem abaixo é possível verificar o site da BBC News com apenas uma única coleta sobre o assunto.
Porém, esta não é a unica página coleta da BBC News sobre o tema já que o UK Web Archive não considera um site por seu título genérico, sendo possível encontrar “BBC News: At-a-glance – Party-by-party guide”, “BBC News: Elections 2009″, “BBC News: Euro election at a glance 5/6/09″ entre outros títulos listados com pelo menos uma página arquivada.
Além das coleções também é possível buscar um website navegando por títulos, assuntos ou busca livre. Na busca livre há o refinamento que permite realizar uma consulta dos termos desejados pelo título do website ou por seu conteúdo, o que é interessante para a recuperação de blogs que tratam de variados assuntos que não poderiam ser recuperados pelo seu título. Note que o arquivamento da web pode ser beneficiado pela web semantica somada a adoração do padrão HTML 5 na coleta para coleções e nos serviços de recuperação.
Ao escolher um website para a pesquisa o UK Web Archive apresenta uma página com informações básicas sobre o site desejado em detrimento ao volume de informações exibidos por outros arquivos como o mantido pela Library of Crongress
A tela basicamente informa o título do website, a coleção que pertence e seu assunto. A lista de capturas, diferente da maioria dos demais arquivos, é visual e não textual. A lista tem seu benefício de permitir logo uma visualização de mudanças visuais em um determinado website, conforme na figura acima em que na ultima captura o site teve sua linguagem não verbal alterada. Contudo, prevendo a possibilidade de crescimento do acervo e a inviabilidade da listagem iconográfica, como ocorre no Internet Archive, é oferecido a opção de mudar a visualização para una listagem textual com a apenas a data em que o website foi capturado.
Ao escolher uma das páginas verifica-se logo uma diferenças entre o UK Web Archive e o Internet Archive. No primeiro as páginas costumam a ser carregadas com uma velocidade muito boa, carregando todas as suas imagens e com os links pertinentes ao arquivamento em pleno funcionamento, fatos que dificilmente ocorrem no segundo. É importante aqui observar o tamanho dos acervos já que o primeiro age localmente com seleção de páginas, enquanto o segundo mundialmente considerando apenas as restrições de coletas por alguns websites, estando mais propicio a falhas na coleta, até mesmo pelas variadas origens dos arquivos de muitos websites.
Um dos diferenciais do UK Web Archive, presente em pouquíssimos arquivos, é a linha do tempo do website.
Com a barra é possível navegar com facilidade entre as várias capturas realizadas, permitindo verificar de forma simples a evolução de uma página. Mas duas coisas devem ser observadas: primeiro que a linha do tempo vale apenas para a primeira página arquivada, não funcionando nas páginas internas do website, como se não existissem demais capturas das mesmas. Outra questão é que durante nossa análise a uma determinada página a captura ocorrida em 2010 não apareceu na linha do tempo e que ao selecionar este ultima captura na listagem foi exibido uma linha do tempo com apenas aquela data, como se as demais não existissem. Isto pode ser apenas um erro a ser ajustado já que estamos no inicio de 2010, contudo, estranhamente, o fato ocorre exatamente quando a página em questão teve seu layout alterado.
Quanto a redes sociais é bom frisar que nada de últil foi encontrado no UK Web Archive, além de uma página inicial antiga do facebook.com. Isto não é uma característica única do UK Web Archive, pois ao analisarmos o Internet Archive observamos a mesma questão. Arquivar perfis de ferramentas como facebook e twitter, mesmo tendo seu valor histórico, não é uma tarefa fácil devido a 2 questões: Alta velocidade de atualização e questões de privacidade. Contudo, no Internet Archive foi possível encontrar variações antigas de um perfil pessoal que tenho no Multiply, com destaques para o conteúdo que publiquei na época, preservando antigas interfaces. O multiply é uma rede social que gera uma página final com seu conteúdo em uma URL para seu perfil, ou seja, não muito diferente do twitter, o que abre uma perspectiva para que futuramente as redes sociais possam fazer parte também dos arquivos da web.
Enfim, o UK Web Archive é um eficiente arquivo da web, limitado pela leis locais e beneficiado pelo abrangência de uma web local. Sua interface privilegia a consulta e a formação de acervos históricos da web, entretanto, o arquivo não oferece muitas informações sobre o website coletado, conforme ocorre com o arquivo da Library of Congress
ARQUIVAMENTO DA WEB, British Library, Internet Archive, memoria, Preservação da web, uk web archive ARQUIVAMENTO DA WEB
[...] [...]
Gostei do texto.
Parabéns pelo blog/website, é um dos melhores da nossa área (=
Obrigado pelo “é um dos melhores da nossa área”,,, não sei se é o melhor. tem muito blog com bom conteúdo por ai… mas vou sempre tentando fezer o melhor posso