ESTRUTURA DO SISTEMA DE PRESERVAÇÃO


Essa estrutura foi elabora com a experiência de uma equipe multidisciplinar na construção do Memorial Digital da Pandemia de COVID-19. Dessa forma, este texto busca expor as etapas de produção de um sistema de preservação digital alinhado com as mais atualizadas práticas técnicas e jurídicas na preparação para um projeto de preservação.

Um projeto de preservação deve contar com um planejamento ponta a ponta que vá da coleta à difusão de forma a construir uma cadeia de preservação; do contrário, o fluxo de trabalho pode ser interrompido ou atrasado por imprevistos ou, até mesmo, resultar em projetos de preservação que minguam não muito tempo depois de seu lançamento. Assim, propomos um plano de implementação dividido em cinco fases:

PLANO DE IMPLEMENTAÇÃO

APROXIMAÇÃO

1.Criação de grupo de trabalho: formação de um grupo de trabalho incluindo lideranças comunitárias e especialistas em arquivamento digital e preservação;
2.Definição de termos de parceria: estabelecimento claro dos termos de colaboração entre as partes envolvidas;
3.Definição de critérios para normalização dos dados: estabelecimento dos padrões que serão utilizados na normalização dos dados coletados.

AVALIAÇÃO DAS COLEÇÕES

1.Revisão das categorias visando uma política arquivística: aprimoramento da descrição das coletas nos sentidos de avaliação de risco (preservação digital).
2.Avaliação de risco: análise da capacidade de preservação dos projetos alinhado à política de preservação do projeto;
3.Avaliação temática I: voltada aos arquivos cujos registros expressam com mais ênfase as problemáticas da política de preservação;
4.Avaliação temática II: reunião de tipos de documentos, visando amparar o recolhimento (Etapa III).

RECOLHIMENTO

1.Definição de estratégia de recolhimento: planejamento de como os documentos serão coletados, considerando as diversas fontes, formatos e a natureza efêmera de muitos documentos digitais;
2.Implementação técnica: aplicação das ferramentas e tecnologias para a coleta e processamento inicial dos dados;
3.Auxílio e acompanhamento com as lideranças: garantia de suporte contínuo às lideranças locais para facilitar a coleta de documentos.

PREPARAÇÃO DE PACOTES

1.Normalização dos dados: a partir do software de sua preferência (utilizamos o Archivematica), normalizar os dados segundo os critérios previamente definidos;
2.Preservação sistêmica: garantia de que todos os pacotes documentais estejam devidamente preservados para futuro acesso e uso.

ACESSIBILIDADE

1.Ciclo curatorial ativo com lideranças: envolvimento das lideranças na curadoria do conteúdo, garantindo que as exposições e visualizações sejam compatíveis com a sensibilidade do acervo em questão;
2.Visualização de dados: desenvolvimento de formas interativas e engajadoras de apresentar os documentos ao público.

Em um segundo momento, é essencial que qualquer iniciativa de preservação se atente às legislações pertinentes no planejamento das várias etapas do quadro de arranjo. Pelo caráter deste conteúdo, não nos cabe expor documento por documento. Decidimos, portanto, apontar um conjunto de textos que buscam a normalização da prática e o suporte jurídico da iniciativa:

DOCUMENTAÇÃO JURÍDICA

Lei Federal nº 8.159/1991 (Lei de Arquivos): Dispõe sobre a política de arquivos públicos e privados.

Lei Federal nº 12.527/2011 (Lei de Acesso à Informação – LAI): Regula o acesso à informação pública e o direito dos cidadãos a recebê-la.

Lei Federal nº 13.709/2018 (Lei Geral de Proteção de Dados Pessoais – LGPD): Essencial para proteger direitos fundamentais de liberdade e privacidade e para regulamentar o tratamento de informações sensíveis contidas no acervo, como a anonimização de dados pessoais.

esolução nº 51, de 25 de agosto de 2023. CONARQ (Diretrizes para a Implementação de Repositórios Arquivísticos Digitais Confiáveis). Confere normas para a implementação de RDC-arq.

Decreto nº 8.777/2016 (alterado pelo Decreto nº 9.903/2019): Instituiu a Política de Dados Abertos, exigindo a publicação de dados primários em formato aberto e legível por máquinas

Constituição Federal de 1988 (Art. 216): Dispõe sobre o patrimônio cultural brasileiro.

Lei nº 9.610/1998 (Lei dos Direitos Autorais): Altera, atualiza e consolida a legislação sobre direitos autorais.

Carta para Preservação do Patrimônio Digital da UNESCO (2003): Referencial internacional que está em consonância com a criação do Memorial.

Carta para a Preservação do Patrimônio Digital Brasileiro (CONARQ, 2005): Oferece respaldo à iniciativa. Assim como todas as resoluções normativas do CONARQ.

Programa Memória do Mundo (MoW) da UNESCO: Trabalha para projetos de preservação de registros documentais relacionados à Covid-19.

NORMAS TÉCNICAS

Modelo de Referência OAIS (ISO 14721): Estabelece padrões de preservação digital de longo prazo;

Dublin Core: Utilizado para a descrição de objetos, servindo como o padrão principal de metadados descritivos;

PREMIS (Preservation Metadata): Aplicado na gestão de metadados de preservação, focando na integridade e longevidade dos arquivos;

METS (Metadata Encoding and Transmission Standard): Adotado para a gestão e intercâmbio dos pacotes de informação dentro do sistema;

Protocolo BagIt: Responsável pela segurança no transporte e armazenamento, garantindo que os objetos cheguem e permaneçam intactos.

Embora o caráter transdisciplinar da prática impeça a divisão perfeita da infraestrutura técnica, sugerimos um fluxo de trabalho organizado em um arranjo quadripartite: (1) Coleta, (2) Tratamento Técnico, (3) Preservação Digital e Armazenamento e (4) Difusão. 

1) COLETA

Uma colagem artística em preto e branco, com texturas que lembram retículas de jornal ou impressões antigas. A imagem é composta por fragmentos de fotografias de pessoas negras, recortes de textos e elementos gráficos manuais. Fotografias: No centro e nas laterais, aparecem retratos de família e fotos de grupo. Destacam-se uma mulher jovem sentada em um ambiente doméstico (canto inferior esquerdo), um grupo de pessoas em cadeiras (centro superior) e uma foto de duas mulheres (canto inferior direito). Há também pequenas silhuetas de pessoas caminhando inseridas entre os recortes. Textos: Pedaços de papel com textos impressos estão espalhados pela composição, servindo como fundo para as fotos. As letras são pequenas e nem sempre legíveis, sugerindo documentos ou cartas antigas. Elementos Gráficos: A imagem é marcada por intervenções em vermelho vibrante, que contrastam com o preto e branco. Esses elementos incluem linhas pontilhadas que atravessam a imagem, pequenas cruzes (X) enfileiradas e manchas que lembram marcas de caneta ou costuras, conectando visualmente as diferentes memórias e fragmentos. A composição tem um aspecto de "arquivo de memória" ou "álbum de recortes", transmitindo uma sensação de preservação histórica e pessoal.

A etapa de coleta é o primeiro ponto de articulação entre arquivistas, doadores e seus respectivos acervos. Visto que cada iniciativa possui especificidades metodológicas próprias, os acervos são compreendidos como objetos arquivísticos singulares, necessitando de um tratamento especializado e atento às suas particularidades. Isso exige que esta etapa vá além de procedimentos técnicos e se direcione para a construção de vínculos entre as partes, de forma a compreender as demandas sensíveis do fundo. Assim, o processo de Coleta é composto de seis passos: Curadoria e abordagem inicial; Análise e seleção; Orientação técnica; Conferência; Transferência; e Verificação de integridade e validação de conteúdo.

1) CURADORIA E ABORDAGEM PRINCIPAL

Esta etapa consiste em mapear os fundos (os conjuntos documentais de uma mesma origem) de interesse e compreender a sua natureza. Perguntas que podem ajudar na elaboração dessa curadoria são: Porque os registros foram criados? Como foram criados os registros? Como foi dada visibilidade, difusão e compartilhamento desses registros? Há autorização para a publicidade desse conteúdo? De que tipo era o relacionamento entre os colaboradores? Como era a dinâmica instituída pelo grupo que criava suas memórias? De forma geral, como foi o contexto de produção da coleção? A partir disso, abre-se um diálogo entre os doadores e a equipe de coleta com o objetivo de criar vínculos entre as partes, explicar de que se trata o projeto arquivístico em questão e sensibilizar os doadores sobre a construção e preservação de memórias digitais. Por fim, é o espaço no qual o doador declara seu interesse em preservar o fundo documental.

2) LEVANTAMENTO PRELIMINAR

Manifestando o interesse do doador, parte-se para a compreensão de que se trata a coleção. Nesta etapa, deve-se decidir a melhor forma de coleta desse material, tendo em vista seu caráter difuso. O maior desafio aqui é a dificuldade de acesso às mídias nas quais foram compartilhadas. Algumas perguntas que podem auxiliar em uma melhor compreensão do acervo são: Em que plataforma/serviços de hospedagem/nuvem a iniciativa está? Como ela foi organizada? Que tipos de mídia (texto, áudio, foto ou vídeo) compõem os registros? Há backup desses materiais em outras plataformas? Existem metadados, informações organizadas sobre os objetos em tabelas, arquivos de texto e PDF?

3) ANÁLISE, SELEÇÃO E ORIENTAÇÃO TÉCNICA

 Compreendida a natureza do fundo e suas particularidades, é nesta etapa do arranjo que é decidido quais documentos devem ser preservados. Tendo isso em vista, a equipe de coleta parte, em conjunto com o doador, para organização e catalogação dos objetos doados, que devem estar na Planilha de Discriminação do Acervo (.xlsx ou .csv). Também, nesta etapa, recomenda-se a assinatura do Termo de Doação (.pdf) junto aos doadores. 
*Lembre-se: todo material que contenha ou seja produzido por menores de 18 anos deve ser acompanhado de termo equivalente.

4) TRANSFERÊNCIA

Nesta etapa, a equipe de coleta oferece um treinamento para que os doadores possam enviar a sua doação. O processo constitui-se de duas etapas: a criação do código Hash (SHA-256)* dos itens doados, pelo software TeraCopy, e a organização dos arquivos em um diretório, contendo uma pasta de Apoio (com termos e planilhas) e uma pasta Objetos (contendo os arquivos doados); em seguida, há a hospedagem via FileGator do Lote.
* O código Hash (SHA-256) é um identificador único criptografado que garante a preservação dos arquivos assim como foram doados, criando uma trilha de auditoria Isso evita que algo possa ser adulterado ou excluído sem que se tome registro dessas alterações. Este é um elemento crucial da segurança e preservação arquivística.

5) VERIFICAÇÃO DE INTEGRIDADE

Nesta etapa, a Equipe de TI verifica via script* se todos os itens possuem códigos Hash correspondentes e gera um Relatório de Integridade (.xlsx ou .csv) com a lista de Validação de Conteúdo Objetos e possíveis divergências. Ao fim da etapa, o lote é movido para Validação de Conteúdo, a fim de que a equipe de coleta possa fazer a avaliação.
*Criado por Murilo Souza dos Santos, o script que foi utilizado no Memorial é uma Biblioteca Python de validação de processos que verifica arquivos de modo geral, identificando arquivos duplicados, gerando mapa do domínio e código FMT, conferindo os formatos para preservação (gera código para extensão), entre outras funções.

6) VALIDAÇÃO DE CONTEÚDO

É nesta etapa que a equipe de coleta faz uma verificação administrativa nos seguintes itens: possíveis pendências de Hash; assinaturas de termos; pertinência entre o conteúdo da planilha de discriminação e os itens transferidos; e confirmação da estrutura do lote (existência dos diretórios [apoio] e [objetos] devidamente nomeados). Se tudo estiver dentro do esperado, o lote é movido para a etapa seguinte; se não, vai para a Retificação.

7) RETIFICAÇÃO

Nesta etapa, as pendências observadas na validação de conteúdo devem ser sanadas e o lote enviado novamente para a etapa de transferência e, posteriormente, para Validação de Integridade e Validação de Conteúdo. Se tudo estiver dentro do padrão, o lote é transferido para o Tratamento Técnico.

2) TRATAMENTO TÉCNICO E USO de IA

A segunda parte do sistema trata da preservação técnica do fundo, O caminho que um documento percorre dentro de um sistema de preservação pode ser dividido em seis etapas, organizadas como uma linha de montagem onde cada fase garante a qualidade da seguinte.  O arranjo do tratamento técnico é composto pelas etapas de Pré-processamento, Revisão de Metadados, Verificação de Conformidade, Avaliação de Pendências.

O tratamento técnico é uma etapa que demanda atenção a um número grande de detalhes. Neste ponto a análise humana é indispensável. Contudo, diante das novas potencialidades do uso de Inteligência Artificial (IA), o Memorial desenvolveu um plugin que integra interfaces de IA no processo de tratamento técnico. Seu objetivo é servir de assistente técnico na hora das operações. É importante deixar claro que todas as operações com o uso de IA, que serão descritas mais adiante, acontecem sem a supervisão humana dos seus resultados. Este é um passo importante para que possamos tornar o Memorial um projeto crowdsourcing, no qual o próprio usuário possa preservar as suas memórias de forma autônoma. O sistema de preservação crowdsourcing, desenvolvido pela nossa equipa, será implementado junto à exposição física e permanente do Memorial da Pandemia de COVID-19. 

O Uso de IA: Plugin do Memorial 

Como vimos em outra sessão, o Plugin do Memorial permite a integração de técnica de IA no processo de preservação digital e no Portal. A etapa do tratamento técnico lançou mão de algumas dessas ferramentas para dar maior garantia e velocidade ao processo de recolhimento dos fundos. A IA acelera enormemente o trabalho, mas nunca substitui o julgamento humano. É importante reforçar que toda sugestão de IA deve ser tratada como rascunho até ser validada por um profissional. Algumas utilidades do uso de inteligência artifical no processo de preservação digital utilizadas pela equipe do Memorial são:

Leitura de Documentos

A IA não apenas “vê”, ela interpreta. Analisa imagens página a página através de visão computacional;

Sugestão de Metadados

Poupa o trabalho manual ao identificar automaticamente o título, autor, data, idioma e palavras-chave mais relevantes;

Transcrição de Texto

Transforma imagens em dados editáveis, extraindo o conteúdo de documentos digitalizados e até de fotografias (OCR);

Erros e Alertas

Funciona como um filtro de qualidade, sinalizando imediatamente se houver páginas ilegíveis, conflito de idiomas ou informações essenciais que ficaram para trás.

De forma a garantir integridade, interoperabilidade e longevidade de seu acervo, sugerimos a utilização de uma arquitetura de dados pautada por padrões internacionais de excelência. O Memorial foi concebido tendo o OAIS (Open Archival Information System) como modelo de referência. Formalizada pela norma ISO 14721, a iniciativa busca garantir a constituição de um Repositório Digital Confiável (RDC-arq), atento à preservação digital de longo prazo. Para a estrutura de metadados, adotamos o Dublin Core para descrição de objetos, aliado ao padrão PREMIS (Preservation Metadata: Implementation Strategies) para a gestão de metadados de preservação, onde cada ação (envio, análise, validação, empacotamento, transferência) é registrada com data, hora, responsável e resultado. O METS (Metadata Encoding and Transmission Standard) foi adotado para a gestão e o intercâmbio dos pacotes de informação. Por fim, para a segurança do transporte e armazenamento dos objetos, utilizamos o protocolo BagIt.

FLUXOGRAMA TRATAMENTO TÉCNICO

1) PRÉ- PROCESSAMENTO

Nesta etapa, a Equipe de TI pré-processa o lote recebido (gera sugestões de nomenclatura e arquivos para revisão e padronização) Os documentos são enviado e o sistema deve gerar uma “impressão digital” única do arquivo (hash SHA-256), que funciona como um lacre, assim, qualquer alteração futura pode ser detectada. Depois indicamos fazer um registro do primeiro evento de preservação, marcando data, hora e responsável pelo envio.
*Quando do uso de IA no processo técnico é importante converter cada página em imagem de alta resolução (300 DPI) para que a IA possa “enxergar” o conteúdo;

2) REVISÃO DE METADADOS

Utilizando os arquivos gerados pela TI no pré-processamento, a equipe realiza a padronização de nomenclatura e a revisão técnica dos nomes de arquivos para, então, fazer a revisão de metadados, descrevendo de forma padronizada os itens com base na planilha de discriminação original. Um segundo membro da equipe valida a planilha de metadados. Se houver erros, o lote retorna à padronização; se aprovado, segue para conformidade.
*Quando da utilização da IA no processo de revisão, as imagens e os textos dos documentos são analisadas pela IA, que propõe automaticamente: título, autor, data, idioma, resumo e palavras-chave (seguindo o padrão Dublin Core, usado mundialmente para catalogação). Essas sugestões aparecem na tela ao lado do documento original. O preservador pode aceitar, corrigir ou pedir que a IA refaça a análise. Só depois da aprovação humana os metadados são gravados oficialmente.

3) VERIFICAÇÃO DE CONFORMIDADE

Nesta etapa, a equipe de TI, de modo sistemática e automatizada, valida a estrutura técnica final do pacotes: verificar os 15 campos Dublin Core; se os eventos PREMIS foram registrados corretamente; se o arquivo METS (mapa estrutural) está íntegro? Se houver falhas, ele é movido para Avaliação de Pendências e monitorada pela equipe de tratamento técnico; se aprovado, o processamento é finalizado.

4) AVALIAÇÃO DE PENDÊNCIAS

Essa etapa funciona como um “controle de qualidade” antes do arquivamento definitivo. Aqui, a equipe de tratamento corrige quaisquer pendências indicadas no relatório de conformidade produzido na etapa anterior. Após a revisão se há metadados validados, transcrições aprovadas e checksums conferidos, o pacote segue para a Preservação Digital e Armazenamento.”

3) PRESERVAÇÃO DIGITAL E ARMAZENAMENTO (RDC-arq)

A terceira frente de atuação do Memorial tratou de buscar soluções de armazenamento desses acervos coletados e tratados. É importante que se planeje o armazenamento a longo prazo e, para isso, uma Política de Preservação de Acervos Digitais deve ser elaborada.

Nossa iniciativa busca, a partir da experiência deste projeto, estabelecer uma política nacional de preservação digital de arquivos. A priori, delineada a partir de quatro eixos:

Formulação de políticas arquivísticas

Formulação de políticas arquivísticas para acervos digitais informais lançando mão de estratégias de gestão que integrem lideranças locais a soluções técnicas de organização de documentos digitais.

Estratégias de preservação digital sistêmica

Estratégias de preservação digital sistêmica a partir de uma normalização de dados, que visa assegurar a preservação duradoura de documentos digitais.

Acessibilidade e visualização de patrimônio documental

Acessibilidade e visualização de patrimônio documental a partir de difusão pública dos arquivos digitais, incluindo a implementação de exposições tanto virtuais quanto físicas.

Desenvolvimento de produtos científicos interdisciplinares

Desenvolvimento de produtos científicos interdisciplinares por meio da elaboração de conhecimento técnico (trans)interdisciplinar sobre a produção de uma preservação digital de domínio público.

Além do delineamento político da gestão do projeto, é necessário elaborar um plano de padronização técnica  e uma trilha de auditoria dos documentos, que visam a longevidade da iniciativa. Para tanto, sugerimos o seguinte arranjo de trabalho:

FLUXOGRAMA DE PRESERVAÇÃO E ARMAZENAMENTO

1) BACKLOG DE ARQUIVAMENTO

Os documentos aprovados entram em uma fila organizada de envio. O administrador pode visualizar estatísticas (quantos na fila, quantos processando, quantos concluídos), filtrar por status e decidir quando e em que ordem fazer o envio. O pacote BagIt — um “envelope digital” padronizado que contém o arquivo original, suas versões derivadas, todos os metadados e os checksums de verificação — é gerado nessa etapa.

2) ADMISSÃO NO ARCHIVEMATICA

Este sistema gratuito e de código aberto tem por objetivo a preservação digital, buscando criar arquivos (AIP) que possam ser pesquisáveis e reproduzidos pelo maior tempo e pela maior quantidade de pessoas possíveis. Para isto, ele faz vários microsserviços, como gerar metadados técnicos detalhados sobre o pacote, identificar o formato do arquivo e sua normalização, verificar o Hash e a integridade dos arquivos, remover vírus, validar formatos (verificar se estão em conformidade), descompactar, encontrar informações sensíveis (e-mail, telefone, etc.), normalizar e gerar o AIP, transcrever informações e juntar os metadados já gerados aos metadados gerados por ele, entre outros. A partir da admissão no Archivematica, o documento passa a ser custodiado por um repositório digital confiável, com políticas de migração de formato, redundância de cópias e auditoria contínua. O Memorial registra o último evento PREMIS: a transferência, com o identificador único (UUID) atribuído pelo Archivematica.

3) ARQUIVAMENTO

Os pacotes são, por fim, depositados no serviço de armazenamento de sua escolha.”

4) DIFUSÃO

O Memorial buscou formas interativas e inovadoras de acessibilidade na elaboração de seu portal, local no qual o usuário interage com os documentos. Ele é um mecanismo de busca que permite ao usuário encontrar documentos de diversas coleções em conjunto, tornando possível a identificação de pontos de contato entre diferentes tipos de coleções e objetos. Para isso, construímos uma integração entre Archivematica e Tainacan, uma plataforma brasileira de código aberto e gratuita, voltada para a gestão e publicação de acervos digitais a partir de sites em WordPress. A seguir as etapas do arranjo pensado.

Questão jurídica de exibição.
A segurança jurídica é o pressuposto para exibir. Como estamos lidando com projetos que tratam de dados pessoais, considerados sensíveis que envolvem experiências pessoais, domésticas e de trabalho, por vezes registros oriundos ou que exponham menores de idade, além de dados confidenciais ou restritos ou públicos de instituições, é necessário que se busque uma estabilidade jurídica através de um ordenamento de termos de sessão e permissões de publicidade. Todavia, exibir não é o mesmo que guardar, de forma que todo conteúdo é salvo, mas nem todo conteúdo é tornado público.

O trabalho de difusão não acaba com a exposição do fundo por meio de site. Nesta etapa é importante pensar no pós-publicação, como exposições físicas, ações educativas e museológicas e produção de novas experiências a partir das coleções construídas.

FLUXOGRAMA DE DIFUSÃO

TAINACAN

Saindo do Archivematica, o acervo, finalmente, chega em contato com o usuário final e pode ser consumido pelo Tainacan.

PORTAL

O Portal do Memorial permite estender as possibilidades ao disponibilizar para o grande público um ambiente de preservação e difusão digital seguros, no qual poderão de maneira autônoma depositar suas memórias.

APLICAÇÃO

*Exposição física e permanente

*Ações educativas

*Produção de novas experiências

Visualização gráfica do Fluxograma

Fluxograma de um processo de gestão de acervo digital, dividido em etapas como coleta, análise, tratamento, validação, arquivamento e difusão. O diagrama apresenta decisões com caminhos de “sim” e “não”, incluindo retornos para ajustes (como revisão e padronização de metadados). Ao final, o material aprovado é arquivado e disponibilizado para difusão.