Tarcisio Gambin

Compartilhando o conhecimento se compartilha o sucesso!

  • Início
  • W3DO
Como remover metadados internos de arquivos PDF usando .Net Core e iTextsharp

Como remover metadados internos de arquivos PDF usando .Net Core e iTextsharp

2018-05-19 Off Por gambin

Olá Pessoal!

Gostaria de compartilhar com vocês um ConsoleApp em .Net Core que desenvolvi e me ajudou bastante na remoção de metadados de arquivos PDF! Mas pra que raios vou usar um negócio desses?! Antes vamos falar um pouco sobre metadados 😀

É bom lembrar que nossos arquivos não possuem apenas as “propriedades Windows” (ou como em qualquer outro SO), como Name, Title, Owner, etc; arquivos como o formato PDF também armazenam metadados próprios internamente e estes podem ser gerados dentro da própria ferramenta que os originou – seja ela um Adobe Photoshop, Lightroom, ou até mesmo uma ferramenta do pacote Microsoft Office.

Segue abaixo um arquivo PDF com metadados, e quais os “propriedades Windows” são exibidas:

Os metadados internos do arquivo podem ser verificados através do PowerMeta:

Ou melhor, no pacote do PowerMeta (que na verdade corresponde a um script powershell para análise de sites, download e verificação de metadados através da ferramenta exiftool.exe) voce pode usar apenas o exiftool para verificar individualmente o arquivo, como fizemos logo acima.

Observe que temos listado aqui o Author, Producer, XMP Toolkit, e uma séria de outros metadados que podem variar de ferramenta para ferramenta que produzem tais arquivos, e também do tipo e extensão do arquivo (assim como formatos de música que armazenam dados como álbum, duração, etc; ou formatos de imagem que armazenam informações da câmera, localização da foto, etc).

Mas o ponto principal é: certas ferramentas expõem dados sensíveis como metadados, e isto pode se tornar um problema do ponto de vista de segurança da informação quando estamos falando principalmente de arquivos PDF, que são largamento expostos ou distribuídos.

Para resolver este problema, podemos usar um bom e velho console app com a lib iTextSharp:

https://gist.github.com/gambin/7a92febb6cf315b415fcc38755c1f7a4

Pronto, voce já pode ter um arquivo com metadados limpos de maneira simples e fácil, executando o código diretamente no seu Visual Studio Code, uma vez que estamos falando de um projeto .Net Core 🙂

E agora os nossos metadados no arquivo são:

Simples não?

Espero que tenham gostado e até o próximo post 😀

 

Obs.: aproveitem para ler o paper do Sílvio Meira sobre transformação digital disponível no link abaixo, está excelente 🙂

Paper: Gente, Digital por Silvio Meira

CategoriaDesenvolvimento
Tags.net .net core c# core itetxtsharp metadado metadata pdf pdfcopy pdfreader

Posts recentes

  • Typescript One Page Guide
  • Typescript Fast Start
  • Como remover metadados internos de arquivos PDF usando .Net Core e iTextsharp
  • Troubleshooting Tips: Google Chrome + Resource Override
  • SharePoint Troubleshooting Series [Part 7]

Comentários

  • Gambin em Dicas e Truques – Configurando filtro por hierarquia de data no PowerBI
  • Adriano Silva Costa em Dicas e Truques – Configurando filtro por hierarquia de data no PowerBI
  • Gambin em Your Free Fusion Pro or Workstation Pro License
  • Luciano Gapski em Como corrigir erros de acesso no WampServer 2.2
  • Marcos Ruiz em Como recuperar as “Notas Autoadesivas” apagadas do Windows 7

Arquivos

  • janeiro 2019
  • maio 2018
  • fevereiro 2018
  • dezembro 2017
  • novembro 2017
  • setembro 2017
  • agosto 2017
  • julho 2017
  • março 2017
  • fevereiro 2017
  • janeiro 2017
  • dezembro 2016
  • agosto 2016
  • abril 2016
  • março 2016
  • agosto 2014
  • abril 2014
  • fevereiro 2014
  • janeiro 2014
  • outubro 2013
  • agosto 2013
  • junho 2013
  • maio 2013
  • abril 2013
  • março 2013
  • fevereiro 2013
  • janeiro 2013
  • dezembro 2012
  • novembro 2012
  • outubro 2012
  • setembro 2012
  • agosto 2012
  • julho 2012
  • maio 2012
  • abril 2012
  • fevereiro 2012
  • janeiro 2012
  • novembro 2011
  • outubro 2011
  • novembro 2010
  • outubro 2010
  • setembro 2010
  • julho 2010
  • fevereiro 2010

Categorias

  • Application Insights
  • Azure
  • Desenvolvimento
  • Eventos
  • Infraestrutura
  • Office 365
  • Segurança
  • SharePoint
  • SQL Azure
  • Windows

Meta

  • Acessar
  • Posts RSS
  • RSS dos comentários
  • WordPress.org

Orgulhosamente mantido com WordPress | Tema: Head Blog