Como funciona a tecnologia capaz de escanear e digitalizar livros sem precisar abri-los

  Fábio Pichler

Livro
Um dos grandes desafios da nossa era é sermos capazes de digitalizar nossa herança cultural analógica - os livros antigos, de valor incalculável, espalhados por bibliotecas históricas do mundo.

A conservação e cópia digital desses materiais é importante não só para garantir que eles estejam disponíveis para as gerações futuras, mas para democratizar o conhecimento que a humanidade construiu ao longo da história e fazê-lo acessível de qualquer lugar do mundo.

É um trabalho difícil: fazer cópias digitais de todas as páginas e transcrever o material nelas demanda tempo, dinheiro e mão-de-obra. Mas um projeto do MIT (Massachussets Institute of Technology) estudou uma solução que promete facilitar muito esse processo.

Publicado em setembro de 2016 no diário científico “Nature Communications”, o estudo desenvolveu uma tecnologia que pode ser capaz de escanear e digitalizar o conteúdo de livros fechados.

O uso da radiação em frequência terahertz

O processo desenvolvido pelo MIT Media Lab usa um tipo específico de radiação, chamada de terahertz, que tem como característica o fato de atravessar o papel e a tinta de maneiras diferentes.

Com uma câmera específica, capaz de precisão e velocidade altíssimas, os pesquisadores apontam a lente para a pilha de páginas e emitem pulsos dessa radiação. As imagens geradas, mais de um trilhão por segundo, identificam onde há tinta e onde não há.

Por fim, um algoritmo integrado a esse sistema faz a mágica. Ele é capaz de transformar esses scans em texto, distinguindo página de tinta e separando as letras das sombras geradas por outras letras no verso da página, por exemplo. O MIT publicou um vídeo que explica o processo:

Por enquanto, a tecnologia consegue “ler” e registrar nove páginas de um livro fechado - mas a expectativa é que ela se desenvolva a ponto de ser capaz de digitalizar livros raros e antigos, aqueles que sequer podem ser manipulados por mãos humanos sob risco de se desfazerem.

Como livros antigos são digitalizados hoje

Você provavelmente já ajudou a digitalizar um livro ou texto antigo, mas não sabe disso. Uma das técnicas mais inovadoras para ler e digitalizar esses documentos de maneira automática e em grandes volumes foi desenvolvida pela Google e usa o poder de trabalho gratuito de milhões de usuários.

A digitalização é feita por meio do reCaptcha, aquele código que você precisa digitar para provar que “não é um robô” quando faz um cadastro na internet.

Esse tipo de mecanismo tem como função evitar que programas criem contas automaticamente no sistema. Daí vem a ideia de pedir para um humano completar uma tarefa que um programa de computador teria dificuldade, como decifrar uma palavra com a fonte borrada.

Em alguns sistemas, os trechos a serem decifrados são uma sequência de letras gerada aleatoriamente. A sacada do Google é que, no serviços deles, essas palavras são scans de páginas de textos e livros antigos.

A empresa produz as cópias das páginas, recorta as palavras e as disponibiliza para que usuários no mundo todo “decifrem” o resultado. Peça a peça, o processo digitaliza milhares de textos, que ficam disponíveis no Google Books. Cada vez que você responde a um daqueles Captchas, está ajudando a criar um registro digital do conhecimento humano.

Fonte: Nexo