Apresentação

Este grupo de pesquisas dedica-se à reflexão teórica e à experimentação tecnológica em torno do trabalho de transposição de textos antigos para o meio digital.


Objetivos

  • Elaborar os conceitos de “tradução material” e de “texto digital”;
  • Refletir criticamente sobre a trajetória editorial de textos em português da época medieval, clássica e colonial e sobre sua transposição para o meio digital;
  • Experimentar e desenvolver tecnologias de processamento computacional para o trabalho com esses textos .


Forma de Trabalho

  • O grupo abriga pesquisadores da Biblioteca Brasiliana Guita e José Mindlin – BBM-USP, e faz parte do empreendimento de construção da Biblioteca Brasiliana Digital, no contexto do projeto Brasiliana USP (www.brasiliana.usp.br ) . Os trabalhos do grupo se concretizam, assim, na colaboração ao empreendimento de digitalização do acervo Brasiliana.


Resultados Pontuais Esperados

  • No atual estágio, a principal questão na pauta do grupo é a tradução das imagens geradas pela escanerização das obras do acervo físico para o formato de textos via programas de OCR (Optical Character Recognition). Os pesquisadores do grupo se reunirão inicialmente para examinar os primeiros resultados do processamento das imagens pelo programa de OCR, diagnosticar os potenciais desafios enfrentados pelo programa no processamento dos textos mais antigos, e experimentar caminhos para a superação desses desafios.
  • Em estágios futuros, os trabalhos no grupo se voltarão também para a experimentação de tecnologias de processamento com vistas ao desenvolvimento de sistemas de buscas complexas por conteúdos e estruturas linguísticas nos textos antigos digitalizados.
  • Para isso, desde já iremos trabalhar no aperfeiçoamento de uma ferramenta de edição eletrônica, o E-Dictor. Essa ferramenta foi desenvolvida inicialmente por Fábio Kepler e Maria Clara Paixão de Sousa (Paixão de Sousa & Kepler, 2007) , e atualmente está sendo aperfeiçoado por F. Kepler e Pablo Faria (cf. https://oncoto.dyndns.org:44883/projects/edictor/wiki). Como um dos módulos da ferramenta é justamente um módulo de revisão de resultado de OCR, seu desenvolvimento poderá caminhar de par em par com o trabalho de diagnóstico acima mencionado.


Funcionamento

  • O grupo atualmente conta com dez alunos, e foi formado em dezembro de 2008, pela iniciativa da coordenadora e de alunos de letras do DLCV-USP, que se reuniram para organizar o funcionamento inicial (ver Histórico).
  • No funcionamento continuado, a idéia é trabalhar com os textos nas reuniões semanais, e se utilizar do fórum virtual como apoio das discussões.


Perfis dos Participantes

  • O grupo se idealiza como abrigo de pesquisadores com dois perfis: especialistas da área de letras e linguística, e especialistas da área de linguística computacional. Pretende-se formar com a reunião desses perfis um grupo coeso em torno da curiosidade de pesquisa sobre o Texto em sua dimensão histórica, linguística e tecnológica.


Anúncios