Blogue da Priberam: setembro 2008

sábado, 20 de setembro de 2008

Babel.ZIP

«El universo (que otros llaman la Biblioteca) se compone de un número indefinido, y tal vez infinito, de galerías hexagonales, con vastos pozos de ventilación en el medio, cercados por barandas bajísimas. Desde cualquier hexágono se ven los pisos inferiores y superiores: interminablemente.»

-- Jorge Luis Borges, "La Biblioteca de Babel".

Em A Biblioteca de Babel, Borges descreve uma curiosa biblioteca. Nas suas salas hexagonais -- dispostas periodicamente, repetindo-se ad infinitum, formando «uma esfera sem centro nem circunferência» -- encontram-se todos os livros que poderiam alguma vez ter sido escritos, em todos os idiomas. Para além das

obras completas de Shakespeare, também constam desta «biblioteca total» todas as tentativas fracassadas de reproduzi-las sentando um macaco em frente a uma máquina de escrever (incluindo o post actual, escrito por um macaco semelhante ao da figura, bem como todas as versões intermédias produzidas pelas sucessivas operações de edição). Em alguma estante, de alguma sala hexagonal, é possível encontrar um livro registando uma combinação arbitrária de letras do alfabeto. Porém, não existem nesta biblioteca dois livros iguais.

Suprimindo alguns detalhes (incluindo a restrição de não haver duplicados), e correndo o risco de incorrer num clichet, a verdade é que a quantidade de informação hoje disponível coloca-nos num universo não muito distante da Biblioteca de Babel. Um clique de rato faz-nos transitar de uma sala hexagonal para uma sala contígua; navegar na Internet é errar, como os bibliotecários do conto de Borges, por esse imenso labirinto esférico. No nosso caso, porém, a biblioteca é construída pelos bibliotecários que a habitam -- não me refiro tanto aos livros em si, mas sobretudo à sua disposição na biblioteca: diariamente, de forma inconsciente, mudamos livros de sala, aproximamos salas, afastamos salas. Por outro lado, a aparente facilidade com que, através de simples motores de pesquisa como o Google, nos tornamos capazes de localizar livros, faz-nos esquecer o quão difícil é, ainda, extrairmos da Biblioteca de Babel a informação "destilada" que satisfaz as nossas necessidades. Este é um dos grandes desafios tecnológicos dos nossos tempos.

Naturalmente, este problema -- mesmo que nos confinemos à sua versão "digital" -- é bastante mais antigo do que a Internet, que mais não fez do que ampliá-lo. Hans Peter L

uhn (na figura), considerado um dos fundadores da disciplina de Information Retrieval, deu os primeiros passos, no final dos anos 50, ao estudar o problema da "sumarização automática de documentos". Luhn (1958) levou a cabo este estudo nos laboratórios da IBM, juntamente com outros pioneiros como Baxendale (1958) e Edmundson (1969). Muitas das técnicas introduzidas (stemming, representação de documentos como bags-of-words, uso da frequência de ocorrência de palavras como medida de relevância, listas de stigma words, uso da estrutura do documento, por exemplo extraindo a primeira frase de cada parágrafo) são ainda hoje utilizadas como features em algoritmos de aprendizagem sofisticados (Naive Bayes, Log-linear models, SVMs, etc.). Há todavia diferenças importantes entre as abordagens levadas a cabo nos anos 50 e 60 e a tecnologia desenvolvida desde meados dos anos 90 até aos dias de hoje: enquanto Luhn, Baxendale e Edmundson procuravam sumarizar artigos científicos, hoje o domínio de interesse incide especialmente sobre notícias, reportagens, etc.; neste domínio, mais do que construir um sumário para cada documento, importa detectar que documentos estão relacionados com o mesmo evento e produzir um único sumário a partir de várias fontes noticiosas, potencialmente em diferentes línguas. Torna-se assim necessário lidar com contradições, actualizações, mudanças de perspectiva, etc., para conseguir produzir um sumário conciso, coerente, e sem informação redundante. Além disso, é muitas vezes necessário operar em larga escala, como no serviço NewsInEssence (Radev, 2000), um dos primeiros sistemas de sumarização em rede. Por questões práticas, este tipo de sistemas privilegia a robustez e rapidez de desempenho em detrimento da qualidade do sumário produzido, optando-se por apenas extrair as frases mais relevantes de cada documento, em lugar de se proceder a uma análise sintáctica/semântica dos documentos que permita "compreender" o seu conteúdo e sintetizar um verdadeiro sumário.

Recentemente, Knight e Marcu (2000) debruçaram-se sobre o seguinte sub-problema: como comprimir uma frase, preservando a informação essencial, eliminando o acessório e mantendo a gramaticalidade? Por exemplo, como construir um algoritmo capaz de converter a frase

El universo (que otros llaman la Biblioteca) se compone de un número indefinido, y tal vez infinito, de galerías hexagonales, con vastos pozos de ventilación en el medio, cercados por barandas bajísimas

na sua versão mais curta

El universo se compone de un número indefinido de galerías hexagonales cercados por barandas

que essencialmente comporta a mesma informação?

Mas isso será assunto para outro post (é claro que esse post, tal como a especificação do algoritmo pretendido, tal como qualquer sumário de qualquer documento, incluindo este, já existe na Biblioteca de Babel -- basta localizar os livros correspondentes :-)

* * *

Baxendale, P. (1958). Machine-made index for technical literature - an experiment.

IBM Journal of Research Development, 2(4):354-361.

Edmundson, H. P. (1969). New methods in automatic extracting.
Journal of the ACM, 16(2):264-285.

Knight, K. and Marcu, D. (2000). Statistics-based summarization - step one: Sentence compression.
In AAAI/IAAI, pages 703-710.

Luhn, H. P. (1958). The automatic creation of literature abstracts.
IBM Journal of Research Development, 2(2):159-165.

Radev, D. R., Jing, H., and Budzikowska, M. (2000). Centroid-based summarization of multiple documents: sentence extraction, utility-based evaluation, and user studies.
In NAACL-ANLP 2000 Workshop on Automatic summarization, pages 21-30, Morristown, NJ, USA

sexta-feira, 19 de setembro de 2008

Entrada em vigor do Acordo Ortográfico de 1990

Em Portugal, na primeira metade de 2008, o tema do Acordo Ortográfico (AO) voltou a ser alvo de destaque na imprensa, com discussões e perorações mais ou menos apaixonadas e mais ou menos fundamentadas. No entanto, em nenhuma dessas ocasiões se falou de um pormenor de extrema importância: o AO entra efectivamente em vigor após a sua ratificação e após promulgação pelo Presidente da República Portuguesa? Agora, mais do que nunca, esta parece ser uma pergunta legítima. Em Maio e em Julho últimos foram publicados em Diário da República os documentos legais que possibilitam a entrada em vigor do Acordo Ortográfico de 1990 em Portugal: primeiro, a ratificação do Acordo do Segundo Protocolo Modificativo ao Acordo Ortográfico da Língua Portuguesa, pela Resolução da Assembleia da República nº 35/2008 de 16 de Maio de 2008, e depois, o correspondente Decreto do Presidente da República nº 52/2008 de 29 de Julho de 2008. Mas será que isso é suficiente para que o AO já vigore em Portugal?

O AO é uma convenção internacional que prevê, no art. 3º do Acordo do Segundo Protocolo Modificativo ao Acordo Ortográfico da Língua Portuguesa que "O Acordo Ortográfico da Língua Portuguesa entrará em vigor com o terceiro depósito de instrumento de ratificação junto da República Portuguesa." Uma pesquisa no Legix não revela registos que atestem o depósito dos instrumentos de ratificação do Brasil (2004), de Cabo Verde (2006) e de São Tomé e Príncipe (2006).

Segundo o art. 119º da Constituição Portuguesa, a publicação das convenções internacionais e dos respectivos avisos de ratificação é obrigatória no Diário da República, sob pena de a sua falta de publicidade implicar ineficácia jurídica. Por este motivo, em Julho (nos dias seguintes à publicação no DR), a Priberam questionou o Ministério dos Negócios Estrangeiros (MNE) sobre este assunto, não tendo, até ao momento, recebido qualquer resposta. Questionado também o Secretariado Executivo da Comunidade dos Países de Língua Portuguesa (CPLP), este remeteu as dúvidas colocadas para o MNE.

Assim sendo, até ao esclarecimento deste pormenor e, consequentemente, até à efectiva entrada em vigor da nova ortografia, vigora o Acordo Ortográfico de 1945, com uma alteração de 1973. Este texto oficial, anotado pela Priberam, está disponível aqui.

terça-feira, 9 de setembro de 2008

Reforma e modernização da justiça

Nos últimos anos tem-se verificado um avolumar da aprovação de alterações legislativas na área da justiça, com vista, segundo o legislador, à modernização do sistema judiciário e actividades inerentes.

Aos diversos profissionais das áreas de actuação respectivas é exigido conhecimento e adaptação às mudanças.

Acontece, porém, que a tão falada reforma e modernização da justiça tem sido sujeita a ajustes face ao momento conjuntural vivido e face a erros verificados em cada um dos diplomas aprovados.

Exemplo disso é o Decreto-Lei nº 34/2008, de 26 de Fevereiro, que aprovou o Regulamento das Custas Processuais e, simultaneamente, introduziu alterações ao Código de Processo Civil, de Processo Penal, entre outros. Na verdade, neste momento, decorridos 7 meses sobre a sua aprovação, o referido diploma já foi duas vezes alterado e rectificado. Inclusive, a data de entrada em vigor foi alterada para 5 de Janeiro de 2009.

Perante tal situação o sentimento de consolidação de conhecimentos e de segurança jurídica por parte dos profissionais envolvidos tem sido manifestamente comprometido.

Em face disso as "ferramentas" de trabalho a utilizar têm de reproduzir "ao minuto" esta nova realidade, pelo que o recurso às novas tecnologias é imperioso!

segunda-feira, 8 de setembro de 2008

Disclaimer

Este blogue expressa as opiniões individuais de pessoas que trabalham na Priberam e não reflecte necessariamente os pontos de vista da empresa. O blogue da Priberam surge como uma forma mais informal de comunicar com o mundo.