«El universo (que otros llaman la Biblioteca) se compone de un número indefinido, y tal vez infinito, de galerías hexagonales, con vastos pozos de ventilación en el medio, cercados por barandas bajísimas. Desde cualquier hexágono se ven los pisos inferiores y superiores: interminablemente.»
-- Jorge Luis Borges, "La Biblioteca de Babel".
-- Jorge Luis Borges, "La Biblioteca de Babel".
Em A Biblioteca de Babel, Borges descreve uma curiosa biblioteca. Nas suas salas hexagonais -- dispostas periodicamente, repetindo-se ad infinitum, formando «uma esfera sem centro nem circunferência» -- encontram-se todos os livros que poderiam alguma vez ter sido escritos, em todos os idiomas. Para além das obras completas de Shakespeare, também constam desta «biblioteca total» todas as tentativas fracassadas de reproduzi-las sentando um macaco em frente a uma máquina de escrever (incluindo o post actual, escrito por um macaco semelhante ao da figura, bem como todas as versões intermédias produzidas pelas sucessivas operações de edição). Em alguma estante, de alguma sala hexagonal, é possível encontrar um livro registando uma combinação arbitrária de letras do alfabeto. Porém, não existem nesta biblioteca dois livros iguais.
Suprimindo alguns detalhes (incluindo a restrição de não haver duplicados), e correndo o risco de incorrer num clichet, a verdade é que a quantidade de informação hoje disponível coloca-nos num universo não muito distante da Biblioteca de Babel. Um clique de rato faz-nos transitar de uma sala hexagonal para uma sala contígua; navegar na Internet é errar, como os bibliotecários do conto de Borges, por esse imenso labirinto esférico. No nosso caso, porém, a biblioteca é construída pelos bibliotecários que a habitam -- não me refiro tanto aos livros em si, mas sobretudo à sua disposição na biblioteca: diariamente, de forma inconsciente, mudamos livros de sala, aproximamos salas, afastamos salas. Por outro lado, a aparente facilidade com que, através de simples motores de pesquisa como o Google, nos tornamos capazes de localizar livros, faz-nos esquecer o quão difícil é, ainda, extrairmos da Biblioteca de Babel a informação "destilada" que satisfaz as nossas necessidades. Este é um dos grandes desafios tecnológicos dos nossos tempos.
Naturalmente, este problema -- mesmo que nos confinemos à sua versão "digital" -- é bastante mais antigo do que a Internet, que mais não fez do que ampliá-lo. Hans Peter Luhn (na figura), considerado um dos fundadores da disciplina de Information Retrieval, deu os primeiros passos, no final dos anos 50, ao estudar o problema da "sumarização automática de documentos". Luhn (1958) levou a cabo este estudo nos laboratórios da IBM, juntamente com outros pioneiros como Baxendale (1958) e Edmundson (1969). Muitas das técnicas introduzidas (stemming, representação de documentos como bags-of-words, uso da frequência de ocorrência de palavras como medida de relevância, listas de stigma words, uso da estrutura do documento, por exemplo extraindo a primeira frase de cada parágrafo) são ainda hoje utilizadas como features em algoritmos de aprendizagem sofisticados (Naive Bayes, Log-linear models, SVMs, etc.). Há todavia diferenças importantes entre as abordagens levadas a cabo nos anos 50 e 60 e a tecnologia desenvolvida desde meados dos anos 90 até aos dias de hoje: enquanto Luhn, Baxendale e Edmundson procuravam sumarizar artigos científicos, hoje o domínio de interesse incide especialmente sobre notícias, reportagens, etc.; neste domínio, mais do que construir um sumário para cada documento, importa detectar que documentos estão relacionados com o mesmo evento e produzir um único sumário a partir de várias fontes noticiosas, potencialmente em diferentes línguas. Torna-se assim necessário lidar com contradições, actualizações, mudanças de perspectiva, etc., para conseguir produzir um sumário conciso, coerente, e sem informação redundante. Além disso, é muitas vezes necessário operar em larga escala, como no serviço NewsInEssence (Radev, 2000), um dos primeiros sistemas de sumarização em rede. Por questões práticas, este tipo de sistemas privilegia a robustez e rapidez de desempenho em detrimento da qualidade do sumário produzido, optando-se por apenas extrair as frases mais relevantes de cada documento, em lugar de se proceder a uma análise sintáctica/semântica dos documentos que permita "compreender" o seu conteúdo e sintetizar um verdadeiro sumário.
Recentemente, Knight e Marcu (2000) debruçaram-se sobre o seguinte sub-problema: como comprimir uma frase, preservando a informação essencial, eliminando o acessório e mantendo a gramaticalidade? Por exemplo, como construir um algoritmo capaz de converter a frase
na sua versão mais curta
El universo se compone de un número indefinido de galerías hexagonales cercados por barandas
que essencialmente comporta a mesma informação?
Mas isso será assunto para outro post (é claro que esse post, tal como a especificação do algoritmo pretendido, tal como qualquer sumário de qualquer documento, incluindo este, já existe na Biblioteca de Babel -- basta localizar os livros correspondentes :-)
Suprimindo alguns detalhes (incluindo a restrição de não haver duplicados), e correndo o risco de incorrer num clichet, a verdade é que a quantidade de informação hoje disponível coloca-nos num universo não muito distante da Biblioteca de Babel. Um clique de rato faz-nos transitar de uma sala hexagonal para uma sala contígua; navegar na Internet é errar, como os bibliotecários do conto de Borges, por esse imenso labirinto esférico. No nosso caso, porém, a biblioteca é construída pelos bibliotecários que a habitam -- não me refiro tanto aos livros em si, mas sobretudo à sua disposição na biblioteca: diariamente, de forma inconsciente, mudamos livros de sala, aproximamos salas, afastamos salas. Por outro lado, a aparente facilidade com que, através de simples motores de pesquisa como o Google, nos tornamos capazes de localizar livros, faz-nos esquecer o quão difícil é, ainda, extrairmos da Biblioteca de Babel a informação "destilada" que satisfaz as nossas necessidades. Este é um dos grandes desafios tecnológicos dos nossos tempos.
Naturalmente, este problema -- mesmo que nos confinemos à sua versão "digital" -- é bastante mais antigo do que a Internet, que mais não fez do que ampliá-lo. Hans Peter Luhn (na figura), considerado um dos fundadores da disciplina de Information Retrieval, deu os primeiros passos, no final dos anos 50, ao estudar o problema da "sumarização automática de documentos". Luhn (1958) levou a cabo este estudo nos laboratórios da IBM, juntamente com outros pioneiros como Baxendale (1958) e Edmundson (1969). Muitas das técnicas introduzidas (stemming, representação de documentos como bags-of-words, uso da frequência de ocorrência de palavras como medida de relevância, listas de stigma words, uso da estrutura do documento, por exemplo extraindo a primeira frase de cada parágrafo) são ainda hoje utilizadas como features em algoritmos de aprendizagem sofisticados (Naive Bayes, Log-linear models, SVMs, etc.). Há todavia diferenças importantes entre as abordagens levadas a cabo nos anos 50 e 60 e a tecnologia desenvolvida desde meados dos anos 90 até aos dias de hoje: enquanto Luhn, Baxendale e Edmundson procuravam sumarizar artigos científicos, hoje o domínio de interesse incide especialmente sobre notícias, reportagens, etc.; neste domínio, mais do que construir um sumário para cada documento, importa detectar que documentos estão relacionados com o mesmo evento e produzir um único sumário a partir de várias fontes noticiosas, potencialmente em diferentes línguas. Torna-se assim necessário lidar com contradições, actualizações, mudanças de perspectiva, etc., para conseguir produzir um sumário conciso, coerente, e sem informação redundante. Além disso, é muitas vezes necessário operar em larga escala, como no serviço NewsInEssence (Radev, 2000), um dos primeiros sistemas de sumarização em rede. Por questões práticas, este tipo de sistemas privilegia a robustez e rapidez de desempenho em detrimento da qualidade do sumário produzido, optando-se por apenas extrair as frases mais relevantes de cada documento, em lugar de se proceder a uma análise sintáctica/semântica dos documentos que permita "compreender" o seu conteúdo e sintetizar um verdadeiro sumário.
Recentemente, Knight e Marcu (2000) debruçaram-se sobre o seguinte sub-problema: como comprimir uma frase, preservando a informação essencial, eliminando o acessório e mantendo a gramaticalidade? Por exemplo, como construir um algoritmo capaz de converter a frase
El universo (que otros llaman la Biblioteca) se compone de un número indefinido, y tal vez infinito, de galerías hexagonales, con vastos pozos de ventilación en el medio, cercados por barandas bajísimas
na sua versão mais curta
El universo se compone de un número indefinido de galerías hexagonales cercados por barandas
que essencialmente comporta a mesma informação?
Mas isso será assunto para outro post (é claro que esse post, tal como a especificação do algoritmo pretendido, tal como qualquer sumário de qualquer documento, incluindo este, já existe na Biblioteca de Babel -- basta localizar os livros correspondentes :-)
* * *
Baxendale, P. (1958). Machine-made index for technical literature - an experiment.
IBM Journal of Research Development, 2(4):354-361.
Edmundson, H. P. (1969). New methods in automatic extracting.
Journal of the ACM, 16(2):264-285.
Knight, K. and Marcu, D. (2000). Statistics-based summarization - step one: Sentence compression.
In AAAI/IAAI, pages 703-710.
Luhn, H. P. (1958). The automatic creation of literature abstracts.
IBM Journal of Research Development, 2(2):159-165.
Radev, D. R., Jing, H., and Budzikowska, M. (2000). Centroid-based summarization of multiple documents: sentence extraction, utility-based evaluation, and user studies.
In NAACL-ANLP 2000 Workshop on Automatic summarization, pages 21-30, Morristown, NJ, USA
Edmundson, H. P. (1969). New methods in automatic extracting.
Journal of the ACM, 16(2):264-285.
Knight, K. and Marcu, D. (2000). Statistics-based summarization - step one: Sentence compression.
In AAAI/IAAI, pages 703-710.
Luhn, H. P. (1958). The automatic creation of literature abstracts.
IBM Journal of Research Development, 2(2):159-165.
Radev, D. R., Jing, H., and Budzikowska, M. (2000). Centroid-based summarization of multiple documents: sentence extraction, utility-based evaluation, and user studies.
In NAACL-ANLP 2000 Workshop on Automatic summarization, pages 21-30, Morristown, NJ, USA