Em texto anterior, mencionei o seguinte problema proposto por Knight e Marcu (2000): dada uma frase como esta, El universo (que otros llaman la Biblioteca) se compone de un número indefinido, y tal vez infinito, de galerías hexagonales, con vastos pozos de ventilación en el medio, cercados por barandas bajísimas
pretende-se construir um algoritmo capaz de comprimi-la, isto é, substituí-la por uma frase tão curta quanto possível que satisfaça as seguintes propriedades: - Preserve a informação essencial contida na frase original
- Elimine tudo o que seja acessório
- Seja gramatical
- Tenha o mesmo sentido da frase original
(Repare-se que esta definição do problema é vaga e omite aspectos importantes como quanto queremos comprimir ou qual é o contexto que determina o que é essencial e o que é acessório; mas por ora vamos prosseguir, sem complicar em demasia.) Uma frase aceitável dentro destes parâmetros seria algo como El universo se compone de un número indefinido de galerías hexagonales cercados por barandas. Esta frase tem a particularidade de poder ser obtida a partir da frase original apenas removendo algumas palavras, sobrando aquelas que se encontram a negrito: El universo (que otros llaman la Biblioteca) se compone de un número indefinido, y tal vez infinito, de galerías hexagonales, con vastos pozos de ventilación en el medio, cercados por barandas bajísimas. Se restringirmos o nosso universo de procura àquelas frases que podem ser obtidas por este processo (isto é, removendo palavras da frase original), evitamos passos tradicionalmente difíceis em linguística computacional, como representação semântica e síntese de texto. Mesmo assim, o espaço de procura (isto é, o número de possíveis compressões) é exponencial: cada palavra na frase original pode ou não ser seleccionada (isto é, colocada a negrito); havendo N palavras, resultam 2^ N possíveis compressões, de entre as quais queremos seleccionar uma. O algoritmo proposto por Knight e Marcu (2000) é inspirado no noisy channel model, um modelo originalmente proposto por Claude Shannon (1948) para modelizar comunicação na presença de ruído, e adoptado em tradução automática estatística desde os tempos da Guerra Fria (a história deste modelo fica para um post futuro). Segundo este modelo, há um emissor que transmite uma frase comprimida c. O ruído no canal corrompe esta frase adicionando palavras irrelevantes; como resultado, o receptor observa uma frase "longa" l que corresponde à nossa frase original. O objectivo é estimar c a partir de l. A probabilidade da compressão c dada a frase original l é proporcional a P( l | c) P( c) O primeiro termo, P( l | c), representa o modelo do canal. O segundo termo, P( c), representa o modelo do emissor. Tipicamente, a extracção da informação essencial é assegurada pelo primeiro modelo; a gramaticalidade é assegurada pelo segundo modelo. Para fazer face ao espaço de procura exponencial, Knight e Marcu (2000) utilizam um processador sintáctico e assumem (no modelo de P( l | c)) que l é obtido a partir de c através da adição de constituintes sintácticos, de acordo com um modelo probabilístico. Os parâmetros deste modelo e da gramática estocástica associado ao modelo do emissor P( c) são estimados generativamente usando corpora paralelo de frases e respectivas compressões. Através de algoritmos de programação dinâmica, é possível descodificar (ou seja, obter a compressão c que maximiza P( c | l)) de forma eficiente. Este tipo de problemas em que o espaço de procura é exponencial mas tem um certo tipo de estrutura tem sido objecto de grande atenção em aprendizagem automática, sob o nome de structured prediction. Em determinadas situações, compensa estimar os parâmetros do modelo de forma discriminativa (em vez de generativa), o que resulta quase sempre num problema de optimização mais complicado. Este assunto ( generative versus discriminative training) será objecto de um post futuro. Nesta linha, novos modelos para compressão de frases foram propostos por McDonald (2006), Clarke e Lapata (2008) e outros. E isto é útil? E o que tem que ver com sumarização de documentos, afinal o tema que foi puxado em Babel.ZIP I? Bem... Isso é o que espero descobrir em breve. Estou a trabalhar num projecto de laboratório que visa combinar extracção das frases mais salientes de um documento com compressão de frases; o objectivo é, dado um documento, construir um sumário que, em vez de apenas extrair frases inteiras do documento, extrai e comprime ao mesmo tempo. Isso será feito num único passo, usando técnicas de structured prediction, programação linear inteira, etc.
More to come! --- Knight, K. and Marcu, D. (2000). Statistics-based summarization - step one: Sentence compression. In AAAI/IAAI, pages 703-710.
Claude E. Shannon (1948). A Mathematical Theory of Communication, Bell System Technical Journal, Vol. 27, pp. 379–423, 623–656, 1948.
R. McDonald (2006). Discriminative Sentence Compression with Soft Syntactic Constraints. European Association for Computational Linguistics (EACL).
- Clarke, J. and Lapata, M. (2008). Global inference for sentence compression: An integer linear programming approach. Journal of Artificial Intelligence Research, 31:399-429.
O Código do IVA, o Regime do IVA nas Transacções Intracomunitárias, bem como o Estatuto dos Benefícios Fiscais, sofreram significativas alterações aprovadas pelo Decreto-Lei n.º 102/2008, de 20 de Junho e pelo Decreto-Lei n.º 108/2008, de 26 de Junho, respectivamente. De acordo com a Lei n.º 74/98, de 11 de Novembro, na redacção dada pela Lei n.º 42/2007, de 24 de Agosto, sempre que um diploma introduza alterações noutro, procede-se à republicação integral do diploma alterado. Os referidos diplomas são alvo de importantes alterações todos os anos e por vezes mais do que uma vez, pelo que a republicação do Código do IVA foi uma boa notícia. Com efeito, contarmos com a republicação de um código, que desde a sua aprovação, 26-12-1984, já sofreu inúmeras alterações, significa no mínimo a consolidação e segurança das diversas redacções dadas ao referido diploma. Porém, essa republicação trazia duas surpresas com ela, por um lado a atribuição de epígrafes, no caso do Código do IVA, e por outro a reordenação e renumeração de todo o articulado nos três diplomas mencionados, com as respectivas tabelas de conversão. De facto, e exemplificando de forma meramente aleatória, o artigo 72.º-A do Código do IVA passou a ser o artigo 80.º (Responsabilidade solidária dos sujeitos passivos) e o artigo 2.º-A do EBF passou a ser o artigo 3.º (Caducidade dos benefícios fiscais). Ora, o DL 74/98, na redacção actual, prevê a republicação dos diplomas, mas não menciona a renumeração, nem a eliminação dos artigos revogados do articulado. A verdade é que, os diplomas recentemente aprovados, trouxeram uma nova realidade que obriga a quem aplica e faz uso dos indicados códigos a uma nova aprendizagem e análise como se de códigos novos se tratassem. Com efeito, no exercício da justiça, na prática corrente das diversas actividades profissionais, como seja a simples emissão de facturas/recibos, tudo tem de ser renovado. Coloca-se então a questão de saber qual o critério que esteve presente na republicação dos mencionados diplomas, sendo certo que quem os aplica terá que ter uma atenção redobrada.
Algumas implicações da aplicação do Acordo Ortográfico de 1990 (AO) em correctores ortográficos foram alvo de análise em O novo acordo ortográfico e os correctores automáticos, comunicação da Priberam apresentada em Agosto deste ano ao IX Congresso da Associação Internacional de Lusitanistas. Uma breve entrevista da mesma altura, ao programa Páginas de Português, da Antena 2, aborda também esta problemática, ainda que sumariamente. Nesta análise, como nas reflexões que habitualmente faz sobre o tema, a Priberam não pretende esgrimir argumentos contra ou a favor do Acordo Ortográfico, mas antes fazer uma análise sob uma perspectiva prática e contribuir para um debate pouco frequente relativamente ao texto do AO: o da sua aplicação efectiva. Neste aspecto, é inequívoco que o AO tem consequências no processamento da língua natural (PLN) e nos correctores ortográficos em particular, mas também em auxiliares de tradução ou em motores de busca. Curiosamente, o próprio texto legal do AO tem, aparentemente, preocupações específicas com o PLN, como se pode ler no ponto 5.3. da "Nota Explicativa", aquando da explicitação das razões ponderadas para a manutenção dos acentos gráficos nas palavras esdrúxulas e graves, recuando assim no estipulado pelo texto de 1986, o que, a manter-se em 1990, constituiria "problema para o tratamento informatizado do léxico". Este argumento não parece, no entanto, ser pertinente, dado o elevado número de ambiguidades entre classes gramaticais que a língua contém e que o PLN tem obrigatoriamente de tratar. Mais do que isso, a eliminação das consoantes ditas "mudas" (ver Base IV) vai aumentar o número de palavras homógrafas (ex.: a( c) to/ ato, substantivo e flexão verbal de atar; ó( p) tico/ ótico, adjectivo relativo à vista e ao ouvido, respectivamente). A mesma consequência terá a eliminação do acento gráfico que distinguia palavras graves homógrafas de palavras proclíticas (ver Base IX, 9.º), como no caso de para, 3ª pessoa do singular do indicativo do verbo parar e preposição. O principal problema na aplicação do AO prende-se com a qualidade do texto legal, que, devido a lacunas, ambiguidades e incoerências, gera dificuldades acrescidas. Há no mercado português dicionários que publicitam seguir a ortografia preconizada pelo Acordo de 1990, obras que terão implicado certamente tempo e trabalho aturado de lexicógrafos. No entanto, as diferentes opções de dois dicionários para um número considerável de palavras são a prova manifesta de que o texto legal não é razoavelmente claro nem suficientemente objectivo para impedir diferentes interpretações ortográficas. Apenas a título de exemplo, veja-se as divergências publicadas por dois desses dicionários relativamente a: - acentuação
Texto Editores* | Porto Editora** |
---|
cômoro/cómoro | cômoro | fêmea | fêmea/fémea | géiser | geiser |
- grafia de consoantesTexto Editores* | Porto Editora** |
---|
anfractuoso/anfratuoso | anfractuoso | excepção/exceção | exceção | manufatura | manufactura/manufatura | perfeccionista | perfeccionista/perfecionista | tacto/tato | tato | tectónico/tectônico/tetónico/tetônico | tectónico/tectônico | tumefacto | tumefacto/tumefato | veredicto | veredicto/veredito |
- uso do hífen Texto Editores* | Porto Editora** |
---|
abrogação | ab-rogação | céu da boca | céu-da-boca | indoeuropeu | indo-europeu | maria vai com as outras | maria-vai-com-as-outras | para quedas | paraquedas | re-entrar | reentrar | sobre-excitar | sobreexcitar | subreptício | sub-reptício | tão somente | tão-somente |
Desta pequena reflexão, parece óbvia a conclusão de que, enquanto não houver instrumentos reguladores da ortografia, nomeadamente das duas academias (Academia das Ciências de Lisboa e Academia Brasileira de Letras), quem tem de trabalhar com a ortografia vai ter problemas na aplicação do AO (falamos do trabalho na Priberam, mas também do trabalho de jornalistas, de tradutores, de revisores, de professores...), daí que a confiança num corrector ortográfico automático, como o FLiP, se revista de grande importância para quem tem de seguir impreterivelmente as alterações ortográficas introduzidas pelo Acordo. *Novo Dicionário da Língua Portuguesa Conforme Acordo Ortográfico, Lisboa: Texto Editores, 2007. **Novo Dicionário Editora da Língua Portuguesa 2009 – Acordo Ortográfico, Porto: Porto Editora, 2008.
Neste momento é possível encontrar no mercado inúmeras obras recentes sobre o Acordo Ortográfico de 1990 (AO), nomeadamente: - dicionários e vocabulários que referem seguir o estipulado no texto legal do AO: - Dicionário Editora da Língua Portuguesa 2009 - Acordo Ortográfico, Porto: Porto Editora, 2008.
- Novo Dicionário da Língua Portuguesa Conforme Acordo Ortográfico, Lisboa: Texto Editores, 2007.
- Novo Grande Dicionário da Língua Portuguesa Conforme Acordo Ortográfico, Lisboa: Texto Editores, 2007.
- Vocabulário – As palavras que mudam com o Acordo Ortográfico, 1ª ed., Lisboa: Caminho, 2008 [Disponível online aqui].
- guias práticos que pretendem ilustrar o que vai mudar na ortografia portuguesa: - João Malaca Casteleiro e Pedro Correia, Atual – O novo acordo ortográfico, Lisboa: Texto Editora, 2007.
- Guia Prático do Acordo Ortográfico, Porto: Porto Editora, 2008.
- Instituto Antônio Houaiss e José Carlos de Azeredo, Escrevendo pela nova ortografia, São Paulo: Publifolha, 2008.
- Evanildo Bechara, A Nova Ortografia, Rio de Janeiro: Nova Fronteira, 2008.
- Douglas Tufano, Guia Prático da Nova Ortografia, São Paulo: Melhoramentos, 2008 [Disponível online aqui].
- livros de opinião sobre o AO e a sua aplicação: - Vasco Graça Moura, Acordo Ortográfico: A Perspectiva do Desastre, Lisboa: Alêtheia Editores, 2008.
- António Emiliano, Foi você que pediu um acordo ortográfico?, Lisboa: Guimarães Editores, 2008.
- António Emiliano, O Fim da Ortografia: comentário razoado dos fundamentos técnicos do Acordo Ortográfico da Língua Portuguesa (1990), Lisboa: Guimarães Editores, 2008.
Das obras acima referidas, é interessante verificar que os dicionários entretanto comercializados não explicitam nem fundamentam os critérios adoptados no tratamento de aspectos mais problemáticos do AO (cujo texto legal não soluciona muitos dos problemas que cria), tomando mesmo opções divergentes em alguns casos, como se verá em posts futuros. Até à data, não foi publicada nenhuma obra lexicográfica (dicionário, vocabulário, thesaurus) autorizada e comum a todos os países lusófonos, com a chancela dos órgãos que têm a obrigação de se debruçar sobre o assunto (nomeadamente, a Academia das Ciências de Lisboa, a Academia Brasileira de Letras ou mesmo o Instituto Internacional da Língua Portuguesa). A Priberam tem acompanhado atentamente todo o processo relativo ao AO, no sentido de não tomar decisões precipitadas e de produzir ferramentas que correspondam qualitativamente às expectativas dos utilizadores, não só em Portugal (através da comercialização do FLiP), mas também no Brasil (através da comercialização do Novo Corretor Aurélio) e em outros países lusófonos. Dado que ( i) o texto legal do AO não prevê soluções para muitos dos seus problemas e que ( ii) não existem novos documentos lexicográficos autorizados reguladores que permitam substituir as obras tidas como referência até agora, é necessário que seja a Priberam a definir linhas gerais explícitas e a fornecer ao utilizador das suas ferramentas linguísticas a explicação de algumas opções tomadas. A Priberam vê-se ainda obrigada a questionar algumas opções dos dicionários entretanto publicados, o que poderia ter sido evitado, por exemplo, pela publicação atempada do vocabulário ortográfico comum da língua portuguesa, previsto no art. 2º do AO.
«El universo (que otros llaman la Biblioteca) se compone de un número indefinido, y tal vez infinito, de galerías hexagonales, con vastos pozos de ventilación en el medio, cercados por barandas bajísimas. Desde cualquier hexágono se ven los pisos inferiores y superiores: interminablemente.»
-- Jorge Luis Borges, "La Biblioteca de Babel".
Em A Biblioteca de Babel, Borges descreve uma curiosa biblioteca. Nas suas salas hexagonais -- dispostas periodicamente, repetindo-se ad infinitum, formando «uma esfera sem centro nem circunferência» -- encontram-se todos os livros que poderiam alguma vez ter sido escritos, em todos os idiomas. Para além das obras completas de Shakespeare, também constam desta «biblioteca total» todas as tentativas fracassadas de reproduzi-las sentando um macaco em frente a uma máquina de escrever (incluindo o post actual, escrito por um macaco semelhante ao da figura, bem como todas as versões intermédias produzidas pelas sucessivas operações de edição). Em alguma estante, de alguma sala hexagonal, é possível encontrar um livro registando uma combinação arbitrária de letras do alfabeto. Porém, não existem nesta biblioteca dois livros iguais. Suprimindo alguns detalhes (incluindo a restrição de não haver duplicados), e correndo o risco de incorrer num clichet, a verdade é que a quantidade de informação hoje disponível coloca-nos num universo não muito distante da Biblioteca de Babel. Um clique de rato faz-nos transitar de uma sala hexagonal para uma sala contígua; navegar na Internet é errar, como os bibliotecários do conto de Borges, por esse imenso labirinto esférico. No nosso caso, porém, a biblioteca é construída pelos bibliotecários que a habitam -- não me refiro tanto aos livros em si, mas sobretudo à sua disposição na biblioteca: diariamente, de forma inconsciente, mudamos livros de sala, aproximamos salas, afastamos salas. Por outro lado, a aparente facilidade com que, através de simples motores de pesquisa como o Google, nos tornamos capazes de localizar livros, faz-nos esquecer o quão difícil é, ainda, extrairmos da Biblioteca de Babel a informação "destilada" que satisfaz as nossas necessidades. Este é um dos grandes desafios tecnológicos dos nossos tempos. Naturalmente, este problema -- mesmo que nos confinemos à sua versão "digital" -- é bastante mais antigo do que a Internet, que mais não fez do que ampliá-lo. Hans Peter Luhn (na figura), considerado um dos fundadores da disciplina de Information Retrieval, deu os primeiros passos, no final dos anos 50, ao estudar o problema da " sumarização automática de documentos". Luhn (1958) levou a cabo este estudo nos laboratórios da IBM, juntamente com outros pioneiros como Baxendale (1958) e Edmundson (1969). Muitas das técnicas introduzidas ( stemming, representação de documentos como bags-of-words, uso da frequência de ocorrência de palavras como medida de relevância, listas de stigma words, uso da estrutura do documento, por exemplo extraindo a primeira frase de cada parágrafo) são ainda hoje utilizadas como features em algoritmos de aprendizagem sofisticados ( Naive Bayes, Log-linear models, SVMs, etc.). Há todavia diferenças importantes entre as abordagens levadas a cabo nos anos 50 e 60 e a tecnologia desenvolvida desde meados dos anos 90 até aos dias de hoje: enquanto Luhn, Baxendale e Edmundson procuravam sumarizar artigos científicos, hoje o domínio de interesse incide especialmente sobre notícias, reportagens, etc.; neste domínio, mais do que construir um sumário para cada documento, importa detectar que documentos estão relacionados com o mesmo evento e produzir um único sumário a partir de várias fontes noticiosas, potencialmente em diferentes línguas. Torna-se assim necessário lidar com contradições, actualizações, mudanças de perspectiva, etc., para conseguir produzir um sumário conciso, coerente, e sem informação redundante. Além disso, é muitas vezes necessário operar em larga escala, como no serviço NewsInEssence (Radev, 2000), um dos primeiros sistemas de sumarização em rede. Por questões práticas, este tipo de sistemas privilegia a robustez e rapidez de desempenho em detrimento da qualidade do sumário produzido, optando-se por apenas extrair as frases mais relevantes de cada documento, em lugar de se proceder a uma análise sintáctica/semântica dos documentos que permita "compreender" o seu conteúdo e sintetizar um verdadeiro sumário. Recentemente, Knight e Marcu (2000) debruçaram-se sobre o seguinte sub-problema: como comprimir uma frase, preservando a informação essencial, eliminando o acessório e mantendo a gramaticalidade? Por exemplo, como construir um algoritmo capaz de converter a frase El universo (que otros llaman la Biblioteca) se compone de un número indefinido, y tal vez infinito, de galerías hexagonales, con vastos pozos de ventilación en el medio, cercados por barandas bajísimas
na sua versão mais curta El universo se compone de un número indefinido de galerías hexagonales cercados por barandasque essencialmente comporta a mesma informação? Mas isso será assunto para outro post (é claro que esse post, tal como a especificação do algoritmo pretendido, tal como qualquer sumário de qualquer documento, incluindo este, já existe na Biblioteca de Babel -- basta localizar os livros correspondentes :-) * * * Baxendale, P. (1958). Machine-made index for technical literature - an experiment. IBM Journal of Research Development, 2(4):354-361.
Edmundson, H. P. (1969). New methods in automatic extracting. Journal of the ACM, 16(2):264-285.
Knight, K. and Marcu, D. (2000). Statistics-based summarization - step one: Sentence compression. In AAAI/IAAI, pages 703-710.
Luhn, H. P. (1958). The automatic creation of literature abstracts. IBM Journal of Research Development, 2(2):159-165.
Radev, D. R., Jing, H., and Budzikowska, M. (2000). Centroid-based summarization of multiple documents: sentence extraction, utility-based evaluation, and user studies. In NAACL-ANLP 2000 Workshop on Automatic summarization, pages 21-30, Morristown, NJ, USA
Em Portugal, na primeira metade de 2008, o tema do Acordo Ortográfico (AO) voltou a ser alvo de destaque na imprensa, com discussões e perorações mais ou menos apaixonadas e mais ou menos fundamentadas. No entanto, em nenhuma dessas ocasiões se falou de um pormenor de extrema importância: o AO entra efectivamente em vigor após a sua ratificação e após promulgação pelo Presidente da República Portuguesa? Agora, mais do que nunca, esta parece ser uma pergunta legítima. Em Maio e em Julho últimos foram publicados em Diário da República os documentos legais que possibilitam a entrada em vigor do Acordo Ortográfico de 1990 em Portugal: primeiro, a ratificação do Acordo do Segundo Protocolo Modificativo ao Acordo Ortográfico da Língua Portuguesa, pela Resolução da Assembleia da República nº 35/2008 de 16 de Maio de 2008, e depois, o correspondente Decreto do Presidente da República nº 52/2008 de 29 de Julho de 2008. Mas será que isso é suficiente para que o AO já vigore em Portugal? O AO é uma convenção internacional que prevê, no art. 3º do Acordo do Segundo Protocolo Modificativo ao Acordo Ortográfico da Língua Portuguesa que "O Acordo Ortográfico da Língua Portuguesa entrará em vigor com o terceiro depósito de instrumento de ratificação junto da República Portuguesa." Uma pesquisa no Legix não revela registos que atestem o depósito dos instrumentos de ratificação do Brasil (2004), de Cabo Verde (2006) e de São Tomé e Príncipe (2006). Segundo o art. 119º da Constituição Portuguesa, a publicação das convenções internacionais e dos respectivos avisos de ratificação é obrigatória no Diário da República, sob pena de a sua falta de publicidade implicar ineficácia jurídica. Por este motivo, em Julho (nos dias seguintes à publicação no DR), a Priberam questionou o Ministério dos Negócios Estrangeiros (MNE) sobre este assunto, não tendo, até ao momento, recebido qualquer resposta. Questionado também o Secretariado Executivo da Comunidade dos Países de Língua Portuguesa (CPLP), este remeteu as dúvidas colocadas para o MNE. Assim sendo, até ao esclarecimento deste pormenor e, consequentemente, até à efectiva entrada em vigor da nova ortografia, vigora o Acordo Ortográfico de 1945, com uma alteração de 1973. Este texto oficial, anotado pela Priberam, está disponível aqui.
Nos últimos anos tem-se verificado um avolumar da aprovação de alterações legislativas na área da justiça, com vista, segundo o legislador, à modernização do sistema judiciário e actividades inerentes. Aos diversos profissionais das áreas de actuação respectivas é exigido conhecimento e adaptação às mudanças. Acontece, porém, que a tão falada reforma e modernização da justiça tem sido sujeita a ajustes face ao momento conjuntural vivido e face a erros verificados em cada um dos diplomas aprovados. Exemplo disso é o Decreto-Lei nº 34/2008, de 26 de Fevereiro, que aprovou o Regulamento das Custas Processuais e, simultaneamente, introduziu alterações ao Código de Processo Civil, de Processo Penal, entre outros. Na verdade, neste momento, decorridos 7 meses sobre a sua aprovação, o referido diploma já foi duas vezes alterado e rectificado. Inclusive, a data de entrada em vigor foi alterada para 5 de Janeiro de 2009. Perante tal situação o sentimento de consolidação de conhecimentos e de segurança jurídica por parte dos profissionais envolvidos tem sido manifestamente comprometido. Em face disso as "ferramentas" de trabalho a utilizar têm de reproduzir "ao minuto" esta nova realidade, pelo que o recurso às novas tecnologias é imperioso!
Este blogue expressa as opiniões individuais de pessoas que trabalham na Priberam e não reflecte necessariamente os pontos de vista da empresa. O blogue da Priberam surge como uma forma mais informal de comunicar com o mundo.
|
|
|