.
Entrar | Contactos | Dicionário | FLiP.pt | LegiX.pt | Blogue | Loja

quinta-feira, 20 de agosto de 2009

Livro sobre o Segundo HAREM disponível online

A edição digital do livro Desafios na avaliação conjunta do reconhecimento de entidades mencionadas: O Segundo HAREM (Linguateca, 2008), editado por Cristina Mota e Diana Santos, já está publicamente acessível. Nele documenta-se a segunda avaliação conjunta da Linguateca em reconhecimento de entidades mencionadas1, o HAREM, na qual a Priberam participou em 2008. A participação da Priberam é descrita no capítulo 9, intitulado "Adaptação do sistema de reconhecimento de entidades mencionadas da Priberam ao HAREM".

Nota1:
A expressão "entidades nomeadas" é a tradução proposta pela Linguateca para a expressão inglesa named entities, termo que designa "entidades com nome próprio" (ex.: Reino Unido, Luís de Camões, ministro dos Negócios Estrangeiros, etc.).

segunda-feira, 3 de agosto de 2009

Novo Corretor Aurélio 2.0


Alguém precisa dizer ao Grump e ao Vândalo desta tirinha que o Novo Corretor Aurélio 2.0 já se encontra à venda no Brasil. Com ele, e com o FLiP 7 em Portugal, fica um pouco mais fácil escrever segundo as novas regras ortográficas do português.

P.S.: Está sol? O calor convida a uma ida à praia? O tema "acordo ortográfico" não desperta interesse? Não faz mal, justifica-se na mesma uma visita ao blogue do Orlandeli, de onde foi retirada a tira acima.

sexta-feira, 10 de julho de 2009

Rock in Law – “À maneira deles”

Vários advogados trocaram as togas, os códigos, gabinetes e tribunais por uma noite de espectáculo e por uma causa social.

Foi um enorme sucesso em termos de angariação de fundos para promover o 1º Curso de cozinha e pastelaria para formar mães solteiras – Casa de Santo António http://www.casasantoantonio.org.pt/. Sucesso conseguido pelos donativos daqueles que participaram individualmente e pelos donativos das empresas que se associaram ao evento e à causa, como foi o caso, entre outras, da Priberam – LegiX.

Foi uma noite surpreendente pela participação, mas também por, num espaço limitado, se encontrarem tantos advogados para uma noite diferente, de diversão, solidariedade e até de demonstração de outros talentos que não a advocacia.

Todos em conjunto demonstraram que a advocacia não é nem pode ser um contínuo estado de conflitos e guerrilhas entre profissionais da mesma classe, como se tem querido transmitir. Ou ainda, de uma classe “cinzenta” sem luz e sem brilho!

Ali houve muita cor e especialmente muita alegria testemunhadas por outros profissionais que, como também ali se disse, “quiseram passar a noite com advogados”!

Foram tocados e cantados vários êxitos musicais de rock e não só, de música estrangeira como Proud Mary, One, Fame, Video killed the radio star, Superstition, entre outros, e em especial sucessos de bandas nacionais como Táxi, Doce, GNR, Jáfumega, finalizando a noite com uma versão não menos surpreendente de “À minha maneira” dos Xutos e Pontapés.

Há que repetir!







sexta-feira, 29 de maio de 2009

Lusofonia é...

... descobrir que auspicioso é uma das palavras mais pesquisadas recentemente no Dicionário Priberam da Língua Portuguesa porque é um termo muito proferido numa telenovela brasileira.

Recursos linguísticos on-line

Recentemente, a Priberam reformulou os recursos linguísticos disponibilizados on-line.

Primeiro, através a inclusão de um Conversor para o acordo ortográfico que permite visualizar as modificações decorrentes do Acordo Ortográfico de 1990 (AO) e de um Vocabulário que possibilita a consulta de informação ortográfica e morfológica, com ou sem AO, tanto em português de Portugal como em português do Brasil.

De seguida, com a disponibilização de um Conjugador, no intuito de enriquecer o acesso à informação gramatical já disponibilizada através do Corrector ortográfico e sintáctico. Ambas as ferramentas são válidas para português de Portugal e para português do Brasil (com ou sem AO), assim como para espanhol.

Foram também disponibilizados quatro Auxiliares de tradução que facultam equivalentes de e para espanhol, francês, inglês e português (com ou sem AO).

Por fim, a mudança mais radical prende-se com o Dicionário Priberam da Língua Portuguesa e com a Gramática, cujos conteúdos on-line foram totalmente renovados, estando em constante actualização e melhoramento.

sexta-feira, 17 de abril de 2009

«Fuck preparation. They have desenrascanço1

Depois de saudade ter alcançado o 7º lugar no top internacional As dez palavras mais difíceis de traduzir, eis que parece ter chegado a hora de mais um portuguesismo galgar fronteiras linguísticas. Trata-se de desenrascanço, o modus operandi de muitos portugueses, e figura, logo em 1º lugar, no top As dez palavras estrangeiras mais fixes de que o Inglês precisa (de onde se extraiu o título desta entrada).

Nota1: «Foda-se a preparação. Eles têm o desenrascanço».

terça-feira, 17 de fevereiro de 2009

FLiP 7 em rosa cheguei1, ou melhor, em rosa chegou

Depois do FLiP:Mac 2 e do FLiP:Mac 2 Brasil, as versões do FLiP para Macintosh lançadas em Dezembro de 2008, chegou finalmente a hora de apresentar o FLiP 7, a última versão do pacote de ferramentas linguísticas da Priberam para o Microsoft Windows. As principais características e funcionalidades são descritas na página do produto, podendo também algumas delas ser visualizadas numa peça transmitida pela SIC.

A apresentação do FLiP 7 teve lugar na Biblioteca Nacional e contou com as presenças do Ministro da Cultura, José António Pinto Ribeiro, do director da BN, Jorge Couto, do Secretário Executivo da CPLP, Domingos Simões Pereira e do Embaixador do Brasil na CPLP, Lauro Moreira, entre outros.

Na sua comunicação, o ministro da cultura referiu-se ao FLiP 7 como um "instrumento de liberdade" que, a propósito das alterações decorrentes do Acordo Ortográfico (AO) de 1990, "permite-nos compreender como as novidades são simples". Pinto Ribeiro revelou ainda que estão a decorrer conversações com outros países da CPLP para acordar uma data para a entrada em vigor do AO, que poderá ocorrer ainda no primeiro semestre de 2009.


Nota1: No português do Brasil, a forma verbal cheguei é usada informalmente como apositivo, significando "berrante, garrido, vistoso" (ex.: um vestido cheguei; umas sandálias verde cheguei).

sexta-feira, 7 de novembro de 2008

Babel.ZIP II

Em texto anterior, mencionei o seguinte problema proposto por Knight e Marcu (2000): dada uma frase como esta,

El universo (que otros llaman la Biblioteca) se compone de un número indefinido, y tal vez infinito, de galerías hexagonales, con vastos pozos de ventilación en el medio, cercados por barandas bajísimas

pretende-se construir um algoritmo capaz de comprimi-la, isto é, substituí-la por uma frase tão curta quanto possível que satisfaça as seguintes propriedades:
  • Preserve a informação essencial contida na frase original
  • Elimine tudo o que seja acessório
  • Seja gramatical
  • Tenha o mesmo sentido da frase original
(Repare-se que esta definição do problema é vaga e omite aspectos importantes como quanto queremos comprimir ou qual é o contexto que determina o que é essencial e o que é acessório; mas por ora vamos prosseguir, sem complicar em demasia.)

Uma frase aceitável dentro destes parâmetros seria algo como

El universo se compone de un número indefinido de galerías hexagonales cercados por barandas.

Esta frase tem a particularidade de poder ser obtida a partir da frase original apenas removendo algumas palavras, sobrando aquelas que se encontram a negrito:

El universo (que otros llaman la Biblioteca) se compone de un número indefinido, y tal vez infinito, de galerías hexagonales, con vastos pozos de ventilación en el medio, cercados por barandas bajísimas.

Se restringirmos o nosso universo de procura àquelas frases que podem ser obtidas por este processo (isto é, removendo palavras da frase original), evitamos passos tradicionalmente difíceis em linguística computacional, como representação semântica e síntese de texto. Mesmo assim, o espaço de procura (isto é, o número de possíveis compressões) é exponencial: cada palavra na frase original pode ou não ser seleccionada (isto é, colocada a negrito); havendo N palavras, resultam 2^N possíveis compressões, de entre as quais queremos seleccionar uma.

O algoritmo proposto por Knight e Marcu (2000) é inspirado no noisy channel model, um modelo originalmente proposto por Claude Shannon (1948) para modelizar comunicação na presença de ruído, e adoptado em tradução automática estatística desde os tempos da Guerra Fria (a história deste modelo fica para um post futuro). Segundo este modelo, há um emissor que transmite uma frase comprimida c. O ruído no canal corrompe esta frase adicionando palavras irrelevantes; como resultado, o receptor observa uma frase "longa" l que corresponde à nossa frase original. O objectivo é estimar c a partir de l. A probabilidade da compressão c dada a frase original l é proporcional a

P(l | c) P(c)

O primeiro termo, P(l | c), representa o modelo do canal. O segundo termo, P(c), representa o modelo do emissor. Tipicamente, a extracção da informação essencial é assegurada pelo primeiro modelo; a gramaticalidade é assegurada pelo segundo modelo. Para fazer face ao espaço de procura exponencial, Knight e Marcu (2000) utilizam um processador sintáctico e assumem (no modelo de P(l | c)) que l é obtido a partir de c através da adição de constituintes sintácticos, de acordo com um modelo probabilístico. Os parâmetros deste modelo e da gramática estocástica associado ao modelo do emissor P(c) são estimados generativamente usando corpora paralelo de frases e respectivas compressões. Através de algoritmos de programação dinâmica, é possível descodificar (ou seja, obter a compressão c que maximiza P(c | l)) de forma eficiente.

Este tipo de problemas em que o espaço de procura é exponencial mas tem um certo tipo de estrutura tem sido objecto de grande atenção em aprendizagem automática, sob o nome de structured prediction. Em determinadas situações, compensa estimar os parâmetros do modelo de forma discriminativa (em vez de generativa), o que resulta quase sempre num problema de optimização mais complicado. Este assunto (generative versus discriminative training) será objecto de um post futuro. Nesta linha, novos modelos para compressão de frases foram propostos por McDonald (2006), Clarke e Lapata (2008) e outros.

E isto é útil? E o que tem que ver com sumarização de documentos, afinal o tema que foi puxado em Babel.ZIP I? Bem... Isso é o que espero descobrir em breve. Estou a trabalhar num projecto de laboratório que visa combinar extracção das frases mais salientes de um documento com compressão de frases; o objectivo é, dado um documento, construir um sumário que, em vez de apenas extrair frases inteiras do documento, extrai e comprime ao mesmo tempo. Isso será feito num único passo, usando técnicas de structured prediction, programação linear inteira, etc.

More to come
!

---

Knight, K. and Marcu, D. (2000). Statistics-based summarization - step one: Sentence compression. In AAAI/IAAI, pages 703-710.

Claude E. Shannon (1948). A Mathematical Theory of Communication, Bell System Technical Journal, Vol. 27, pp. 379–423, 623–656, 1948.

R. McDonald (2006). Discriminative Sentence Compression with Soft Syntactic Constraints.
European Association for Computational Linguistics (EACL).
Clarke, J. and Lapata, M. (2008). Global inference for sentence compression: An integer linear programming approach. Journal of Artificial Intelligence Research, 31:399-429.

segunda-feira, 27 de outubro de 2008

Republicação de diplomas legislativos

O Código do IVA, o Regime do IVA nas Transacções Intracomunitárias, bem como o Estatuto dos Benefícios Fiscais, sofreram significativas alterações aprovadas pelo Decreto-Lei n.º 102/2008, de 20 de Junho e pelo Decreto-Lei n.º 108/2008, de 26 de Junho, respectivamente.

De acordo com a Lei n.º 74/98, de 11 de Novembro, na redacção dada pela Lei n.º 42/2007, de 24 de Agosto, sempre que um diploma introduza alterações noutro, procede-se à republicação integral do diploma alterado.

Os referidos diplomas são alvo de importantes alterações todos os anos e por vezes mais do que uma vez, pelo que a republicação do Código do IVA foi uma boa notícia. Com efeito, contarmos com a republicação de um código, que desde a sua aprovação, 26-12-1984, já sofreu inúmeras alterações, significa no mínimo a consolidação e segurança das diversas redacções dadas ao referido diploma.

Porém, essa republicação trazia duas surpresas com ela, por um lado a atribuição de epígrafes, no caso do Código do IVA, e por outro a reordenação e renumeração de todo o articulado nos três diplomas mencionados, com as respectivas tabelas de conversão. De facto, e exemplificando de forma meramente aleatória, o artigo 72.º-A do Código do IVA passou a ser o artigo 80.º (Responsabilidade solidária dos sujeitos passivos) e o artigo 2.º-A do EBF passou a ser o artigo 3.º (Caducidade dos benefícios fiscais).

Ora, o DL 74/98, na redacção actual, prevê a republicação dos diplomas, mas não menciona a renumeração, nem a eliminação dos artigos revogados do articulado.

A verdade é que, os diplomas recentemente aprovados, trouxeram uma nova realidade que obriga a quem aplica e faz uso dos indicados códigos a uma nova aprendizagem e análise como se de códigos novos se tratassem. Com efeito, no exercício da justiça, na prática corrente das diversas actividades profissionais, como seja a simples emissão de facturas/recibos, tudo tem de ser renovado.

Coloca-se então a questão de saber qual o critério que esteve presente na republicação dos mencionados diplomas, sendo certo que quem os aplica terá que ter uma atenção redobrada.

terça-feira, 21 de outubro de 2008

Aplicação do Acordo Ortográfico de 1990 (II)

Algumas implicações da aplicação do Acordo Ortográfico de 1990 (AO) em correctores ortográficos foram alvo de análise em O novo acordo ortográfico e os correctores automáticos, comunicação da Priberam apresentada em Agosto deste ano ao IX Congresso da Associação Internacional de Lusitanistas. Uma breve entrevista da mesma altura, ao programa Páginas de Português, da Antena 2, aborda também esta problemática, ainda que sumariamente.

Nesta análise, como nas reflexões que habitualmente faz sobre o tema, a Priberam não pretende esgrimir argumentos contra ou a favor do Acordo Ortográfico, mas antes fazer uma análise sob uma perspectiva prática e contribuir para um debate pouco frequente relativamente ao texto do AO: o da sua aplicação efectiva. Neste aspecto, é inequívoco que o AO tem consequências no processamento da língua natural (PLN) e nos correctores ortográficos em particular, mas também em auxiliares de tradução ou em motores de busca.

Curiosamente, o próprio texto legal do AO tem, aparentemente, preocupações específicas com o PLN, como se pode ler no ponto 5.3. da "Nota Explicativa", aquando da explicitação das razões ponderadas para a manutenção dos acentos gráficos nas palavras esdrúxulas e graves, recuando assim no estipulado pelo texto de 1986, o que, a manter-se em 1990, constituiria "problema para o tratamento informatizado do léxico".

Este argumento não parece, no entanto, ser pertinente, dado o elevado número de ambiguidades entre classes gramaticais que a língua contém e que o PLN tem obrigatoriamente de tratar. Mais do que isso, a eliminação das consoantes ditas "mudas" (ver Base IV) vai aumentar o número de palavras homógrafas (ex.: a(c)to/ato, substantivo e flexão verbal de atar; ó(p)tico/ótico, adjectivo relativo à vista e ao ouvido, respectivamente). A mesma consequência terá a eliminação do acento gráfico que distinguia palavras graves homógrafas de palavras proclíticas (ver Base IX, 9.º), como no caso de para, 3ª pessoa do singular do indicativo do verbo parar e preposição.

O principal problema na aplicação do AO prende-se com a qualidade do texto legal, que, devido a lacunas, ambiguidades e incoerências, gera dificuldades acrescidas. Há no mercado português dicionários que publicitam seguir a ortografia preconizada pelo Acordo de 1990, obras que terão implicado certamente tempo e trabalho aturado de lexicógrafos. No entanto, as diferentes opções de dois dicionários para um número considerável de palavras são a prova manifesta de que o texto legal não é razoavelmente claro nem suficientemente objectivo para impedir diferentes interpretações ortográficas.

Apenas a título de exemplo, veja-se as divergências publicadas por dois desses dicionários relativamente a:

- acentuação

Texto Editores*Porto Editora**
cômoro/cómorocômoro
fêmeafêmea/fémea
géisergeiser

- grafia de consoantes
Texto Editores*Porto Editora**
anfractuoso/anfratuosoanfractuoso
excepção/exceçãoexceção
manufaturamanufactura/manufatura
perfeccionistaperfeccionista/perfecionista
tacto/tatotato
tectónico/tectônico/tetónico/tetônicotectónico/tectônico
tumefactotumefacto/tumefato
veredictoveredicto/veredito

- uso do hífen
Texto Editores*Porto Editora**
abrogaçãoab-rogação
céu da bocacéu-da-boca
indoeuropeuindo-europeu
maria vai com as outrasmaria-vai-com-as-outras
para quedasparaquedas
re-entrarreentrar
sobre-excitarsobreexcitar
subreptíciosub-reptício
tão somentetão-somente


Desta pequena reflexão, parece óbvia a conclusão de que, enquanto não houver instrumentos reguladores da ortografia, nomeadamente das duas academias (Academia das Ciências de Lisboa e Academia Brasileira de Letras), quem tem de trabalhar com a ortografia vai ter problemas na aplicação do AO (falamos do trabalho na Priberam, mas também do trabalho de jornalistas, de tradutores, de revisores, de professores...), daí que a confiança num corrector ortográfico automático, como o FLiP, se revista de grande importância para quem tem de seguir impreterivelmente as alterações ortográficas introduzidas pelo Acordo.

*Novo Dicionário da Língua Portuguesa Conforme Acordo Ortográfico, Lisboa: Texto Editores, 2007.
**Novo Dicionário Editora da Língua Portuguesa 2009 – Acordo Ortográfico, Porto: Porto Editora, 2008.





Priberam.pt
.