Com o Acordo Ortográfico (AO) de 1990 já em vigor no Brasil, a comissão de lexicologia e lexicografia da Academia Brasileira de Letras (ABL) elaborou uma nota explicativa das orientações e opções tomadas na 5ª edição do Vocabulário Ortográfico de Língua Portuguesa (São Paulo: Global, 2009), onde se encontram os quatro princípios metodológicos seguidos (p. LI):
a) respeitar a lição do texto do Acordo;
b) estabelecer uma linha de coerência do texto como um todo;
c) acompanhar o espírito simplificador do texto do Acordo;
d) preservar a tradição ortográfica refletida nos formulários e vocabulários oficiais anteriores, quando das omissões do texto do Acordo.
À partida, a instanciação dos princípios acima não deixa antever o impacto das opções tomadas pela ABL, que só começa a desenhar-se quando são apresentadas as principais medidas tomadas pela comissão (p. LII). Mas só após exaustiva e fastidiosa consulta do VOLP (cuja versão electrónica on-line ainda não se encontra disponível) é que se percebe que a alínea c) acima transcrita pretende justificar interpretações que vão além do que diz o texto legal do AO e que a alínea d) é muitas vezes descurada pelas opções tomadas, comprometendo-se assim a esperada unificação ortográfica.
Algumas das opções e respectivas justificações do VOLP são particularmente intrigantes, como as que se seguem.
- registam-se palavras com formas divergentes das referidas no AO (ex.: grafa-se primo-infeção no AO mas primoinfeção no VOLP; co-herdeiro no AO mas coerdeiro no VOLP – cf. Base XVI), contrariando-se assim exemplos e regras claramente apresentados no texto legal;
- eliminam-se variantes não referidas no AO (ex.: benfeito surge no texto do AO, daí ter-se eliminado bem-feito no VOLP), mas mantêm-se outras no mesmo contexto (ex.: benquerença surge no texto do AO, mas é mantida a forma bem-querença no VOLP);
- elimina-se simplesmente o hífen em todas as palavras que contêm "formas de ligação", sem que haja explicitação inequívoca do que é entendido por “forma de ligação” ou da solução a tomar após a remoção do hífen (ex.: disse me disse, esmeralda do brasil, toma lá dá cá, tomara que caia mas pauapicar, empauapicar, flordelisado);
- abrem-se excepções às decisões ao uso do hífen nos casos acima, com "formas de ligação", nomeadamente para os gentílicos como rio-grandense-do-norte, mas não para os gentílicos indígenas como carajá do norte;
- fazem-se distinções entre palavras aglutinadas, palavras hifenizadas e locuções que escapam aos critérios definidos e são difíceis de compreender (ex.: o VOLP regista judeo-árabe mas judeo aramaico; regista judeu-cristão mas judeu cristianismo; regista francomação mas franco-maçom);
- hifenizam-se os termos compostos formados por elementos repetidos de origem onomatopaica mas escrevem-se aglutinados se forem de outra origem(ex.: tam-tam "tambor" versus tantã "pessoa desequilibrada"; o cuco "ave" foi cu-co até aos aditamentos, onde se descobriu que afinal não era bem uma onomatopeia, senão na origem do latim; já o fru-fru parece continuar hifenizado, mesmo tendo origem na palavra francesa froufrou);
- hifenizam-se os termos pertencentes às áreas da botânica ou da zoologia (conforme a Base XV, 3º) que designam animais, plantas, flores, frutos, raízes e sementes mas escrevem-se sem hífen sempre que tiverem outros significados diferentes desses (ex.: flor-de-lis "lírio-roxo" versus flor de lis "emblema da realeza francesa" que representa essa flor; bálsamo-do-peru "espécie de árvore" versus bálsamo do peru "líquido resinado obtido do bálsamo-do-peru");
- contraria-se o disposto na Base XVI, 1.º, alínea b), segundo a qual o prefixo re- (à semelhança do que sucede com outros prefixos terminados em -e, como entre- ou sobre-) deverá ser seguido de hífen quando o elemento seguinte começar por -e e o VOLP regista, por exemplo, reentrar. O texto legal do AO é inequívoco relativamente ao uso de hífen com um prefixo que termina na mesma vogal em que se inicia o elemento seguinte (ex.: anti-ibérico, contra-almirante, auto-observação).
- elimina-se o uso do hífen nos compostos com quase- ou não- (ex.: não metal; quase delito), quando o AO em nenhum momento o faz.
Será que a Academia das Ciências de Lisboa, cujo vocabulário é esperado até ao final deste ano, vai interpretar o AO da mesma maneira?
Falar do Acordo Ortográfico (AO) de 1990 não implica falar apenas de lusofonia. Nem do projecto de uma "ortografia unificada de língua portuguesa", como menciona o texto legal. Implica falar de polémica, de aceitação e rejeição, de petições contra e a favor e da falta de uma política linguística coesa, pelo menos em Portugal. Tem sido assim desde antes de 1990 e não parece que este cenário se vá alterar, mesmo após a ratificação do Acordo do Segundo Protocolo Modificativo ao Acordo Ortográfico da Língua Portuguesa por parte do Brasil (2004), Cabo Verde (2006), São Tomé e Príncipe (2006), Portugal (2009) e, a partir desta semana, Timor Leste.
Nos últimos tempos, falar do AO implica também falar de erratas, de listas de correcções, de ajustes, de aditamentos e de actualizações. Porquê? Porque os produtos de língua portuguesa entretanto disponibilizados no Brasil e em Portugal reflectem o facto de (i) o texto legal do AO ser ambíguo, incongruente e lacunar em vários pontos, gerando por isso interpretações divergentes, (ii) não existir um vocabulário comum atempadamente publicado que tenha colmatado essas lacunas e divergências, (iii) este ser um período de transição. Já aqui e aqui se tinha alertado para estes factos. Se restam dúvidas acerca das dificuldades da aplicação do AO, basta ver como os dicionários e os vocabulários entretanto publicados se distanciam na interpretação e na aplicação do texto legal, comprometendo assim a tão almejada unidade ortográfica.
A Priberam tem acompanhado atentamente todo o processo relativo ao AO, no sentido de não tomar decisões precipitadas e de produzir ferramentas que correspondam qualitativamente às expectativas dos utilizadores, não só em Portugal, mas também no Brasil e em outros países da CPLP. Pelo facto de a Priberam ter adquirido uma grande responsabilidade devido aos produtos que desenvolve, às marcas a que se tem associado e ao número de utilizadores que recorrem aos seus produtos e serviços, é exigido aos seus correctores um alto grau de qualidade e a resolução pronta das dúvidas ortográficas (e não a criação de mais áreas de dúvida ou hesitação).
Tendo em conta este contexto, a Priberam sentiu necessidade de definir linhas gerais explícitas e fundamentar linguisticamente as suas opções nos pontos em que o AO é ambíguo, incongruente e lacunar, tornando-as públicas nos critérios do FLiP relativamente ao Acordo Ortográfico de 1990, disponibilizados on-line logo desde o lançamento do FLiP 7.
Todavia, neste período de transição, dificilmente algum produto de língua portuguesa estará isento de fazer alterações ou actualizações, e os produtos da Priberam não constituem excepção. Veja-se, aliás, como a própria Academia Brasileira de Letras teve rapidamente de proceder a correcções ao Vocabulário Ortográfico da Língua Portuguesa (São Paulo: Global, 2009) no seu encarte de correcções e aditamentos à 5ª edição. Isto depois de ter publicado a edição segundo o AO do Dicionário escolar da língua portuguesa, que teve de sofrer ajustes numa 2.ª edição, a qual, por sua vez, ainda revela divergências relativamente ao referido vocabulário.
Nota1: A expressão "entidades nomeadas" é a tradução proposta pela Linguateca para a expressão inglesa named entities, termo que designa "entidades com nome próprio" (ex.: Reino Unido, Luís de Camões, ministro dos Negócios Estrangeiros, etc.).
 Alguém precisa dizer ao Grump e ao Vândalo desta tirinha que o Novo Corretor Aurélio 2.0 já se encontra à venda no Brasil. Com ele, e com o FLiP 7 em Portugal, fica um pouco mais fácil escrever segundo as novas regras ortográficas do português. P.S.: Está sol? O calor convida a uma ida à praia? O tema "acordo ortográfico" não desperta interesse? Não faz mal, justifica-se na mesma uma visita ao blogue do Orlandeli, de onde foi retirada a tira acima.
Vários advogados trocaram as togas, os códigos, gabinetes e tribunais por uma noite de espectáculo e por uma causa social. Foi um enorme sucesso em termos de angariação de fundos para promover o 1º Curso de cozinha e pastelaria para formar mães solteiras – Casa de Santo António http://www.casasantoantonio.org.pt/. Sucesso conseguido pelos donativos daqueles que participaram individualmente e pelos donativos das empresas que se associaram ao evento e à causa, como foi o caso, entre outras, da Priberam – LegiX. Foi uma noite surpreendente pela participação, mas também por, num espaço limitado, se encontrarem tantos advogados para uma noite diferente, de diversão, solidariedade e até de demonstração de outros talentos que não a advocacia. Todos em conjunto demonstraram que a advocacia não é nem pode ser um contínuo estado de conflitos e guerrilhas entre profissionais da mesma classe, como se tem querido transmitir. Ou ainda, de uma classe “cinzenta” sem luz e sem brilho! Ali houve muita cor e especialmente muita alegria testemunhadas por outros profissionais que, como também ali se disse, “quiseram passar a noite com advogados”! Foram tocados e cantados vários êxitos musicais de rock e não só, de música estrangeira como Proud Mary, One, Fame, Video killed the radio star, Superstition, entre outros, e em especial sucessos de bandas nacionais como Táxi, Doce, GNR, Jáfumega, finalizando a noite com uma versão não menos surpreendente de “À minha maneira” dos Xutos e Pontapés. Há que repetir! 
 ... descobrir que auspicioso é uma das palavras mais pesquisadas recentemente no Dicionário Priberam da Língua Portuguesa porque é um termo muito proferido numa telenovela brasileira.
Recentemente, a Priberam reformulou os recursos linguísticos disponibilizados on-line. De seguida, com a disponibilização de um Conjugador, no intuito de enriquecer o acesso à informação gramatical já disponibilizada através do Corrector ortográfico e sintáctico. Ambas as ferramentas são válidas para português de Portugal e para português do Brasil (com ou sem AO), assim como para espanhol. Foram também disponibilizados quatro Auxiliares de tradução que facultam equivalentes de e para espanhol, francês, inglês e português (com ou sem AO).
 Depois do FLiP:Mac 2 e do FLiP:Mac 2 Brasil, as versões do FLiP para Macintosh lançadas em Dezembro de 2008, chegou finalmente a hora de apresentar o FLiP 7, a última versão do pacote de ferramentas linguísticas da Priberam para o Microsoft Windows. As principais características e funcionalidades são descritas na página do produto, podendo também algumas delas ser visualizadas numa peça transmitida pela SIC. A apresentação do FLiP 7 teve lugar na Biblioteca Nacional e contou com as presenças do Ministro da Cultura, José António Pinto Ribeiro, do director da BN, Jorge Couto, do Secretário Executivo da CPLP, Domingos Simões Pereira e do Embaixador do Brasil na CPLP, Lauro Moreira, entre outros. Na sua comunicação, o ministro da cultura referiu-se ao FLiP 7 como um "instrumento de liberdade" que, a propósito das alterações decorrentes do Acordo Ortográfico (AO) de 1990, "permite-nos compreender como as novidades são simples". Pinto Ribeiro revelou ainda que estão a decorrer conversações com outros países da CPLP para acordar uma data para a entrada em vigor do AO, que poderá ocorrer ainda no primeiro semestre de 2009. Nota1: No português do Brasil, a forma verbal cheguei é usada informalmente como apositivo, significando "berrante, garrido, vistoso" (ex.: um vestido cheguei; umas sandálias verde cheguei).
Em texto anterior, mencionei o seguinte problema proposto por Knight e Marcu (2000): dada uma frase como esta, El universo (que otros llaman la Biblioteca) se compone de un número indefinido, y tal vez infinito, de galerías hexagonales, con vastos pozos de ventilación en el medio, cercados por barandas bajísimas
pretende-se construir um algoritmo capaz de comprimi-la, isto é, substituí-la por uma frase tão curta quanto possível que satisfaça as seguintes propriedades: - Preserve a informação essencial contida na frase original
- Elimine tudo o que seja acessório
- Seja gramatical
- Tenha o mesmo sentido da frase original
(Repare-se que esta definição do problema é vaga e omite aspectos importantes como quanto queremos comprimir ou qual é o contexto que determina o que é essencial e o que é acessório; mas por ora vamos prosseguir, sem complicar em demasia.) Uma frase aceitável dentro destes parâmetros seria algo como El universo se compone de un número indefinido de galerías hexagonales cercados por barandas. Esta frase tem a particularidade de poder ser obtida a partir da frase original apenas removendo algumas palavras, sobrando aquelas que se encontram a negrito: El universo (que otros llaman la Biblioteca) se compone de un número indefinido, y tal vez infinito, de galerías hexagonales, con vastos pozos de ventilación en el medio, cercados por barandas bajísimas. Se restringirmos o nosso universo de procura àquelas frases que podem ser obtidas por este processo (isto é, removendo palavras da frase original), evitamos passos tradicionalmente difíceis em linguística computacional, como representação semântica e síntese de texto. Mesmo assim, o espaço de procura (isto é, o número de possíveis compressões) é exponencial: cada palavra na frase original pode ou não ser seleccionada (isto é, colocada a negrito); havendo N palavras, resultam 2^ N possíveis compressões, de entre as quais queremos seleccionar uma. O algoritmo proposto por Knight e Marcu (2000) é inspirado no noisy channel model, um modelo originalmente proposto por Claude Shannon (1948) para modelizar comunicação na presença de ruído, e adoptado em tradução automática estatística desde os tempos da Guerra Fria (a história deste modelo fica para um post futuro). Segundo este modelo, há um emissor que transmite uma frase comprimida c. O ruído no canal corrompe esta frase adicionando palavras irrelevantes; como resultado, o receptor observa uma frase "longa" l que corresponde à nossa frase original. O objectivo é estimar c a partir de l. A probabilidade da compressão c dada a frase original l é proporcional a P( l | c) P( c) O primeiro termo, P( l | c), representa o modelo do canal. O segundo termo, P( c), representa o modelo do emissor. Tipicamente, a extracção da informação essencial é assegurada pelo primeiro modelo; a gramaticalidade é assegurada pelo segundo modelo. Para fazer face ao espaço de procura exponencial, Knight e Marcu (2000) utilizam um processador sintáctico e assumem (no modelo de P( l | c)) que l é obtido a partir de c através da adição de constituintes sintácticos, de acordo com um modelo probabilístico. Os parâmetros deste modelo e da gramática estocástica associado ao modelo do emissor P( c) são estimados generativamente usando corpora paralelo de frases e respectivas compressões. Através de algoritmos de programação dinâmica, é possível descodificar (ou seja, obter a compressão c que maximiza P( c | l)) de forma eficiente. Este tipo de problemas em que o espaço de procura é exponencial mas tem um certo tipo de estrutura tem sido objecto de grande atenção em aprendizagem automática, sob o nome de structured prediction. Em determinadas situações, compensa estimar os parâmetros do modelo de forma discriminativa (em vez de generativa), o que resulta quase sempre num problema de optimização mais complicado. Este assunto ( generative versus discriminative training) será objecto de um post futuro. Nesta linha, novos modelos para compressão de frases foram propostos por McDonald (2006), Clarke e Lapata (2008) e outros. E isto é útil? E o que tem que ver com sumarização de documentos, afinal o tema que foi puxado em Babel.ZIP I? Bem... Isso é o que espero descobrir em breve. Estou a trabalhar num projecto de laboratório que visa combinar extracção das frases mais salientes de um documento com compressão de frases; o objectivo é, dado um documento, construir um sumário que, em vez de apenas extrair frases inteiras do documento, extrai e comprime ao mesmo tempo. Isso será feito num único passo, usando técnicas de structured prediction, programação linear inteira, etc.
More to come! --- Knight, K. and Marcu, D. (2000). Statistics-based summarization - step one: Sentence compression. In AAAI/IAAI, pages 703-710.
Claude E. Shannon (1948). A Mathematical Theory of Communication, Bell System Technical Journal, Vol. 27, pp. 379–423, 623–656, 1948.
R. McDonald (2006). Discriminative Sentence Compression with Soft Syntactic Constraints. European Association for Computational Linguistics (EACL).
- Clarke, J. and Lapata, M. (2008). Global inference for sentence compression: An integer linear programming approach. Journal of Artificial Intelligence Research, 31:399-429.
|
|
|