.
Entrar | Contactos | Dicionário | FLiP.pt | LegiX.pt | Blogue | Loja

segunda-feira, 5 de março de 2012

Priberam Machine Learning Lunch Seminars




Priberam Machine Learning Lunch Seminar
Speaker: Ramon Astudillo (INESC-ID)
Venue: IST Alameda, Sala PA2 (Edifício de Pós-Graduação)
Date: Tuesday, March 6th, 2012
Time: 13:00
Lunch will be provided

Title: Integration of Fourier Domain Speech Enhancement and Automatic
Speech Recognition through Uncertainty Propagation

Abstract:
Speech enhancement techniques aim to recover the original clean signal
underlying corrupted speech. Such techniques typically operate in the
short-time Fourier transform (STFT) domain where phenomena like
additivity of background noises, interfering speakers and echoes are
easier to model. By contrast, automatic speech recognition (ASR), and in
general most speech-related machine learning applications, operate on
feature spaces that are non-linear transformations of the STFT. The
reason for this is that such spaces provide a more compact
representation of the acoustic space, the space of all acoustic
realizations for a given task, and thus lead to simpler models. This
talk discusses the integration of STFT speech enhancement and ASR using
the concept of uncertainty propagation and decoding. This will include
conventional speech enhancement in STFT domain, its associated
uncertainty and various closed-form solutions for propagation into
domains suitable for ASR.

quinta-feira, 1 de março de 2012

Dicionários por medida

Na nuvem das palavras mais consultadas no Dicionário Priberam, encontrava-se esta semana a palavra cigano:

(imagem captada em 28-02-2012)

Uma busca na Internet revela a razão para a palavra cigano ser tão consultada: de acordo com a notícia publicada na página da Procuradoria Geral da República Brasileira, o Ministério Público Federal de Minas Gerais apresentou queixa contra a Editora Objetiva e o Instituto Antônio Houaiss por considerar que o Dicionário Houaiss contém expressões pejorativas e preconceituosas relativas aos ciganos:

«[...] “Ao se ler em um dicionário, por sinal extremamente bem conceituado, que a nomenclatura [sic] cigano significa aquele que trapaceia, velhaco, entre outras coisas do gênero, ainda que se deixe expresso que é uma linguagem pejorativa, ou, ainda, que se trata de acepções carregadas de preconceito ou xenofobia, fica claro o caráter discriminatório assumido pela publicação”, diz o procurador.
[...] Para ele, o fato de as afirmações serem feitas por uma publicação, que, por sua própria natureza, encerra um sentido de verdade, agrava ainda mais a situação. “Ora, trata-se de um dicionário. As pessoas consultam-no para saber o significado de uma palavra. Ninguém duvida da veracidade do que ali encontra. Sequer questiona. Pelo contrário. Aquele sentido, extremamente pejorativo, será internalizado, levando à formação de uma postura interna pré-concebida [sic] em relação a uma etnia que deveria, por força de lei, ser respeitada”. [...]».

Como é possível que uma língua tenha palavras e acepções (como cigano, coninhas, fufa, galego, judeu, pretalhada ou rabeta) que podem insultar ou ofender? Deverá um dicionário registá-las?

Em resposta à última pergunta, a lexicografia actual assume que um dicionário deve seguir uma abordagem descritiva na selecção das palavras e na forma como as define, usando nomeadamente um conjunto de etiquetas ou sinais para assinalar níveis de língua (como linguagem informal ou calão) ou usos específicos (como expressões depreciativas ou insultuosas), não devendo o autor ou editor do dicionário impor a sua opinião sobre o uso da língua1.

Onde reside afinal o preconceito: nos falantes, que optam propositadamente por ofender com palavras, ou no dicionário, que descreve e indica o uso potencialmente ofensivo de determinados termos? Note-se que, como em muitos outros casos do género, o Dicionário Houaiss assinala as acepções que podem ser consideradas ofensivas com a indicação “pej.”, redução de “pejorativo”. O uso pejorativo é «[...] característico de palavras, expressões ou acepções que são (ou, na dependência do contexto, podem ser) grosseiras, ofensivas, ferinas ou preconceituosas [...]»2.

Ao alertar para termos e empregos preconceituosos, informais ou obscenos, muitas vezes desconhecidos dos falantes, seja porque pertencem a diferentes enquadramentos socioculturais, seja porque são falantes estrangeiros, os dicionários estão a alertar os consulentes para a possibilidade de usarem linguagem ofensiva ou de ferirem as susceptibilidades de outros falantes.

No entanto, nem sempre foi assim, como se pode comprovar consultando o verbete cigano num dicionário de língua portuguesa do início do século XX:

cigano,1 m. Aquelle que pertence á raça dos ciganos. Adj. Trapaceiro; ladino. M. pl. Povo errante e miserável, de procedencia indiana, que, fugindo á invasão mongólica, se distribuiu por todo o mundo, falando dialectos que são prácritos corrompidos, e empregando-se ora em enganar vendedores ou compradores de gados nas feiras, ora na pirataria, no acrobatismo, etc. (Al. zigeuner, russo tzigane).
(in Cândido de Figueiredo, Novo Dicionário da Língua Portuguesa, 1913, p. 444)

Um dicionário deve ser feito à medida de uma língua. E, do mesmo modo que não são os repórteres de guerra que fazem a guerra com as atrocidades, crimes e mortes que divulgam nas imagens que registam, não são os dicionários que fazem a língua, são os falantes, tenham eles a nacionalidade, etnia, religião, ideologia, opção sexual, idade ou o género que tiverem.

Como a Priberam já teve oportunidade de explicar, relativamente a galego e às locuções sexo forte e sexo fraco, a função de um dicionário passa por uma descrição dos usos da língua, devendo basear-se essencialmente em factos linguísticos e não estabelecer juízos de valor relativamente a eles, antes apresentá-los o mais objectivamente possível.

Este não é, na língua portuguesa ou em qualquer outra língua, um caso único, pois as línguas, enquanto sistemas de comunicação, veiculam também os preconceitos da cultura em que se inserem, como também refere o comunicado disponibilizado na página do Instituto Antônio Houaiss:

«[...] Nenhum dicionário deve ocultar empregos preconceituosos de palavras quando se vê diante deles. Registramos precisamente o que encontramos, tanto dentro do padrão culto da língua como no informal. Os dicionários não inventam palavras nem acepções. Nesse espelho em que nos constituímos refletem-se a realidade da língua e os sentimentos dos seus falantes, ora com sua beleza e simpatia, ora com sua crueldade, com seus sentimentos e atitudes desfavoráveis para com minorias etc. Ninguém supõe eliminar dos dicionários palavras como guerra, tortura, violência, pedofilia com fim de conter ou impedir que tais tormentos continuem a existir. Fazê-lo seria apenas varrer para debaixo do tapete o que nos envergonha, mas isso não serve de ação preventiva nem eliminadora do mal que tais conceitos e outros preconceitos acarretam. Que fazer nos dicionários em tais casos, então? Registrar a palavra ou a acepção e dizer claramente, quando é o caso, que ela é pejorativa e preconceituosa. É como fazem os dicionários modernos em todo o mundo.»


1 Piet Swanepoel “Dictionary typologies: A pragmatic approach” in Piet van Sterkenburg (ed.), A Practical Guide to Lexicography, John Benjamins Publishing Company, Amsterdam/Philadelphia, 2003, p. 65.
2 Ver o tópico “Nível de uso” da secção “Detalhamento do verbete” em “Conhecendo o dicionário”, na Ajuda do Dicionário Eletrônico da Língua Portuguesa, versão 1.0.5a.

quinta-feira, 9 de fevereiro de 2012

Agenda: Pessoa na Gulbenkian


Tem amanhã início em Lisboa, na Fundação Calouste Gulbenkian, e decorre até 30 de Abril, uma exposição dedicada ao escritor português Fernando Pessoa.

Organizada pela Fundação Roberto Marinho e pelo Museu da Língua Portuguesa de São Paulo, onde foi inaugurada em Agosto de 2010, a exposição “Fernando Pessoa, Plural como o Universo”, celebra a vida e obra do escritor nas suas múltiplas escritas (de ortónimo e heterónimos) e assinala também a iniciativa Ano de Portugal no Brasil e Ano do Brasil em Portugal.

Com uma forte componente interactiva e através da apresentação de textos, fotografias, pinturas, vídeos, sons e objectos, os visitantes podem acompanhar o percurso de vida do escritor paralelamente ao da sua vasta e diversificada produção literária.

Em parceria com a Casa Fernando Pessoa, o programa de actividades educativas inclui visitas guiadas, jogos e oficinas de escrita e teatro.

sexta-feira, 27 de janeiro de 2012

Agenda: Festival Literário de Macau



Começa já no próximo domingo, e decorre até dia 4 de Fevereiro, a primeira edição do festival literário de Macau, The Script Road / Rota das Letras.

O evento, que pretende celebrar literatura, arte, música e cinema, reúne escritores e artistas provenientes da China, Macau, Hong Kong e de países de língua oficial portuguesa, como Angola, Brasil, Cabo Verde, Moçambique e Portugal, entre outros.

Mais informações sobre o programa podem ser encontradas aqui e aqui.

segunda-feira, 23 de janeiro de 2012

Priberam Machine Learning Lunch Seminars





Priberam Machine Learning Lunch Seminar
Speaker: Miguel Almeida (IST/UTL and Aalto University, Finland)
Venue: IST Alameda, Sala PA2 (Edifício de Pós-Graduação)
Date: Tuesday, January 24th, 2012
Time: 13:00
Lunch will be provided

Title: SSS: Separation of Synchronous Sources

Abstract:

The problem of separating synchronous sources (SSS) is a case of blind
source separation (BSS) where independence of the sources is not
satisfied. In SSS, the sources are assumed to be complex-valued, and
different sources are phase-locked, which means that the relative
phase lag between two sources is not uniform in [0,2*pi[. For this
reason, the typical independent component analysis (ICA) tools are
theoretically not applicable, and experiments show that they perform
poorly in this task. In the SSS model, we assume that the phase lag
between any two sources is constant. The only important assumption
regarding the amplitudes of the sources is linear independence,
although some nice results can be proven if the amplitudes are
statistically independent.

In this talk, I'll start by briefly discussing ICA, since it is
relatively familiar in the Machine Learning community. I will then
formulate the problem of SSS and detail the similarities and
differences to the ICA problem. Afterwards, I will present two
algorithms that were developed to tackle this problem, along with some
nice theoretical properties of those algorithms. We will visit some
very simple optimization problems and a little bit of complex algebra.
Nothing complicated, I promise!

I will finalize by presenting some simulated results, on 1) data which
exactly follows the SSS model, and 2) data which deviates from the SSS
model.

--

Bio: Miguel Almeida is currently a joint PhD student at IST-UTL, Portugal, and at Aalto University (AU), Finland (formerly Helsinki University of Technology), under joint supervision of Prof. José Bioucas-Dias (IST), Prof. Ricardo Vigário (AU), and Prof. Erkki Oja (AU). He started his doctoral project in 2008 and spent the first two years of his PhD at AU. He has been at IST since 2010, and plans to finish his degree in the first semester of 2012.
His PhD topic revolves around the SSS problem, and fits under the
general topic of Machine Learning. More specifically, this project
involves considerable amounts of Signal Processing and Optimization.
Miguel holds an MSc in Physics and Technology Engineering (IST, 2006)
and an advanced post-graduate degree in Biophysics (FC-UL, 2007).

quarta-feira, 4 de janeiro de 2012

Priberam Machine Learning Lunch Seminars (3.ª série)


A terceira série de seminários sobre aprendizagem automática (machine learning), patrocinados pela Priberam, tem início no próximo dia 10 de Janeiro.

O principal objectivo destes seminários é possibilitar um espaço de divulgação e de debate entre a academia e a indústria nas áreas científicas em que operam (aprendizagem automática, processamento de língua natural, robótica, etc.). Para além de contrariar a ideia de que os percursos das universidades e das empresas não se cruzam, esta iniciativa pretende ainda estreitar laços entre os diferentes grupos de investigação.

Os seminários decorrem quinzenalmente à terça-feira, às 13h, no campus da Alameda do Instituto Superior Técnico (edifício de pós-graduação, sala PA2), são gratuitos e abertos a todos os que queiram participar (não é necessária inscrição). Mais informação, aqui.

Os interessados em assistir ou em fazer uma apresentação podem subscrever a lista de contactos enviando um email para seminarios-mlpb-request@freelists.org com “Subscribe” no campo 'Assunto' ou visitando a página da lista em http://www.freelists.org/list/seminarios-mlpb. A discussão relativa à organização dos seminários e calendário das apresentações terá lugar na lista. Todas as sugestões são bem-vindas!

Como nas edições anteriores, os seminários disponibilizam uma refeição grátis servida aos participantes.

terça-feira, 3 de janeiro de 2012

Números de 2011 (II) ou “O que terá acontecido ao amor?”

Ainda em balanços relativos a 2011, averiguou-se (sem recurso a votações...) quais as palavras mais consultadas no Dicionário Priberam da Língua Portuguesa durante o ano passado. Os números, referentes ao período de 1 de Janeiro de 2011 a 31 de Dezembro de 2011, estão disponíveis nos gráficos abaixo.


Em mais de 220 milhões de consultas feitas ao longo do ano, verificou-se que a palavra mais consultada no Dicionário Priberam em 2011 foi nostalgia, com mais de 185 mil consultas. Será um reflexo da recente vaga de emigração (portuguesa e não só)? Ou será porque a UNESCO distinguiu o fado com o estatuto de património imaterial da humanidade?

A segunda palavra mais consultada foi amor, que alcançou o primeiro lugar em 2010, mas cujas buscas, no entanto, foram diminuindo ao longo deste ano. O que terá acontecido ao amor no segundo semestre de 2011?


Em terceiro lugar, surge a palavra escopo. O gráfico geral mostra ainda que o par mal / mau, frequentemente pronunciado no Brasil de modo semelhante, continua no topo das palavras mais consultadas no Dicionário Priberam.

Os números acima não mostram que no dia 21 de Setembro de 2011 foram feitas mais de 880 mil consultas, o maior número registado num só dia. Também não mostram que os erros ortográficos mais consistentemente pesquisados foram *excessão, *concerteza, *compania, *quizer e *buceta.

Números de 2011 (I)

Em 2011, o número de acessos aos sites da Priberam revela um aumento significativo relativamente ao ano anterior.

O site do FLiP (que inclui auxiliares de tradução, conjugador, corrector ortográfico e sintáctico, conversor para o Acordo Ortográfico, dúvidas linguísticas, gramática e vocabulário), regista uma subida discreta, com mais de 2,5 milhões de visitantes únicos e 4,9 milhões de visitas.

O aumento é sobretudo bem visível no site do Dicionário Priberam da Língua Portuguesa, com mais de 25 milhões de visitantes únicos e 66 milhões de visitas (mais 6 milhões do que em 2010!).

A lista dos 10 países que mais contribuíram com visitantes inclui, por ordem decrescente, Brasil, Portugal, Estados Unidos da América, Espanha, França, Reino Unido, Alemanha, Angola, Itália e Moçambique. Mas também chegaram visitantes oriundos de zonas tão distintas como Cidade do Vaticano, Fiji, Serra Leoa, Vanuatu, Iémen, Lesoto, Papua Nova Guiné, Djibuti, Turquemenistão, São Pedro e Miquelão, Togo ou Laos.

Na proveniência por cidades, regista-se uma hegemonia brasileira, entremeada pelas cidades portuguesas de Lisboa e Porto: São Paulo, Rio de Janeiro, Lisboa, Belo Horizonte, Brasília, Porto, Salvador... e outras cidades brasileiras até à posição 20!

Por fim, e como as novas tecnologias permitem aceder ao Dicionário Priberam através de dispositivos móveis, os sistemas mais usados foram iOS (iPhone, iPad, iPod Touch), Android e SymbianOS.

quinta-feira, 22 de dezembro de 2011

Últimas sobre o Acordo Ortográfico #2

“Nem grande entusiasmo, nem grande rejeição” – é este o balanço que o jornal Público faz dos primeiros três meses de aplicação do novo Acordo Ortográfico (AO) no ensino oficial em Portugal.

Segundo o artigo publicado no passado dia 17 de Dezembro, apesar de, no geral, o clima de aceitação do AO nas escolas portuguesas ser morno, havendo aceitação e discordância q.b., persistem confusões. Uma delas é esta:

«Algumas bases são extremamente subjectivas”, diz [Edviges Ferreira, presidente da Associação de Professores de Português]. “Sobretudo no que diz respeito ao uso do ‘p’ e do ‘c’, em que, em muitos casos, a pessoa pode escrever conforme lhe apetecer. Se disser Egito escreve sem ‘p’, mas se disser Egipto escreve com ‘p’.
Mas depois o acordo contradiz-se.” E como faz para resolver essas contradições quando está a dar formação? “Explico isso, e aconselho os colegas a ensinar os meninos a escrever como dizem. Nesse caso, o professor não os pode penalizar”.»

Curiosamente, e como já aqui se explicou, a palavra Egito surge no texto legal do AO como um exemplo claro em que a consoante “p” não se pronuncia, pelo que não se trata de um caso de dupla grafia.

Outra confusão é a que diz respeito ao hífen de cor-de-rosa:

«Também Ana Soares diz que as dificuldades que têm surgido resultam de regras cuja lógica nem sempre é perceptível – por exemplo, o hífen, que deixa de existir em cor-de-rosa, mas não em cor-de-laranja [sic]. Curiosamente, é o mesmo exemplo que Fátima Gomes utiliza para lamentar que a questão da hifenização “tenha muitas excepções, e depois excepções dentro das excepções.”»

Contrariamente ao que é dito acima, à luz do novo AO, cor-de-rosa mantém o hífen mas cor-de-laranja perde-o (ver ponto 6.º da Base XV). Esta não é, porém, uma inovação do AO, pois tal incongruência – a escrita de cor-de-rosa com hífen mas de cor de laranja sem hífen – já acontecia na norma anterior (ver alínea b da Base XXVIII do Acordo Ortográfico de 1945 e Tratado de Ortografia da Língua Portuguesa, Coimbra, Atlântida, 1947, p. 202, n.º 2 e p. 243, n.º 4).

Aguarda-se que a publicação do Vocabulário Ortográfico Comum (previsto no art. 2.º do AO), recentemente anunciado para 2014, esclareça de vez estas e outras confusões.

Entretanto, com ou sem confusões, a adopção efectiva do AO na Assembleia da República e em todos os serviços, organismos e entidades dependentes do Governo, bem como no Diário da República, entra em vigor já a partir de 1 de Janeiro de 2012.





Priberamt
.