Navegando por Orientador "Sanches, Ivandro"

Agora exibindo 1 - 4 de 4

Biometria multimodal baseada nos sinais de voz e facial
(2018) Parada, M. G. O.
Um sistema biométrico consiste no uso de informações biológicas ou comportamentais para reconhecimento de indivíduos, aplicadas em propósitos de segurança, acesso automático e ciência forense. Sua confiabilidade depende diretamente da qualidade da captura dos dados e precisão da etapa de processamento de sinal, seja ela um sinal de áudio, vídeo, imagens ou outras sequências temporais. Um dos principais desafios é a captura do sinal para ser utilizado na etapa de reconhecimento, já que algumas modalidades biométricas podem ser comprometidas dependendo da influência de fatores externos. Por exemplo, um sistema de identificação por imagem pode falhar se a luz ambiente não for adequada durante a captura e o desempenho de um sistema de reconhecimento por voz pode ser severamente degradado na presença de ruído ambiente. Até mesmo o simples incorreto posicionamento do usuário perante a localização do sensor biométrico pode ser um fator prejudicial para o processamento das informações e, por este motivo, o uso de modalidades biométricas baseadas em múltiplas características biológicas ou comportamentais, conhecidas como multimodais, vêm sendo aplicadas de forma a conferir maior robustez ao sistema. Esta tese propõe a combinação de características de movimento da região facial, especificamente da região labial, através da aplicação da Transformada Discreta de Cossenos (DCT) aos vetores de movimento de um vídeo MPEG, em conjunto com características extraídas do sinal de voz, resultando em: um método para detecção de atividade de voz e remoção de silêncio; fusão de parâmetros extraídos do movimento e do áudio para finalidade de verificação automática de locutor; um método para extração da região labial baseado na média do movimento ao longo do tempo. A proposta faz uso de parâmetros já presentes em vídeo codificado em MPEG, eliminando a necessidade da etapa do cálculo dos parâmetros de movimento. Os testes biométricos foram realizados com uso da base de dados XM2VTS em diversas condições de relações de sinal-ruído no áudio e avaliados seguindo protocolo Lausanne. O desempenho do sistema foi comparado com diferentes propostas de biometria multimodal, obtendo resultados promissores para utilização em aplicações comerciais.
Estudo e aplicação da técnica de matching pursuit na classificação entre sinais de voz e silêncio
(2012) Claser, R.
As transformadas de Fourier e Wavelet são as representações/transformações mais comumentes utilizadas para se referir a um dado sinal, por serem rápidas e fáceis de se manipular. Porém, em casos em que a representação é construída a partir da seleção de elementos de conjuntos redundantes chamados de dicionários, o uso de técnicas alternativas que permite uma maior esparsidade (dispersão) se faz necessário. Dessa forma, o objetivo deste trabalho visa buscar dicionários adequados de forma a solucionar o problema de se classificar trechos de sinal entre voz e silêncio utilizando dicionários redundantes e representação esparsa de sinais. Para esse fim, constrói-se um dicionário redundante de funções básicas (átomos) e analisa-se o sinal de voz via Matching Pursuit. Dessa análise, fase de treinamento, obtém-se a distribuição de probabilidade discreta a priori de ocorrência do conjunto de átomos para cada classe de interesse, permitindo a discriminação a posteriori entre as classes. Surpreendentemente, a técnica mencionada anteriormente não se baseia na variação de níveis de energia ao longo do sinal, mas nas características fundamentais que determinam a essência de cada uma dessas duas classes de sinais, nominalmente voz e silêncio. Entretanto, devido a ineficiência apresentada pela mesma, precisou-se utilizar os pesos dos átomos, os quais contém informação de energia, de forma a melhorar e refinar a classificação desempenhada pelo algoritmo.
Proposta de hardware para aquisição simultânea multicanal e sua aplicação na localização de fontes sonoras
(2015) Ferreira, M. L. C.
Redução de ruídos laterais explorando a direcionabilidade de arranjo de microfones
(2013) Cyrulnik, R.
Comunicação em ambientes ruidosos é um grande desafio para trabalhadores, militares e policiais pois os dispositivos de comunicação como rádios comunicadores ou telefones celulares utilizados nessas áreas captam a voz do locutor adicionada ao ruído, prejudicando a comunicação com o receptor. Um usuário que utiliza o Skype em um notebook, um smartphone ou um tablet em um aeroporto, por exemplo, pode ter a comunicação de sua voz prejudicada devido ao ruído inerente desse ambiente. Esses dispositivos podem ser equipados com um arranjo de microfones e um algoritmo para atenuar o ruído ambiente e preservar o sinal sonoro desejado para que a comunicação entre transmissor e receptor seja eficiente. Algoritmos de beamforming podem ser empregados convenientemente nesse cenário. Beamforming é um método de filtragem espacial que preserva os sinais desejados atenuando o ruído. Este trabalho apresenta a técnica beamformer MVDR, desde os seus conceitos teóricos, sua implementação até os resultados práticos. Os sinais sonoros para realizar os experimentos com o algoritmo foram obtidos através de dois métodos: simulações através do toolbox Phased Array System do MATLAB (MATHWORKS, 2012) e simulações através de respostas ao impulso fornecidas por um experimento com arranjo de microfones em uma câmara varecóica (H¨aRM¨a, 2001). Durante os ensaios, alguns parâmetros do beamformer MVDR foram variados para a verificação do seu comportamento. Um parlametro muito importante no beamformer MVDR é o vetor direção que indica qual o azimute e elevação deverá ter o sinal desejado. Foram realizadas variações nesse parâmetro e os resultados demonstraram alterações efetivas na direcionabilidade do algoritmo. O descasamento entre os microfones no arranjo são uma grande preocupação quando utilizados com um beamformer. Neste trabalho, foram realizados ensaios para verificar os efeitos da discrepância entre os microfones. Para minimizar os efeitos do descasamento entre os microfones, foram sugeridas variações em um parâmetro intrínseco do beamformer MVDR chamado de constante de regularização. Essa variação se mostrou eficiente aumentando a robustez do algoritmo contra a discrepância entre os microfones. Foi sugerido também um método de calibração para os microfones que se mostrou eficiente em ambientes contendo ruídos estacionários.