Pesquisas em Processamento de Linguagem Natural e Lingüística de Corpus têm tido um desenvolvimento significativo nas últimas décadas, em especial na Europa e mais recentemente nos Estados Unidos. No Brasil, no entanto, essas áreas ainda não estão amplamente difundidas, pois se concentram em algumas universidades apenas. O objetivo da Escola - inspirada na I Escola de Verão da Linguateca, realizada no Porto, em Portugal, em 2006 - é tornar esse conhecimento acessível a um público mais amplo, familiarizando-o com conceitos e abordagens relacionados à construção e exploração de corpora, ao tratamento do léxico em suas várias modalidades (dicionários, glossários, ontologias) e à tradução automática, oferecendo-lhe também a oportunidade de ter uma experiência prática nessas áreas..
A Escola constará de seis módulos, o último dos quais é opcional:
1. Introdução ao Processamento de Linguagem Natural (PLN)
2. Corpus: conceitos, técnicas e abordagens; compilação e balanceamento; corpus histórico; corpus comparável; corpus paralelo.
3. Léxico: conceitos, técnicas, abordagens; léxico bilíngüe, ontologias, tesauri.
4. Aplicações e sistemas: tradução automática; ferramentas de auxílio à escrita científica; sumarização automática; NLTK.
5. Abordagens e métodos: redes neurais.
6. Programação para Lingüistas: noções básicas de programação especialmente direcionadas às necessidades de lingüistas.
As aulas constarão de uma introdução teórica ao tópico a ser abordado, seguida de uma parte prática em que o aluno resolverá problemas propostos pelos instrutores.
1. Construção de Corpora Históricos
Docentes: Sandra Maria Aluísio (ICMC-USP/São Carlos) e Marcelo Finger (IME/USP)
Parte 1: O projeto Dicionário Histórico do Português do Brasil - Sandra Maria Aluísio
1) O projeto Dicionário Histórico do Português do Brasil (DHPB) dos séculos XVI, XVII e XVIII, do programa Institutos do Milênio (CNPq)
2) Problemas e algumas soluções para a construção de córpus históricos:
2a) abreviaturas (alta densidade, ambiguidade e variações de grafia das abreviaturas). O dicionário de abreviaturas do projeto DHPB
2b) variação de grafia (como acessar o conjunto das variações de grafia de uma palavra para mostrar a freqüência do conjunto). O dicionário de variações de grafia do projeto DHPB
2c) codificação de caracteres que cairam em desuso. Uso do Unicode e a necessidade de padronizar as escolhas dos códigos.
2d) Tipologia de textos diferente das usuais para córpus comtemporâneos. Qual tipologia usar? Como anotar de forma automática o metadado gênero textual?
2e) anotação dos metadados e dos textos. Uso de padrões internacionais como o TEI.3) Processadores de córpus mais adaptados córpus históricos. O Philologic e o Unitex - uma análise comparativa.
4) Tarefa: criação de verbetes para um dicionário histórico usando o córpus do projeto DHPB - exemplo dos campos utilizados no projeto DHPB e o uso do Unitex e Philologic na criação dos verbetes. Uso dos dicionários de abreviaturas e de variação de grafia para ajudar na tarefa de criação de verbetes.
Parte 2: Construção do Córpus Tycho Brahe – Marcelo Finger
1) Contexto da construção do córpus
2) Objetivos do córpus
3) Público alvo
4) Metodologia científica e córpus livre
5) Problemas endereçados
5a) Codificação
5b) Segmentação
5c) Seleção de etiquetas
6) Uso de Córpus Etiquetado
7) Tarefa:
7a) Contagem de próclises
7b) Busca de ocorrências de interpolação entre clíticos e verbo
2. Construção de Corpora de Especialidade
Docentes: Ana Frankenberg-Garcia (ISLA e FCCN) e Stella E. O. Tagnin (DLM/FFLCH/USP)
Parte 1: Corpora Paralelos - Ana Frankenberg-Garcia
Parte 2: Corpora Comparáveis – Stella E. O. Tagnin
1) O que são corpora comparáveis
2) Como selecionar, coletar, preparar e armazenar os textos
4)Como balancear o corpus
4) Como extrair equivalentes tradutórios
5) Tarefa: Extração de equivalentes tradutórios a partir de um corpus já coletado.
Docentes: Oto Araújo Vale (DL/UFSCar) e Gladis Maria de Barcellos Almeida (DL/UFSCar)
Parte 1: A teoria
1) Lexicologia: Fundamentos e Tarefas
2) Unidade léxica: a palavra? Critérios de delimitação e de definição
3) Terminologia: o que é e como se faz?
Parte 2: A prática
Aplicações do Unitex em textos, com finalidades lexicológicas e terminológicas, especificamente: utilização do dicionário eletrônico do Unitex, concordanciador, lista de palavras (freqüência e ordem alfabética), buscas simples de palavras e buscas por meio de grafos.
Sobre o Unitex (http://www-igm.univ-mlv.fr/~unitex/)
Unitex é um sistema de processamento de corpus criado na Université Marne-La-Vallée, a partir dos trabalhos no LADL (Laboratoire d’Automatique Documentaire et Linguistique) . Com esta ferramenta, é possível realizar análises de corpus nos níveis da morfologia, do léxico e da sintaxe por meio de recursos, tais como dicionários eletrônicos e gramáticas locais.
1. Tradução Automática
Docente: Ronaldo Martins (Mackenzie)
Parte 1: A teoria
1) Tradução Automática: o que é
2) História da tradução automática
3) Abordagens, modelos e técnicas de tradução automática
4) Avaliação de sistemas de tradução automática
Parte 2: A prática
Avaliação de sistemas de tradução automática por meio do protocolo BLEU.
2. Ferramentas de Auxílio à Escrita Científica
Docente: Sandra Maria Aluísio (ICMC/USP/S.Carlos)
3. Sumarização Automática
Docente: Thiago Salgueiro Pardo (ICMC/USP/S.Carlos)
Nesta apresentação, os alunos serão introduzidos à área de Sumarização Automática de textos (SA), a qual, diante da enorme quantidade de informação disponível atualmente e do tempo cada vez menor que as pessoas têm para apreender tal informação, tem recebido grande destaque e despertado interesses acadêmicos e comerciais. Será apresentado o histórico da área, desde seu surgimento na década de 50 até os mais recentes avanços. As abordagens ao problema tradicionalmente definidas como superficial e profunda serão discutidas, enfocando-se os métodos desenvolvidos, os resultados obtidos e as ferramentas, teorias e recursos lingüístico-computacionais necessários, como analisadores sintáticos e semânticos automáticos, teorias discursivas e córpus, entre vários outros. Alguns sistemas de SA disponíveis para uso serão apresentados e exemplos de sumários produzidos automaticamente serão exibidos e analisados, mostrando-se as potencialidades e limitações dos métodos atuais. Por fim, serão discutidos os critérios e ferramentas de avaliação de sumários, tema altamente relevante no cenário atual de desenvolvimento de sistemas de SA. Ao fim desta apresentação, os alunos deverão dominar os conceitos básicos da área, ter um bom entendimento das abordagens e métodos de SA e ser capazes de pesquisar por si sós e desenvolver aplicações na área, quer para fins próprios, de pesquisa ou comerciais.
4. Ferramentas de Processamento Lingüístico: NLTK - The Natural Language Tool Kit
Docente: Steven Bird (University of Melbourne, Austrália)
Parte 1: A teoria
Apresentação e utilização das ferramentas que compõem o NLTK
Parte 2: A práticaReflexões teóricas que embasam a construção das ferramentas do NLTK.
Redes Neurais e PLN
Docente: Maurizio Babini (UNESP/SJRP)
A área de Redes Neurais Artificiais (RNAs), também conhecida como conexionismo ou sistema de processamento paralelo e distribuído, nasceu em 1943 com McCulloch e Pitts, que inventaram o primeiro neurônio artificial. Hoje, as Redes Neurais Artificiais são utilizadas em inúmeras aplicações e em áreas muito diferentes umas das outras: Matemática, Computação, Engenharia, Economia, Medicina, Psicologia e outras. Nosso minicurso tem como objetivo apresentar as Redes Neurais Artificiais (RNAs) e suas aplicações no Processamento da Linguagem Natural. Abordaremos aspectos históricos dessas redes (suas origens e desenvolvimento) e procederemos a uma comparação entre um modelo de neurônio biológico e de um neurônio artificial. Analisaremos ainda as principais estruturas de Redes Neurais Artificiais, mostrando os elementos de processamento, a conectividade, os tipos de funções de ativação e alguns exemplos de arquitetura de RNAs. Por fim, mostraremos alguns tipos de Redes Neurais Artificiais utilizadas no Processamento da Linguagem Natural.
Docente: Tony Berber Sardinha (PUC/SP)