Sobre a Escola

 

Pesquisas em Processamento de Linguagem Natural e Lingüística de Corpus têm tido um desenvolvimento significativo nas últimas décadas, em especial na Europa e mais recentemente nos Estados Unidos. No Brasil, no entanto, essas áreas ainda não estão amplamente difundidas, pois se concentram em algumas universidades apenas. O objetivo da Escola - inspirada na I Escola de Verão da Linguateca, realizada no Porto, em Portugal, em 2006 -  é tornar esse conhecimento acessível a um público mais amplo, familiarizando-o com conceitos e abordagens relacionados à construção e exploração de corpora, ao tratamento do léxico em suas várias modalidades (dicionários, glossários, ontologias) e à tradução automática, oferecendo-lhe também a oportunidade de ter uma experiência prática nessas áreas..

 

A Escola constará de seis módulos, o último dos quais é opcional:

1. Introdução ao Processamento de Linguagem Natural (PLN)

2. Corpus: conceitos, técnicas e abordagens; compilação e balanceamento; corpus histórico; corpus comparável; corpus paralelo.

3. Léxico: conceitos, técnicas, abordagens; léxico bilíngüe, ontologias, tesauri.

4. Aplicações e sistemas: tradução automática; ferramentas de auxílio à escrita científica; sumarização automática; NLTK.

5. Abordagens e métodos: redes neurais.

6. Programação para Lingüistas: noções básicas de programação especialmente direcionadas às necessidades de lingüistas.

As aulas constarão de uma introdução teórica ao tópico a ser abordado, seguida de uma parte prática em que o aluno resolverá problemas propostos pelos instrutores.

 

Módulo 1 - Introdução ao Processamento de Linguagem Natural

Docente: Maria das Graças Volpe Nunes (ICMC-USP/São Carlos)

 

voltar

 

Módulo 2 - Corpus

 

1. Construção de Corpora Históricos

Docentes: Sandra Maria Aluísio (ICMC-USP/São Carlos) e Marcelo Finger (IME/USP)

Parte 1: O projeto Dicionário Histórico do Português do Brasil  - Sandra Maria Aluísio

1) O projeto Dicionário Histórico do Português do Brasil (DHPB) dos séculos XVI, XVII e XVIII, do programa Institutos do Milênio  (CNPq)
2) Problemas e algumas soluções para a construção de córpus históricos:
  2a) abreviaturas (alta densidade, ambiguidade e variações de grafia das abreviaturas). O dicionário de abreviaturas do projeto DHPB
  2b) variação de grafia (como acessar o conjunto das variações de grafia de uma palavra para mostrar a freqüência do conjunto). O dicionário de variações de grafia do projeto DHPB
  2c) codificação de caracteres que cairam em desuso. Uso do Unicode e a necessidade de padronizar as escolhas dos códigos.
  2d) Tipologia de textos diferente das usuais para córpus comtemporâneos. Qual tipologia usar? Como anotar de forma automática o metadado gênero textual?
  2e) anotação dos metadados e dos textos. Uso de padrões internacionais como o TEI.

3) Processadores de córpus mais adaptados córpus históricos. O Philologic e o Unitex - uma análise comparativa.
4) Tarefa: criação de verbetes para um dicionário histórico usando o córpus do projeto DHPB - exemplo dos campos utilizados no projeto DHPB e o uso do Unitex e Philologic na criação dos verbetes. Uso dos dicionários de abreviaturas e de variação de grafia para ajudar na tarefa de criação de verbetes.

Parte 2: Construção do Córpus Tycho Brahe –  Marcelo Finger

1) Contexto  da construção do córpus
2) Objetivos do córpus
3) Público alvo
4) Metodologia científica e córpus livre
5) Problemas endereçados
    5a) Codificação
    5b) Segmentação
    5c) Seleção de etiquetas
6) Uso de Córpus Etiquetado
7) Tarefa:
     7a) Contagem de próclises
     7b) Busca de ocorrências de interpolação entre clíticos e verbo

2. Construção de Corpora de Especialidade

Docentes: Ana Frankenberg-Garcia (ISLA e FCCN) e Stella E. O. Tagnin (DLM/FFLCH/USP)

Parte 1: Corpora Paralelos - Ana Frankenberg-Garcia

 

Parte 2: Corpora Comparáveis – Stella E. O. Tagnin

1) O que são corpora comparáveis

2) Como selecionar, coletar, preparar e armazenar os textos

4)Como balancear o corpus

4) Como extrair equivalentes tradutórios

5) Tarefa: Extração de equivalentes tradutórios a partir de um corpus já coletado.

voltar

 

Módulo 3 – Léxico

Docentes: Oto Araújo Vale (DL/UFSCar) e Gladis Maria de Barcellos Almeida (DL/UFSCar)

 

Parte 1: A teoria

1) Lexicologia: Fundamentos e Tarefas

2) Unidade léxica: a palavra? Critérios de delimitação e de definição

3) Terminologia: o que é e como se faz?

Parte 2: A prática

Aplicações do Unitex em textos, com finalidades lexicológicas e terminológicas, especificamente: utilização do dicionário eletrônico do Unitex, concordanciador, lista de palavras (freqüência e ordem alfabética), buscas simples de palavras e buscas por meio de grafos.

Sobre o Unitex (http://www-igm.univ-mlv.fr/~unitex/)

Unitex é um sistema de processamento de corpus criado na Université Marne-La-Vallée, a partir dos trabalhos no LADL (Laboratoire d’Automatique Documentaire et Linguistique) . Com esta ferramenta, é possível realizar análises de corpus nos níveis da morfologia, do léxico e da sintaxe por meio de recursos, tais como dicionários eletrônicos e gramáticas locais.

 

voltar

 

Módulo 4 – Aplicações e Sistemas

 

1. Tradução Automática

Docente: Ronaldo Martins (Mackenzie) 

Parte 1: A teoria

1) Tradução Automática: o que é

2) História da tradução automática

3) Abordagens, modelos e técnicas de tradução automática

4) Avaliação de sistemas de tradução automática

Parte 2: A prática

Avaliação de sistemas de tradução automática por meio do protocolo BLEU.

2. Ferramentas de Auxílio à Escrita Científica

Docente: Sandra Maria Aluísio (ICMC/USP/S.Carlos)

 

3. Sumarização Automática

Docente: Thiago Salgueiro Pardo (ICMC/USP/S.Carlos)

Nesta apresentação, os alunos serão introduzidos à área de Sumarização Automática de textos (SA), a qual, diante da enorme quantidade de informação disponível atualmente e do tempo cada vez menor que as pessoas têm para apreender tal informação, tem recebido grande destaque e despertado interesses acadêmicos e comerciais. Será apresentado o histórico da área, desde seu surgimento na década de 50 até os mais recentes avanços. As abordagens ao problema tradicionalmente definidas como superficial e profunda serão discutidas, enfocando-se os métodos desenvolvidos, os resultados obtidos e as ferramentas, teorias e recursos lingüístico-computacionais necessários, como analisadores sintáticos e semânticos automáticos, teorias discursivas e córpus, entre vários outros. Alguns sistemas de SA disponíveis para uso serão apresentados e exemplos de sumários produzidos automaticamente serão exibidos e  analisados, mostrando-se as potencialidades e limitações dos métodos atuais. Por fim, serão discutidos os critérios e ferramentas de avaliação de sumários, tema altamente relevante no cenário atual de desenvolvimento de sistemas de SA. Ao fim desta apresentação, os alunos deverão dominar os conceitos básicos da área, ter um bom entendimento das abordagens e métodos de SA e ser capazes de pesquisar por si sós e desenvolver aplicações na área, quer para fins próprios, de pesquisa ou comerciais.

4. Ferramentas de Processamento Lingüístico: NLTK - The Natural Language Tool Kit

Docente: Steven Bird (University of Melbourne, Austrália)

Parte 1: A teoria

Apresentação e utilização das ferramentas que compõem o NLTK


Parte 2: A prática

Reflexões teóricas que embasam a construção das ferramentas do NLTK.

voltar

 

Módulo 5 – Abordagens e Métodos

 

Redes Neurais e PLN
Docente: Maurizio Babini (UNESP/SJRP)

A área de Redes Neurais Artificiais (RNAs), também conhecida como conexionismo ou sistema de processamento paralelo e distribuído, nasceu em 1943 com McCulloch e Pitts, que inventaram o primeiro neurônio artificial. Hoje, as Redes Neurais Artificiais são utilizadas em inúmeras aplicações e em áreas muito diferentes umas das outras: Matemática, Computação, Engenharia, Economia, Medicina, Psicologia e outras. Nosso minicurso tem como objetivo apresentar as Redes Neurais Artificiais (RNAs) e suas aplicações no Processamento da Linguagem Natural. Abordaremos aspectos históricos dessas redes (suas origens e desenvolvimento) e procederemos a uma comparação entre um modelo de neurônio biológico e de um neurônio artificial. Analisaremos ainda as principais estruturas de Redes Neurais Artificiais, mostrando os elementos de processamento, a conectividade, os tipos de funções de ativação e alguns exemplos de arquitetura de RNAs. Por fim, mostraremos alguns tipos de Redes Neurais Artificiais utilizadas no Processamento da Linguagem Natural.

voltar

 

Módulo 6 –  Programação para Lingüistas

Docente: Tony Berber Sardinha (PUC/SP)

 

voltar