MAT701 - Tópicos em Mecatrônica (2020.1)

 

Ementa: Processamento de Linguagem Natural.
Carga-horaria: 51h (3 creditos)
Horario: Terca-feira das 13h55 as 16h40
Conteúdo Programático: MAT701 - Topicos em Mecatronica

Planejamento das aulas

Aula 1 (03/03)- Apresentação da Disciplina. Avaliações.
Sophia Robot: https://www.youtube.com/watch?v=FcZGW2oeYF8
Bill Robot: https://www.youtube.com/watch?v=AciPnHpT9bg&list=PLWfa8yfHBJtlB580Xd4id8slCfO15T6b4

Aula 2
(10/03) - Defnição dos Trabalhos A e B. Visão Geral da PLN.
Leitura Complementar: História da PLN e PLN em Português
Leitura Complementar: https://www.inf.pucrs.br/linatural/Recursos/jaia-2001.pdf
Atividade 1: Analisar as sentenças imperativas de Bill.

Aula 3 (17/03) -Niveis de Analise Linguistica e Análise Morfológica Automatizada
Atividade 2: Criar regras manuais para anotação sintática (separador de sentenças, tokenizer e POS). Desenvolver um algoritmo básico para contar as sentenças, palavras e identificar as tag das palavras em um corpus anotado: Corpus: Macmorpho .

Avaliação: Concordancia: % de concordancia por TAG e % de concordancia por SENTENCA

Aula 4 (24/03) -Linguística de Corpus e Anotações
Leitura Complementar: Tagsets and Datasets: Some Experiments Based on Portuguese Language
Leitura complementar: WiRe57 : A Fine-Grained Benchmark for Open Information Extraction
Atividade 3:
Criar um tagset novo, pode ser baseado no tagset do Macmorpho, e anotar manualmente um corpus com este tagset proposto. Validar a anotação manual e ajustar o algoritmo de regras para anotar automaticamente.
1. Criar guia de anotação
- Quais as tags e quando as tags devem ser utilizadas.
2. Fazer a anotação individualmente
3. Fazer a concordância entre os anotadores geral e por tags
4. Propor explicações e possíveis alterações no guia
5. Ajustar o algoritmo para o novo tagset
WIKI50 - download

Aula 5 (31/03) - Análise Sintática Automatizada: sintagmas nominais, verbais, preposicionais (parsing, tipos, avaliações e recursos para o PT)
Atividade 4: Criar regras manuais para anotação sintática (Chunker)

Aula 6 (07/04)- Técnicas para Processamento da análise linguística Automatizada - n-grama e Markov
Leitura complementar: Word Embeeding e Word Embeeding 2 e Word Embeeding 3
Leitura complementar: A Maximum Entropy Approach to Natural Language Processing In Journal Computational Linguistics Volume 22 Issue 1, March 1996. Pages 39-71 MIT Press Cambridge, MA, USA
Leitura complementar: Attention is all you need (Tansformers) - https://arxiv.org/abs/1706.03762
BERT- https://arxiv.org/abs/1810.04805
GPT - https://openai.com/blog/language-unsupervised/
GPT-2 - https://openai.com/blog/better-language-models/
Transfer Learning - Machine Learning's Next Frontier - http://ruder.io/transfer-learning/
Atividade 5:
Apresentar um dos modelos de linguagens.

Aula 7(14/04)- PLN e Aprendizagem de Máquina
Links: http://scikit-learn.org/stable/
https://opennlp.apache.org/
https://www.nltk.org


Aula 8
(28/04) - PLN e Intenção
Atividade 6:apresentação um artigo que sirva de norteador para a implementação da intenção em Bill.

Aula 9
(05/05) - PLN e Robótica

Aula 10 (12/05) - Trabalho A- Reconhecimento de intenção nas sentenças de Bill (REBUTTAL)

Aula 11 (19/05)- Trabalho A- Versão Final - apresentação aos membros externos

Aula 12 (26/05)- Compreensão de maquina e sistemas de Perguntas e Respostas (QA Systems)
Atividade 7: Apresentar artigo sobre QA e a Robótica

Aula 13 (02/06)-Reconhecimento de Entidades Nomeadas (O que é REN, avaliações e recursos para PT)
Atividade 7:
Apresentar em sala um artigo REN e QA

Aula 14 (09/06)-
Extração de Informação e extração de informação aberta em PT
Exemplos: DPTOIE, DependentIE, ArgOE, DepOE e ler artigos do Reverb (site) , Clausie, DepOE, ArgOE

Open Information Extraction from Conjunctive Sentences
A Survey on Open Information Extraction
Open Information Extraction Systems and Downstream Applications
Open Information Extraction from Question-Answer Pairs
Atividade 9: Apresentar em sala um artigo sobre OpenIE e QA

Aula 15 (16/05)- Textual Entailment (Inferência textual)
Atividade 10: Implementar um método para reconhecimento de inferência textual sobre os dados do ASSIN2

Aula 16 (30/06)-Trabalho B - Ampliação das inferências nos questionários de perguntas e respostas de Bill (REBUTTAL)

Aula 17 (07/07)- Trabalho B - Versão Final - apresentação aos membros externos
- Definir dataset

- Metodologia
- Método
- Avaliação.
Entregar os slides via SIGAA.

##Leitura Complementar:
Inovação em PLN (Neural, Crosslingual, Multilingual)
- Word Translation without paralell data
- Learning Multilingual Word Embeddings in Latent Metric Space: A Geometric Approach
- Multilingual Open Relation Extraction Using Cross-lingual Projection
- Multilingual Relation Extraction using Compositional Universal Schema

Artigos interessantes no EMNLP, ACL, COLLING, STIL, PROPOR, ECAI, BRACIS:
An empirical comparison of distance/similarity measures for Natural Language Processing
Sentence Classification and Information Retrieval for Petroleum Engineering

 

Avaliações: Trabalho A (Peso 3,5)+ Trabalho B (Peso 4,5) + Atividades (Peso 2,0)