MATB10 - Tópicos em Banco de Dados (2021.1)

 

Ementa: Processamento de Linguagem Natural.
Conteúdo Programático: MATB10 - Tópicos em Banco de Dados
Carga-horaria: 51h (3 creditos)
Horario: Quinta feira das 20h20 as 22h10 (síncrono) e horário a combinar (assíncrono)
Meet para as aulas síncronas: meet.google.com/sac-ufkb-psr - acesso via email UFBA
Equipes: Nome da equipe e Componentes aqui


Planejamento das aulas

Aula 1 (04/03)- Apresentação da Disciplina: Introdução a PLN. Avaliações.
Leitura Complementar: https://www.inf.pucrs.br/linatural/Recursos/jaia-2001.pdf
Aula assíncrona:
Baixar 100 tweets sobre um determinado assunto/domínio. Exemplos de assuntos/domínios: Covid-19, Vacina, Máscara, etc.

Estudos de pacotes para PLN:
http://scikit-learn.org/stable/
https://opennlp.apache.org/
https://www.nltk.org


Aula 2
(11/03) - Linguística de Corpus e Anotações
Leitura Complementar: Tagsets and Datasets: Some Experiments Based on Portuguese Language
Aula assíncrona:
Criar um corpus novo com a normalização dos 100 tweets.
Exemplo de corpus: WIKI50

Aula 3 (18/03) -Níveis de Analise Linguistica e Análise Lexical e Morfológica Automatizada - Tokenização, Stemming e Lematização
Equipe 3: Jefferson Brito, Rafael Coelho, Enrique Wicks
Equipe 7: Marcos Adriano, Lucas Carvalho, Ana Carolina Cerqueira

Leitura Complementar: História da PLN e PLN em Português
Aula assíncrona: Separar as sentenças, tokenizar e lemmatizar. Desenvolver um algoritmo básico para contar as sentenças, palavras. Lemmatizar e Stemmizar para contar os lemmas encontrados no corpus do tweets original e normalizado.

A avaliação # de sentenças, # de tokens, # de lemmas total e por sentença.

Aula 4 (25/03) - Bag-of-Words + TF-IDF, Medidas de Distância
Equipe Sem Criatividade: Jonathan Bispo dos Santos, Thiago de Oliveira Santos, Rodrigo Alencar
Equipe 6: Ícaro Erasmo Barreiro, Rogério Silva, Laion Silva

Leitura Complementar: An empirical comparison of distance/similarity measures for Natural Language Processing - Bracis 2019
Aula assíncrona: Desenvolver um algoritmo que permita relacionar os tweets originais (sem normalização) e tweets normalizados através de medidas de distância.

Aula 5 (01/04) - Modelos de Word Embeedings: Word2Vec, Fasttext
Equipe 1: Edilberto Cesar
Equipe 8: José Fernando Gonçalves, Emanuel Vieira, Roberto Rangel
Aula assíncrona: Desenvolver um algoritmo que permita utilizar o Word2Vec e Fasttext para a analisar a similaridade dos Tweets normallizado e sem normalizar.

Aula 6 (08/04)- Modelos de Word Embeedings: ELMo, DistilBERT
Equipe 4: Julliane Freitas, Pedro Guimarães, Venâncio Oliveira
Equipe 5: Jurgen Fink Júnior, Edilberto,
Word Embeeding e Word Embeeding 2 e Word Embeeding 3
Leitura complementar: Attention is all you need (Transformers) - https://arxiv.org/abs/1706.03762
BERT- https://arxiv.org/abs/1810.04805

Aula assíncrona: Desenvolver um algoritmo que permita utilizar o ELMO e DistilBERT para a analisar a similaridade dos Tweets normalizado e sem normalizar.

Aula 7(15/04)- Tira dúvidas

Aula 8
(22/04) - Trabalho A -Desenvolver um algoritmo para verificar a similaridade dos tweets com os títulos das notícias do portal G1 ou Fake news do portal #FatoOuFake ou de algum portal de notícias.


Aula 9 (29/04) - Análise Sintática Automatizada: sintagmas nominais, verbais, preposicionais (parsing, tipos, avaliações e recursos para o PT e Universal Dependency, o que é um UD? Quais UDs existem para PT e para quais tarefas? )
Assíncrona: Slides do UD

Aula 10 (06/05) - Parsing - Pos Tagger(Cogroo, NLTK, Spacy, UD, Stanford, NILC) e Chunker(CRF, Cogroo)
Equipe 6: Ícaro Erasmo Barreiro
Equipe 8
: Emanuel Vieira, Roberto Rangel
Aula assíncrona: Utilizar um pos-tagger e um Chunker para rotular o corpus do Twitter e o corpus da Notícia para o PT. Fazer análise de erro entre a corpus do Twitter e o corpus de Noticias em relação ao Pos-Tagger e Chunker utilizado.. .


Aula 11 (13/05) - Analisador de Dependencia (PassPORT ou UD), Universal Dependencies, Parser de Stanford
Equipe Sem Criatividade: Jonathan Bispo dos Santos, Thiago de Oliveira Santos, Rodrigo Alencar
Equipe 5: Jurgen Fink Júnior, Edilberto,

Equipe 4: Venâncio Oliveira e Pedro Guimarães
Aula assíncrona: Utilizar um analisador de dependencia para rotular o corpus do Twitter e o corpus da Notícia para o PT. Fazer análise de erro entre a corpus do Twitter e o corpus de Noticias em relação ao Analisador de Dependencia utilizado.

Aula 12 (20/05) - Reconhecimento de Entidades nomeadas (BERTimbau, Spacy, NILC e PUC-RS). Apresentação dos POS Taggers no Tweet e Noticia
Equipe 7: Marcos Adriano, Lucas Carvalho
Equipe 3: Jefferson Brito, Rafael Coelho, Enrique Wicks


Aula assíncrona: Utilizar um REN para rotular o corpus do Twitter e o corpus da Notícia para o PT. Fazer análise de erro entre a corpus do Twitter e o corpus de Noticias em relação ao Analisador de Dependencia utilizado.

Aula 13 (27/05)- Apresentação de 2 Analisadores de Dependencia nos tweets e nas noticias, comparando-os entre si.

Aula 14 (03/06)- Apresentação de 2 NER nos tweets e nas noticias, comparando-os entre si.


Aula 15 (10/06)-
Técnicas para Processamento da análise linguística Automatizada - n-grama e Markov
Implementar um modelo simples probabilistico de Markov para que possa etiquetar o corpus do Twitter, sendo um POS (Part-Of-Speech), DP (Dependence Parser) ou REN (reconhecimento de entidades nomeadas).
Apresentar o TRABALHO B na aula síncrona.

Outras Tarefas da PLN:

Extração de Informação e extração de informação aberta em PT
Exemplos: DPTOIE, DependentIE, ArgOE, DepOE e ler artigos do Reverb (site) , Clausie, DepOE, ArgOE
Leitura complementar: WiRe57 : A Fine-Grained Benchmark for Open Information Extraction
https://sites.google.com/view/assin2/
Open Information Extraction from Conjunctive Sentences
A Survey on Open Information Extraction
Open Information Extraction Systems and Downstream Applications
Open Information Extraction from Question-Answer Pairs

Análise Semântica Automatizada - Tarefas da PLN - PLN e Classificação Textual
Leitura complementar: A Maximum Entropy Approach to Natural Language Processing In Journal Computational Linguistics Volume 22 Issue 1, March 1996. Pages 39-71 MIT Press Cambridge, MA, USA
Leitura complementar: Sentence Classification and Information Retrieval for Petroleum Engineering
Aula assíncrona: Implementar uma classificação textual para uma tarefa de Classificação Tópica ou Classificação de Fake News.


- Sumarização
- Transfer Learning - Machine Learning's Next Frontier - http://ruder.io/transfer-learning/

Inovação em PLN (Neural, Crosslingual, Multilingual)
- Word Translation without paralell data
- Learning Multilingual Word Embeddings in Latent Metric Space: A Geometric Approach
- Multilingual Open Relation Extraction Using Cross-lingual Projection
- Multilingual Relation Extraction using Compositional Universal Schema


Leitura Complementar: Robo-writers: the rise and risks of language-generating AI

Resultado Final: aqui


Avaliações: Trabalho A (Peso 3)+ Trabalho B (Peso 4) +Atividades (Peso 3)