MATB10 - Tópicos em Banco de Dados (2021.1)
Ementa: Processamento de Linguagem Natural.
Conteúdo Programático: MATB10
- Tópicos em Banco de Dados
Carga-horaria: 51h (3 creditos)
Horario: Quinta feira das 20h20
as 22h10 (síncrono) e horário a combinar
(assíncrono)
Meet para as aulas síncronas:
meet.google.com/sac-ufkb-psr
- acesso via email UFBA
Equipes: Nome
da equipe e Componentes aqui
Planejamento das aulas
Aula
1 (04/03)- Apresentação
da Disciplina: Introdução
a PLN. Avaliações.
Leitura Complementar: https://www.inf.pucrs.br/linatural/Recursos/jaia-2001.pdf
Aula
assíncrona: Baixar
100 tweets sobre um determinado assunto/domínio. Exemplos
de assuntos/domínios: Covid-19, Vacina, Máscara,
etc.
Estudos
de pacotes para PLN:
http://scikit-learn.org/stable/
https://opennlp.apache.org/
https://www.nltk.org
Aula 2
(11/03) - Linguística
de Corpus e Anotações
Leitura
Complementar: Tagsets
and Datasets: Some Experiments Based on Portuguese Language
Aula
assíncrona: Criar
um corpus novo com a normalização dos 100 tweets.
Exemplo de corpus:
WIKI50
Aula 3
(18/03) -Níveis
de Analise Linguistica e Análise
Lexical e Morfológica Automatizada - Tokenização,
Stemming e Lematização
Equipe 3: Jefferson Brito, Rafael Coelho,
Enrique Wicks
Equipe 7: Marcos Adriano, Lucas Carvalho, Ana Carolina Cerqueira
Leitura Complementar:
História
da PLN e PLN
em Português
Aula
assíncrona: Separar
as sentenças, tokenizar e lemmatizar. Desenvolver um algoritmo
básico para contar as sentenças, palavras. Lemmatizar
e Stemmizar para contar os lemmas encontrados no corpus do tweets
original e normalizado.
A avaliação # de sentenças,
# de tokens, # de lemmas total e por sentença.
Aula 4
(25/03) - Bag-of-Words
+ TF-IDF, Medidas de Distância
Equipe Sem Criatividade: Jonathan Bispo
dos Santos, Thiago de Oliveira Santos, Rodrigo Alencar
Equipe
6: Ícaro Erasmo Barreiro, Rogério Silva, Laion Silva
Leitura Complementar: An
empirical comparison of distance/similarity measures for Natural
Language Processing - Bracis 2019
Aula
assíncrona: Desenvolver
um algoritmo que permita relacionar os tweets originais (sem normalização)
e tweets normalizados através de medidas de distância.
Aula
5
(01/04) -
Modelos
de Word Embeedings: Word2Vec, Fasttext
Equipe 1: Edilberto Cesar
Equipe 8: José Fernando Gonçalves, Emanuel
Vieira, Roberto Rangel
Aula
assíncrona: Desenvolver um algoritmo que permita
utilizar o Word2Vec e Fasttext para a analisar a similaridade
dos Tweets normallizado e sem normalizar.
Aula
6
(08/04)-
Modelos
de Word Embeedings: ELMo, DistilBERT
Equipe 4: Julliane Freitas, Pedro Guimarães, Venâncio
Oliveira
Equipe 5: Jurgen Fink Júnior, Edilberto,
Word
Embeeding e Word
Embeeding 2 e Word
Embeeding 3
Leitura
complementar: Attention is all you need (Transformers) - https://arxiv.org/abs/1706.03762
BERT- https://arxiv.org/abs/1810.04805
Aula
assíncrona: Desenvolver
um algoritmo que permita utilizar o ELMO e DistilBERT para a analisar
a similaridade dos Tweets normalizado e sem normalizar.
Aula
7(15/04)-
Tira
dúvidas
Aula 8
(22/04)
- Trabalho
A -Desenvolver um algoritmo para verificar a similaridade
dos tweets com os títulos das notícias do portal
G1 ou Fake news do portal #FatoOuFake ou de algum portal
de notícias.
Aula 9 (29/04) -
Análise
Sintática Automatizada: sintagmas nominais, verbais, preposicionais
(parsing, tipos, avaliações
e recursos para o PT e Universal Dependency, o que é um
UD? Quais UDs existem para PT e para quais tarefas? )
Assíncrona:
Slides
do UD
Aula 10 (06/05) -
Parsing
- Pos Tagger(Cogroo,
NLTK, Spacy, UD, Stanford, NILC)
e Chunker(CRF, Cogroo)
Equipe
6: Ícaro Erasmo Barreiro
Equipe
8 :
Emanuel Vieira, Roberto Rangel
Aula
assíncrona: Utilizar
um pos-tagger e um Chunker para rotular o corpus do Twitter e
o corpus da Notícia para o PT. Fazer análise de
erro entre a corpus do Twitter e o corpus de Noticias em relação
ao Pos-Tagger e Chunker utilizado.. .
Aula 11
(13/05) - Analisador
de Dependencia (PassPORT ou UD), Universal Dependencies, Parser
de Stanford
Equipe
Sem Criatividade: Jonathan Bispo dos Santos, Thiago de Oliveira
Santos, Rodrigo Alencar
Equipe 5: Jurgen Fink Júnior,
Edilberto,
Equipe
4: Venâncio Oliveira e Pedro Guimarães
Aula
assíncrona: Utilizar
um analisador de dependencia para
rotular o corpus do Twitter e o corpus da Notícia para
o PT. Fazer análise de erro entre a corpus do Twitter e
o corpus de Noticias em relação ao Analisador de
Dependencia utilizado.
Aula 12 (20/05)
- Reconhecimento
de Entidades nomeadas (BERTimbau, Spacy, NILC e PUC-RS). Apresentação
dos POS Taggers no Tweet e Noticia
Equipe 7: Marcos Adriano, Lucas Carvalho
Equipe 3: Jefferson Brito, Rafael Coelho, Enrique Wicks
Aula
assíncrona: Utilizar
um REN para
rotular o corpus do Twitter e o corpus da Notícia para
o PT. Fazer análise de erro entre a corpus do Twitter e
o corpus de Noticias em relação ao Analisador de
Dependencia utilizado.
Aula 13 (27/05)- Apresentação de 2 Analisadores de Dependencia nos tweets e nas noticias, comparando-os entre si.
Aula 14 (03/06)-
Apresentação
de 2 NER nos tweets e nas noticias, comparando-os entre si.
Aula 15 (10/06)-
Técnicas
para Processamento da análise linguística Automatizada
- n-grama e Markov
Implementar
um modelo simples probabilistico de Markov para que possa etiquetar
o corpus do Twitter, sendo um POS (Part-Of-Speech), DP (Dependence
Parser) ou REN (reconhecimento de entidades nomeadas).
Apresentar o TRABALHO
B na aula síncrona.
Outras Tarefas da PLN:
Extração
de Informação e extração
de informação aberta em PT
Exemplos: DPTOIE,
DependentIE, ArgOE, DepOE e ler artigos do Reverb
(site)
, Clausie,
DepOE,
ArgOE
Leitura
complementar: WiRe57
: A Fine-Grained Benchmark for Open Information Extraction
https://sites.google.com/view/assin2/
Open
Information Extraction from Conjunctive Sentences
A
Survey on Open Information Extraction
Open
Information Extraction Systems and Downstream Applications
Open Information Extraction from Question-Answer Pairs
Análise Semântica
Automatizada - Tarefas da PLN - PLN
e Classificação Textual
Leitura
complementar: A
Maximum Entropy Approach to Natural Language Processing In
Journal Computational Linguistics Volume 22 Issue 1, March 1996.
Pages 39-71 MIT Press Cambridge, MA, USA
Leitura
complementar: Sentence
Classification and Information Retrieval for Petroleum Engineering
Aula
assíncrona: Implementar
uma classificação textual para uma tarefa de Classificação
Tópica ou Classificação de Fake News.
-
Sumarização
-
Transfer Learning - Machine Learning's Next Frontier - http://ruder.io/transfer-learning/
Inovação em PLN
(Neural, Crosslingual,
Multilingual)
- Word
Translation without paralell data
- Learning
Multilingual Word Embeddings in Latent Metric Space: A Geometric
Approach
- Multilingual
Open Relation Extraction Using Cross-lingual Projection
- Multilingual
Relation Extraction using Compositional Universal Schema
Leitura Complementar: Robo-writers:
the rise and risks of language-generating AI
Resultado Final: aqui
Avaliações:
Trabalho
A (Peso 3)+ Trabalho B (Peso 4) +Atividades
(Peso 3)