segunda-feira, agosto 17

Algoritmos facilitam classificação automatizada de textos da internet

A representação das relações entre termos em redes permite aprender padrões que não são assimilados em outros tipos de representações (imagem: FAPESP)


Um conjunto de algoritmos desenvolvidos no Instituto de Ciências Matemáticas e de Computação (ICMC) da Universidade de São Paulo (USP), em São Carlos, permite filtrar, entre grandes quantidades de textos, dados que possibilitam classificá-los de acordo com o teor de seu conteúdo.
Dessa forma, comentários publicados em redes sociais podem ser facilmente identificados como positivos ou negativos e coleções de bibliotecas virtuais podem ser categorizadas de acordo com o gênero literário, temas e outros aspectos específicos de cada obra.
Os algoritmos foram desenvolvidos por Rafael Geraldeli Rossi, responsável pela pesquisa de doutorado Extraindo padrões de coleções de documentos textuais utilizando redes heterogêneas, realizada com o apoio da FAPESP. O trabalho foi premiado na 16th International Conference on Intelligent Text Processing and Computational Linguistics, em abril, no Egito.
“A quantidade de informações à disposição em diferentes plataformas facilmente acessíveis, como a web, é cada vez maior. É preciso que sejam desenvolvidas novas estratégias para filtrá-las de maneira inteligente, sem que dados se percam no processo e garantindo maior precisão na interpretação das informações”, disse Rossi.
Os algoritmos desenvolvidos por Rossi permitem a classificação, considerando não só a incidência de termos específicos em diferentes textos, mas também redes formadas por associações entre termos, o que agiliza o processo e diminui a quantidade de informações que precisam ser fornecidas para “treinar” a máquina.
O trabalho é desenvolvido por meio de aprendizado de máquina, campo da inteligência artificial dedicado ao desenvolvimento de algoritmos e de técnicas que permitem ao computador aperfeiçoar seu desempenho em alguma tarefa, “aprendendo” a partir de exemplos previamente classificados por um usuário ou especialista.
De acordo com Solange Oliveira Rezende, pesquisadora do ICMC e orientadora da pesquisa, a representação de dados em redes possibilita melhorar a organização e classificação de dados considerando poucos exemplos anteriormente classificados.
“A representação das relações entre termos em redes permite aprender padrões que não são assimilados em outros tipos de representações. A partir daí foram desenvolvidos os algoritmos que manipulam essas representações em redes de termos, permitindo fazer análises sobre os diferentes tipos de relações que podem existir entre os termos e adequando o aprendizado de máquina às necessidades do usuário”, explicou.
Para Rezende, os algoritmos desenvolvidos por Rossi simplificam o processo de classificação sem prejudicar sua precisão e minimizando a complexidade computacional.
“O grande diferencial do trabalho é que ele não considera apenas a frequência dos termos nos documentos, que é o mais comum nesse tipo de pesquisa. Leva-se em conta também a relação entre termos para realizar a classificação dos textos.”
O trabalho foi desenvolvido no âmbito da pesquisa Aprendizado de máquina para WebSensors: algoritmos e aplicações, conduzida por Rezende no ICMC também com o apoio da FAPESP.
O objetivo, explicou a pesquisadora, é investigar métodos de aprendizado de máquina para apoiar a construção automática de sensores da Web.
“O desenvolvimento de um websensor depende de especialistas para definição dos parâmetros do sensor, como expressões para busca, filtros e monitoramentos de conteúdo textual da Web, o que torna o processo mais complexo. Os algoritmos de aprendizado de máquina semissupervisionados para classificação de textos, como os desenvolvidos na pesquisa, podem ser utilizados para gerar sensores e monitorar exemplos de interesse do usuário”, disse Rezende.
Segundo a pesquisadora, o estudo busca contribuir ainda com a exploração do potencial da Web como “um grande e poderoso sensor social, permitindo monitorar vários tipos de eventos a partir de textos publicados em portais de notícias e redes sociais, como detecção de epidemias, extração de indicadores políticos e econômicos e análise de sentimentos”.
Os resultados da pesquisa de Rossi, que conta ainda com a colaboração de Alneu de Andrade Lopes, professor do ICMC, podem ser acessados em sites.labic.icmc.usp.br/ragero/cicling_2015


FONTE: FAPESP