Clasificación de textos: un enfoque con uso de machine learning

Fábio Eder  Cardoso; Edberto Ferneda; Leonardo Botega

doi:10.62758/re.v3i3.212

Autores

Fábio Eder Cardoso Universidade Estadual Paulista (Unesp) https://orcid.org/0000-0002-0309-057X
Edberto Ferneda Universidade Estadual Paulista (Unesp) https://orcid.org/0000-0002-8808-1217
Leonardo Botega Universidade Estadual Paulista (Unesp) https://orcid.org/0000-0003-1495-5935

DOI:

https://doi.org/10.62758/re.v3i3.212

Palavras-chave:

Classificação, Machine Learning, Algoritmos, Informação, Ciência da Informação

Resumo

A classificação de textos tem sido utilizada como base para a organização do conhecimento nas mais variadas áreas, uma vez que proporciona organizar grupos de categorias para nortear recortes desses domínios. Na era da informação digital, na qual existe uma vasta quantidade de dados disseminados em ambientes de computação em nuvem, é necessário o uso de tecnologias informacionais, para auxiliar o processo de classificação desses dados. Neste contexto, a Ciência da Informação contribui no processo de produção, organização, transmissão e uso da informação, nas mais variadas áreas, dentre elas, a ciência da computação, matemática, inteligência artificial, dentre outras. Por meio da tecnologia, quando a informação é adequadamente classificada, ela pode ser disponibilizada de maneira mais eficaz para a sociedade. O objetivo geral deste artigo é abordar contextos sobre classificação de textos com uso de Machine Learning. Esta pesquisa é do tipo exploratória, de método experimental, utilizou-se a abordagem quantitativa como técnica de análise de dados. Como resultado, após utilizar o algoritmo de distância Euclidiana, estabeleceu-se uma matriz de distâncias e um agrupamento hierárquico, além de uma nuvem de palavras, retornando expressões com termos relevantes dos documentos.

Biografia do Autor

Edberto Ferneda, Universidade Estadual Paulista (Unesp)

Livre-Docente em Recuperação de Informação (2016). Pós-doutorado pela Universidade Federal da Paraíba (2013). Doutor em Ciências da Comunicação (Ciência da Informação) pela Universidade de São Paulo (2003). Mestre em Informática pela Universidade Federal da Paraíba (1997). Possui graduação em Processamento de Dados pela antiga Fundação Educacional de Bauru (1985). Atualmente é Professor Associado do Departamento de Ciência da Informação da Universidade Estadual Paulista Julio Mesquita Filho (UNESP) - Campus de Marília. Atua na Ciência da Informação, principalmente nas áreas de Indexação Automática e Recuperação de Informação. Bolsista Produtividade em Pesquisa CNPq - Nível 2

Leonardo Botega, Universidade Estadual Paulista (Unesp)

Doutor em Ciência da Computação pela Universidade Federal de São Carlos - UFSCar com Pós-doutorado pela Universidade de São Paulo - USP. Membro Permanente do Programa de Pós-graduação em Ciência da Informação da UNESP-Marília. Membro Colaborador do Programa de Pós-graduação em Ciência da Computação da UNESP-Bauru/Prudente Pesquisador Colaborador do Instituto de Computação da UNICAMP. Data Product Manager na empresa PISMO. Líder do Grupo de Interação Humano-Computador (GIHC) - UNESP. Revisor de periódicos nas áreas de fusão de dados, sistemas críticos de tomada de decisão, web-semântica e sistemas de informação. Tem experiência acadêmica e profissional nos seguintes temas: Fusão de Dados e Informações, Mineração de Dados, Qualidade de Dados e Informações, Websemântica, Gestão de Dados Críticos e Sistemas Críticos de Tomada de Decisão. Obteve diversas publicações em eventos e periódicos nacionais e internacionais, além de orientar diversos trabalhos de graduação, mestrado e doutorado com bolsa CAPES, CNPq e FAPESP.

Referências

Aggarwal, C. C., Zhao, Y., e Yu, P. S. (2014). On the use of side information for mining text data. IEEE Transactions on Knowledge and Data En-gineering, 26(6):1415–1429. DOI: https://doi.org/10.1109/TKDE.2012.148

Aha, David W; KIBLER, Dennis; ALBERT, Marc K. Instance-based learning algorithms. Machine learning 6.1, p. 37-66, 1991. DOI: https://doi.org/10.1007/BF00153759

Barite, M.G., The Notion of “Category”: Its Implica-tions in Subject Analysis and in the Construction and Evaluation of Indexing Languages. School of Library Science University of the Republic of Uruguay. 2000.

Bekkerman, R. e Allan, J. (2004). Using bigrams in text categorization. Relatório Técnico IR-408, Center of Intelligent Information Retrieval, UMass Amherst.

Bennett, J., Orange Data Mining, in https://www.predictiveanalyticstoday.com/Orange-data-mining/. 2018. Acesso em 03 de maio de 2023.

Breve, F. A., Zhao, L., Quiles, M. G., Pedrycz, W., e Liu, J. (2012). Particle competition and coope-ration in networks for semi-supervised lear-ning. IEEE Transactions on Knowledge and Da-ta Engineering, 24(9):1686–1698. DOI: https://doi.org/10.1109/TKDE.2011.119

Burke, W. W., & Nourmair, D. A. (2001). The role of personality assessment in organization development. In J. Waclawski & A. H. Church (Eds.), Organization development: A data-driven approach to organizational change (pp. 55-77). Jossey-Bass.

Campos, M.L.A.; Gomes, H.E.; Oliveira, L.L. As Categorias de Ranganathan na organização dos conteúdos de um portal científico. Data-GramaZero, Rio de Janeiro, v. 14, n.3, jun. 2013.

DiFonzo, N., & Bordia, P. (2007). Rumor psychology: Social and organizational approaches. American Psychological Association. DOI: https://doi.org/10.1037/11503-000

Prado, H. A. do, E. Ferneda, E., editors (2008). Emerging Technologies of Text Mining: Techni-ques and Applications. Information Science Re-ference.

Fayyad, U.M., G.Piatetsky–Shapiro, P.Smyth. Kno-wledge Discovery and Data Mining: Towards a Unifying Framework. Proceeding of the Second International Conference on Knowledge Disco-very and Data Mining (KDD-96), Portland, Ore-gon, august, 1996.

Forman, G., An Experimental Study of Feature Se-lection Metrics for Text Categorization. Journal of Machine Learning Research, 3 2003, pp. 1289-1305

Galvão, N. D.; Marin, H. F. Técnica de mineração de dados: uma revisão da literatura. Acta Paulista de Enfermagem, São Paulo, v.22, n.5, p. 686-690, 2009. DOI: https://doi.org/10.1590/S0103-21002009000500014

Goldberg, David E; HOLLAND, John H. Genetic algo-rithms and machine learning. Machine lear-ning 3.2, p. 95-99, 1988. DOI: https://doi.org/10.1023/A:1022602019183

He, W., Zha, S. & Li, L. social media competitive analysis and text mining: A case study in the pizza industry. International Journal of Infor-mation Management, 33(3), 464-472. 2013. DOI: https://doi.org/10.1016/j.ijinfomgt.2013.01.001

Ignoatto M. L., Webber C. G., “Inteligência Competi-tiva nas Mídias Sociais: Um Estudo de Caso na Moda”. Revista SCIENTIA CUM INDUSTRIA, V. 7, N. 2, PP. 156 — 164, 2019 DOI: https://doi.org/10.18226/23185279.v7iss2p156

Ikonomakis, M; kotsiantis, Sotiris; Tampakas, V. Text classification using machine learning tech-niques. WSEAS Transactions on Computers 4.8, p. 966-974, 2005.

King, M. L., Jr. (2010). Stride toward freedom: The Montgomery story. Beacon Press.

Kotsiantis, Sotiris B; zaharakis, I; pintelas, Pa-nayiotis. Supervised machine learning: A re-view of classification techniques. p. 3-24, 2007 DOI: https://doi.org/10.1007/s10462-007-9052-3

Kriegel, David. A brief introduction to neural networks. 2007.

Leopold, Edda & Kindermann, Jörg, "Categorização de Texto com Máquinas V etoriais de Apoio". Como representar textos no espaço de entra-da", Machine Learning 46, 2002, pp. 423 - 444. DOI: https://doi.org/10.1023/A:1012491419635

Madsen R. E., Sigurdsson S., Hansen L. K. e Lansen J., "Pruning the Vocabulary for Better Context Recognition", 7th International Conference on Pattern Recognition, 2004 DOI: https://doi.org/10.1109/ICPR.2004.1334270

Mazzochi, F. Gnoli, C. S.R. Ranganathan´s PMEST Categories: Analyzing their Philosophical Back-ground Cognitive Function. Information Studies, v.16, p. 133-147, 2010.

Posluszny, D., Spencer, S., & Baum, A. (2007). Post-traumatic stress disorder. In S. Ayers, A. Baum, C. McManus, & et al. (Eds.), Cambridge handbook of psychology, health and medicine (2nd ed.). Cambridge University Press.

Rossi, Rafael G., Classificação automática de textos por meio de aprendizado de máquina baseado em redes. Tese – Programa de Pós-graduação em Ciências de Computação e Matemática Computacional. ICMC/USP. São Carlos. 2015

Sebastiani, F. (2002). Machine learning in automa-ted text categorization. ACM Computing Sur-veys, 34(1):1–47. DOI: https://doi.org/10.1145/505282.505283

Skinner, Burrhus F. Are theories of learning neces-sary? Psychological review 57.4, p. 193, 1950. DOI: https://doi.org/10.1037/h0054367

Somers, C. L., Day, A. G., Niewiadomski, J., Sutter, C., Baroni, B. A., & Hong, J. S. (2018). Under-standing how school climate affects overall mood in residential care: Perspectives of ado-lescent girls in foster care and juvenile justice systems. Juvenile & Family Court Journal, 69(4), 43-58. https://doi.org/10.1111/jfcj.12120. DOI: https://doi.org/10.1111/jfcj.12120

Soucy P. e Mineau G., "Feature Selection Strategies for Text Categorization", AI 2003, LNAI 2671, 2003, pp. 505-509. DOI: https://doi.org/10.1007/3-540-44886-1_41

Uysal, A. K. e Gunal, S. (2014). The impact of pre-processing on text classification. Information Processing & Management, 50(1):104–112. DOI: https://doi.org/10.1016/j.ipm.2013.08.006

Classificação de textos: uma abordagem com uso de machine learning

Autores

DOI:

Palavras-chave:

Resumo

Biografia do Autor

Edberto Ferneda, Universidade Estadual Paulista (Unesp)

Leonardo Botega, Universidade Estadual Paulista (Unesp)

Referências

Downloads

Publicado

Como Citar

Edição

Seção

Licença

Edição Atual

Informações

Idioma

Enviar Submissão

Palavras-chave

Associação de Educação e Investigação em Ciência da Informação da Iberoamérica e Caribe (EDICIC) - ISSN: 2236-5753