运筹与管理 ›› 2025, Vol. 34 ›› Issue (8): 77-82.DOI: 10.12005/orms.2025.0244
王兆刚
WANG Zhaogang
摘要: 基于遗传算法(Genetic Algorithm,GA)的文本特征选择研究,较多忽视了初始种群的随机性,对特征选择的不利影响。因此,本文提出一种卡方检验(CHI)结合固定初始种群GA的文本特征选择方法CHI_FIPGA,将GA的初始种群设定为选取CHI值较高的特征词,通过选取特征词数量的不同,保持初始种群中个体间的差异性,以分类模型的分类准确率作为适应度,经过选择、交叉、变异等遗传操作,在全体特征词范围内迭代寻优。选取中文文本分类实验数据集,运用多层感知器神经网络、随机森林、朴素贝叶斯、K近邻、决策树等不同分类模型,与GA,CHI_GA,PSO,CHI_PSO等方法的最优解结果进行对比分析。实验结果表明,相对于GA,CHI_GA,PSO,CHI_PSO方法,CHI_FIPGA的最优解分类准确率更高,特征词数量更少,尤其在类别数量较多的数据集上,CHI_FIPGA方法的优势更加明显。
中图分类号: