农业图书情报学刊 ›› 2016, Vol. 28 ›› Issue (11): 50-53.doi: 10.13998/j.cnki.issn1002-1248.2016.11.012
罗新
LUO Xin
摘要: 文本分类作为处理大量文本数据的关键技术,可以在较大程度上解决“信息爆炸”所带来的问题。Breiman提出的随机森林算法具有良好的泛化性和鲁棒性、对噪声不敏感、能处理连续属性的特点,很适合用来建立文本分类模型。笔者将随机森林算法尝试性引入文本分类领域,构建基于随机森林的文本分类模型,并在标准文本测试集Reuters-21578进行测试和比较,结果表明:(1)该模型可以较好地应用于文本分类;(2)与基于CART、REPTree和J48的文本分类模型的结果相比较,基于随机森林的文本分类模型的效果最好,F1-Measure达到了0.777;(3)基于随机森林的文本分类模型操作方便、直观有效、评价结果可靠,为文本分类研究提供了新思路。
中图分类号:
罗新. 基于随机森林的文本分类模型研究[J]. 农业图书情报学刊, 2016, 28(11): 50-53.
LUO Xin. Research on text Classification Model Based on Random Forests[J]. , 2016, 28(11): 50-53.