本文为第一部分,着重介绍文本预处理以及特征抽取的方法。随着互联网技术的迅速发展与普及,如何对浩如烟海的数据进行分类、组织和管理,已经成为一个具有重要用途的研究课题。而在这些数据中,文本数据又是数量最大的一类。以统计理论为基础,利用机器学习算法对已知的训练数据做统计分析从而获得规律,再运用规律对未知数据做预测分析,已成为文本分类领域的主流。本文为您详细阐述机器学习文本分类的基本方法与处理流程。...
11-08 21:10 [ 其它综合] 领域 数据科学 数据库 大数据 文本分析 NLP 机器学习 自动分类