ARTICLE

Volume 2,Issue 1

Cite this article
1
Download
4
Citations
11
Views
20 January 2026

基于TREC 真实邮件数据集的朴素贝叶斯分类教学案例构建与应用效果实证研究

寒问 曹1 锦文 陈1 金星 车1 毓华 张1
Show Less
1 江西水利电力大学 理学院, 中国
ASDS 2026 , 2(1), 30–34; https://doi.org/10.61369/ASDS.2026010007
© 2026 by the Author(s). Licensee Art and Technology, USA. This article is an open access article distributed under the terms and conditions of the Creative Commons Attribution -Noncommercial 4.0 International License (CC BY-NC 4.0) ( https://creativecommons.org/licenses/by-nc/4.0/ )
Abstract

人工智能技术的迅猛发展对概率统计学科教学提出了前所未有的革新要求。当前传统课程面临理论与应用脱节、教学案例缺乏应用、课堂缺乏实践,难以培养学生将概率模型转化为解决实际问题的能力。针对这一挑战,本研究基于TREC Public Corpus 包含的75,419封真实邮件数据集,系统构建朴素贝叶斯分类教学案例。借助Python 工具链实现邮件解析、文本预处理、特征工程至概率决策的全流程教学转化,使学生能够动态修改邮件内容并实时观测朴素贝叶斯后验概率变化。结合人工智能技术,学生得以了解理论知识的具体实践应用场景。
实证研究结果表明:模型在22,607封测试邮件中整体准确率较高,其垃圾邮件识别和正常邮件的识别精确度均表现优异。特征重要性分析揭示“pill”在垃圾邮件中出现概率显著高于正常邮件,而“per”和“desjardin”等商业词汇构成关键判别模式。教学实验中,学生通过添加“meeting”等工作词汇,成功降低测试邮件的垃圾概率,直观验证先验分布与似然概率的协同决策机制。并通过对223名学生分为案例教学组和传统教学组开展对比研究,独立样本t 检验结果显示,案例教学组的期末成绩显著优于传统教学组,两组差异达到统计显著水平,平均成绩提升5.30分,及格率提高16.8个百分点。该案例将条件概率、全概率公式等抽象理论转化为可操作的实践载体,显著提升学生构建概率模型解决复杂问题的能力,突破传统教学中公式记忆和机械演算的认知局限,实现理论向应用层面的跃迁。

Keywords
概率统计
朴素贝叶斯
条件概率
理论实践融合
References

[1] 肖睿, 王峰, 黄文彬. 人工智能赋能教育的发展态势与未来路径[J]. 现代教育技术,2023,33(1):12-20.
[2] 陈希儒, 刘乐平. 新时代统计学教育改革的方向与路径[J]. 统计研究,2022,39(4):145-156.
[3] 周志华. 机器学习[M]. 北京: 清华大学出版社,2021:123-135.
[4] 李航. 统计学习方法[M]. 第2 版. 北京: 清华大学出版社,2021:58-72.
[5] 张良均, 王靖, 刘名军.Python 数据挖掘与机器学习实战[M]. 北京: 人民邮电出版社,2022:89-105.
[6] 宗成庆. 统计自然语言处理[M]. 第2 版. 北京: 清华大学出版社,2021:67-82.
[7] 黄文彬, 徐健. 基于特征重要性的文本分类模型可解释性研究[J]. 计算机研究与发展,2023,60(3):567-578.
[8] 温忠麟, 刘红云. 教育实证研究中的统计分析方法[M]. 北京: 北京师范大学出版社,2020:156-170.
[9] 张厚粲, 徐建平. 现代心理与教育统计学[M]. 第5 版. 北京: 北京师范大学出版社,2021:245-260.
[10] 王陆, 刘菁. 人工智能时代案例教学法的创新路径研究[J]. 电化教育研究,2023,44(2):78-85.
[11] 任友群, 李锋. 面向人工智能时代的中小学计算思维培养[J]. 中国电化教育,2022(5):1-8.
[12] 祝智庭, 魏非. 教育数字化转型的现实路径与发展趋势[J]. 华东师范大学学报( 教育科学版),2023,41(1):1-15.

Share
Back to top