ARTICLE

Volume 2,Issue 1

Cite this article
1
Download
4
Citations
10
Views
20 January 2026

基于TF-IDF和DeBERTa混合模型的数据目录语义检索系统研究

剑芳 谷1
Show Less
1 河南省政务大数据中心, 中国
ASDS 2026 , 2(1), 19–24; https://doi.org/10.61369/ASDS.2026010005
© 2026 by the Author(s). Licensee Art and Technology, USA. This article is an open access article distributed under the terms and conditions of the Creative Commons Attribution -Noncommercial 4.0 International License (CC BY-NC 4.0) ( https://creativecommons.org/licenses/by-nc/4.0/ )
Abstract

本文以政务数据目录智能化搜索为研究目标,针对传统关键词匹配方法存在的语义理解不足、同义词覆盖不全等问题,提出了一种基于TF-IDF与DeBERTa算法的混合模型的轻量级语义搜索的解决方案。通过整合政务数据目录中的目录名称、申请依据、应用场景、标签等多维度数据构建语料库,利用中文分词、动态权重调整、领域术语扩展等技术,建立融合关键词精确匹配与语义相似度计算的双层检索机制。通过实践,本研究解决了语义识别场景中的三个核心问题:一是利用TF-IDF与DeBERTa的有机融合,发挥两个算法在关键词匹配和短句语义理解的优势,提高文本搜索的召回率;二是面向政务服务领域应用,建立丰富的知识库,建立专业术语与民间表述之间的映射桥梁,解决语义鸿沟跨越问题;三是通过对搜索结果的二次过滤,解决过度泛化所产生的“语义漂移”,进一步提升搜索的精确度。

Keywords
语义分析
TF-IDF
DeBERTa
混合模型
动态权重
数据目录
References

[1] 国家互联网信息办公室. 国家信息化发展报告(2023 年)[EB/0L].https://www.cac.gov.cn/2024-09/06/c_1727308607362592.htm.
[2] 国家数据局. 数字中国发展报告(2024 年)[EB/0L].https://www.nda.gov.cn/sjj/zhuanti/sjzgzxd/szzgbg/0605/20240830180401077761745_pc.html.
[3]Luhn, H.P. The automatic creation of literature abstracts[J].1958.《IBM Journal of Research and Development》第2 卷,159-165.
[4] 百度百科“tf-idf”词条[EB/0L].https://baike.baidu.com/item/TF-IDF/8816134.
[5]Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space[J]. arXiv preprint arXiv:1301.3781, 2013.
[6]Lee J, Kim S, Song Y. Doc2Vec-based semantic document retrieval in big data environments[J]. Future Generation Computer Systems, 2020, 112: 997-1005.
[7]Zhang Y, Li J, Song Y. GOV2VEC: A domain-specific word embedding model for government documents[C].Proceedings of the 2021 IEEE International Conference on Big Data. IEEE, 2021: 1023-1032.
[8] 翁克瑞, 周雅洁, 於世为. 基于BERT 的多层次特征融合的舆情文本政策意愿识别模型研究[J]. 中国地质大学学报( 社会科学版),2025,25(01):131-140.
[9] 刘青, 肖柏高. 劳动力成本与劳动节约型技术创新—— 来自AI 语言模型和专利文本的证据[J]. 经济研究,2023,58(02):74-90.
[10]Engcheng He,Xiaodong Liu,Jianfeng Gao,Weizhu Chen.《DeBERTa: Decoding-enhanced BERT with Disentangled Attention》[EB/0L].https://arxiv.org/abs/2006.03654.
[11] 王国霞, 刘贺平. 个性化推荐系统综述[J]. 计算机工程与应用,2012,48(07):66-76.

Share
Back to top