123/.trae/documents/垃圾短信分类项目实现计划.md
朱指乐 aa10e463b4 feat: 初始化垃圾短信分类项目基础结构
添加项目核心文件结构,包括:
- 配置文件和环境变量管理
- 数据处理和翻译模块
- 机器学习模型训练和评估
- 基于LLM的智能分析Agent
- 测试脚本和项目文档
2026-01-14 00:18:34 +08:00

1.5 KiB
Raw Blame History

垃圾短信分类项目实现计划

1. 项目结构搭建

  • 创建项目目录结构,包括 srcdatamodels 等目录
  • 初始化项目依赖,使用 uv 进行管理
  • 创建配置文件和环境变量管理

2. 数据处理

  • 使用 Polars 加载和清洗 spam.csv 数据集
  • 将英文短信翻译成中文,使用 DeepSeek API
  • 使用 Pandera 定义数据 Schema 进行验证
  • 数据预处理和特征工程

3. 机器学习模型

  • 实现至少两个模型Logistic Regression 作为基线LightGBM 作为强模型
  • 模型训练、验证和评估
  • 模型保存与加载
  • 达到 F1 ≥ 0.70 或 ROC-AUC ≥ 0.75 的性能指标

4. LLM 集成

  • 使用 DeepSeek API 进行短信内容解释和归因
  • 生成结构化的行动建议
  • 确保输出可追溯、可复现

5. Agent 框架

  • 使用 pydantic-ai 构建结构化输出的 Agent
  • 实现至少两个工具ML 预测工具和评估工具
  • 构建完整的工具调用流程

6. 项目测试和部署

  • 编写单元测试和集成测试
  • 确保项目可在教师机上运行
  • 准备项目展示材料

技术栈

  • Python 3.12
  • uv 进行项目管理
  • Polars + Pandas 进行数据处理
  • Pandera 进行数据验证
  • Scikit-learn + LightGBM 进行机器学习
  • pydantic-ai 作为 Agent 框架
  • DeepSeek API 作为 LLM 提供方

预期成果

  • 一个完整的垃圾短信分类系统
  • 中文翻译后的数据集
  • 可复现的机器学习模型
  • 基于 LLM 的智能建议生成
  • 结构化、可追溯的输出