123/.trae/documents/垃圾短信分类项目实现计划.md
朱指乐 aa10e463b4 feat: 初始化垃圾短信分类项目基础结构
添加项目核心文件结构,包括:
- 配置文件和环境变量管理
- 数据处理和翻译模块
- 机器学习模型训练和评估
- 基于LLM的智能分析Agent
- 测试脚本和项目文档
2026-01-14 00:18:34 +08:00

49 lines
1.5 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# 垃圾短信分类项目实现计划
## 1. 项目结构搭建
- 创建项目目录结构,包括 `src`、`data`、`models` 等目录
- 初始化项目依赖,使用 uv 进行管理
- 创建配置文件和环境变量管理
## 2. 数据处理
- 使用 Polars 加载和清洗 spam.csv 数据集
- 将英文短信翻译成中文,使用 DeepSeek API
- 使用 Pandera 定义数据 Schema 进行验证
- 数据预处理和特征工程
## 3. 机器学习模型
- 实现至少两个模型Logistic Regression 作为基线LightGBM 作为强模型
- 模型训练、验证和评估
- 模型保存与加载
- 达到 F1 ≥ 0.70 或 ROC-AUC ≥ 0.75 的性能指标
## 4. LLM 集成
- 使用 DeepSeek API 进行短信内容解释和归因
- 生成结构化的行动建议
- 确保输出可追溯、可复现
## 5. Agent 框架
- 使用 pydantic-ai 构建结构化输出的 Agent
- 实现至少两个工具ML 预测工具和评估工具
- 构建完整的工具调用流程
## 6. 项目测试和部署
- 编写单元测试和集成测试
- 确保项目可在教师机上运行
- 准备项目展示材料
## 技术栈
- Python 3.12
- uv 进行项目管理
- Polars + Pandas 进行数据处理
- Pandera 进行数据验证
- Scikit-learn + LightGBM 进行机器学习
- pydantic-ai 作为 Agent 框架
- DeepSeek API 作为 LLM 提供方
## 预期成果
- 一个完整的垃圾短信分类系统
- 中文翻译后的数据集
- 可复现的机器学习模型
- 基于 LLM 的智能建议生成
- 结构化、可追溯的输出