【AI Agent】智能文献阅读与综述生成器
课程介绍
项目功能
课程章节 
合规声明
1. 项目导论与AI辅助科研 选修
1.1. 信息过载时代:为什么需要AI辅助阅读文献? 选修
1.2. AIGC在学术领域的应用现状与伦理边界 选修
1.3. 项目分层目标(初中:调用API做总结 / 高中:实现RAG检索 / 大学:完整Agent+自定义提示词链) 选修
1.4. 项目最终效果演示:从10篇论文到1份综述 选修
1.5. 开发环境搭建(Python 3.10 + Jupyter + VSCode) 选修
1.6. 依赖库安装(requests, PyPDF2, beautifulsoup4, chromadb, streamlit) 选修
2. ython核心衔接:文本处理与API调用 选修
2.1. 字符串高级操作(正则表达式提取、去除空白、分词) 选修
2.2. 文件读写(批量读取txt、json配置文件) 选修
2.3. 网络请求库requests详解(GET/POST、headers、超时处理) 选修
2.4. 大模型API调用实战(以DeepSeek/智谱为例,构造prompt) 选修
2.5. 异常处理与重试机制(应对API限流) 选修
2.6. 分层知识点适配(初中:直接调用封装函数 / 高中+大学:自主设计prompt模板) 选修
3. 多源文档解析器 选修
3.1. PDF文本提取:PyPDF2基础用法与局限性 选修
3.2. 高级PDF解析:pdfplumber提取表格与保留段落结构 选修
3.3. 网页内容提取:BeautifulSoup解析HTML,去除标签获取纯文本 选修
3.4. Word文档支持:python-docx读取.docx文件 选修
3.5. 统一文档接口设计:定义一个DocumentReader基类,子类实现各自解析 选修
3.6. 实战:批量解析10篇示例论文并保存为纯文本 选修
4. 文本分块与向量化(RAG基础) 选修
4.1. 为什么需要分块?——大模型上下文窗口限制 选修
4.2. 分块策略:固定长度分块、语义分块(按段落/标题) 选修
4.3. 嵌入向量(Embedding)概念通俗解释:把文字变成数字 选修
4.4. 调用Embedding API(智谱/OpenAI)将文本块转为向量 选修
4.5. 向量数据库入门:Chroma本地安装与集合创建 选修
4.6. 实现向量存储与相似度检索(给定问题,找到最相关的文本块) 选修
5. 文献信息提取核心 选修
5.1. 设计提取Prompt:要求大模型输出JSON格式(研究问题、方法、结论、创新点) 选修
5.2. 批量调用API:遍历每篇文献,提取结构化信息 选修
5.3. 结果清洗与验证:处理API返回的非标准JSON 选修
5.4. 存储为Pandas DataFrame:便于后续分析 选修
5.5. 可视化:用matplotlib绘制“关键词词云”和“研究方法分布饼图” 选修
5.6. 实战:对5篇AI教育类论文进行批量提取 选修
6. 文献对比表格生成 选修
6.1. 表格结构设计:行=文献,列=研究问题/方法/结论/创新点 选修
6.2. 动态生成HTML表格:使用pandas.DataFrame.to_html() 选修
6.3. 添加排序与筛选功能:前端TableSorter库集成 选修
6.4. 导出为Excel/CSV:方便用户下载 选修
6.5. 高级功能:自动标出观点冲突的单元格(例如一个说“AI提升成绩”,另一个说“无显著影响”) 选修
6.6. 分层适配:初中仅实现静态表格 / 高中+大学实现冲突检测 选修
7. 综述生成核心逻辑 选修
7.1. 综述写作原则:聚类相似观点、按逻辑顺序组织、避免简单罗列 选修
7.2. 基于关键词聚类:使用TF-IDF将文献分成3-5个主题组 选修
7.3. 为每个主题组生成段落:调用大模型,输入“该组所有文献的结论” 选修
7.4. 生成引言与总结段落:调用大模型,输入所有文献的标题和摘要 选修
7.5. 合并完整综述:引言 + 主题段落 + 总结 + 参考文献列表 选修
7.6. 控制综述字数:通过max_tokens参数和prompt约束 选修
8. 引用溯源(可解释AI) 选修
8.1. 问题:AI生成的结论,怎么知道来自哪篇文献? 选修
8.2. 解决方案:在分块时记录每个块的来源文件名 选修
8.3. 生成综述时,每句话末尾插入[数字]标记,数字对应参考文献序号 选修
8.4. 实现溯源数据结构:{句子: [来源文件1, 来源文件2]} 选修
8.5. 前端高亮显示:鼠标悬停[1]时弹出文献详情Tooltip 选修
8.6. 分层适配:初中仅实现简单编号 / 高中+大学实现精确到句的溯源 选修
9. 研究空白预测(进阶功能) 选修
9.1. 什么是研究空白(Research Gap)?——科研选题的核心 选修
9.2. 方法1:提取所有文献的“未来工作”部分,进行词频统计 选修
9.3. 方法2:识别高频关键词的反义词或缺失维度(例如大量论文讨论“效率”,几乎没有讨论“公平性”) 选修
9.4. 调用大模型生成提示:“基于以上文献,哪些问题还没有被充分研究?” 选修
9.5. 展示研究空白列表,并给出每个空白的置信度评分 选修
9.6. 实战:生成一份“AI教育领域研究空白报告” 选修
10. eb界面开发(Streamlit) 选修
10.1. Streamlit入门:布局、文本输入、文件上传组件 选修
10.2. 实现文件上传区:支持多文件同时上传(pdf, docx, txt) 选修
10.3. 实现URL输入区:用户可粘贴多个网页链接 选修
10.4. 添加进度条:展示“解析中...”“向量化中...”“生成综述中...” 选修
10.5. 结果展示区:分为“综述文本”、“对比表格”、“研究空白”三个Tab 选修
10.6. 添加下载按钮:下载综述为Markdown/Word 选修
10.7. 会话状态管理(st.session_state):避免重复处理相同文件 选修
11. 项目优化与测试 选修
11.1. 性能优化:使用缓存避免重复调用API(相同文献不重复提取) 选修
11.2. 成本控制:统计API调用次数和token消耗,显示预估费用 选修
11.3. 测试用例:使用3篇短论文(或新闻文章)进行端到端测试 选修
11.4. 常见问题排查:API Key失效、PDF扫描件无法提取文字、长文本超时 选修
11.5. 错误处理友好化:给用户显示“第2篇PDF解析失败,请检查是否为扫描件” 选修
11.6. 分层适配:初中使用示例数据跳过API / 高中+大学真实调用 选修
12. 项目展示与拓展方向 选修
12.1. 如何录制演示视频:展示上传10篇论文→生成综述的完整流程 选修
12.2. 答辩PPT结构:背景→技术架构→功能演示→创新点→未来展望 选修
12.3. 可能的提问与回答(评委可能问:AI会编造文献吗?如何保证准确性?) 选修
12.4. 拓展方向1:接入Zotero/Mendeley文献管理软件 选修
12.5. 拓展方向2:支持多语言综述输出(中文/英文) 选修
12.6. 拓展方向3:本地部署开源大模型(Ollama + Llama3)实现离线使用 选修
联系Tom老师
扫码添加老师微信
微信1二维码 微信2二维码
QQ:
1445154666
邮箱:
1445154666@qq.com