【AI Agent】智能文献阅读与综述生成器 - 跟Tom学编程的个人学习主页

首页 > 课程中心 > 科创综评 > 科创综评 > 【AI Agent】智能文献阅读与综述生成器

【AI Agent】智能文献阅读与综述生成器

登录学习

简单注册，零基础一对一指导

课程介绍

项目功能

课程章节

合规声明

1. 项目导论与AI辅助科研选修

1.1. 信息过载时代：为什么需要AI辅助阅读文献？选修

1.2. AIGC在学术领域的应用现状与伦理边界选修

1.3. 项目分层目标（初中：调用API做总结 / 高中：实现RAG检索 / 大学：完整Agent+自定义提示词链）选修

1.4. 项目最终效果演示：从10篇论文到1份综述选修

1.5. 开发环境搭建（Python 3.10 + Jupyter + VSCode）选修

1.6. 依赖库安装（requests, PyPDF2, beautifulsoup4, chromadb, streamlit）选修

2. ython核心衔接：文本处理与API调用选修

2.1. 字符串高级操作（正则表达式提取、去除空白、分词）选修

2.2. 文件读写（批量读取txt、json配置文件）选修

2.3. 网络请求库requests详解（GET/POST、headers、超时处理）选修

2.4. 大模型API调用实战（以DeepSeek/智谱为例，构造prompt）选修

2.5. 异常处理与重试机制（应对API限流）选修

2.6. 分层知识点适配（初中：直接调用封装函数 / 高中+大学：自主设计prompt模板）选修

3. 多源文档解析器选修

3.1. PDF文本提取：PyPDF2基础用法与局限性选修

3.2. 高级PDF解析：pdfplumber提取表格与保留段落结构选修

3.3. 网页内容提取：BeautifulSoup解析HTML，去除标签获取纯文本选修

3.4. Word文档支持：python-docx读取.docx文件选修

3.5. 统一文档接口设计：定义一个DocumentReader基类，子类实现各自解析选修

3.6. 实战：批量解析10篇示例论文并保存为纯文本选修

4. 文本分块与向量化（RAG基础）选修

4.1. 为什么需要分块？——大模型上下文窗口限制选修

4.2. 分块策略：固定长度分块、语义分块（按段落/标题）选修

4.3. 嵌入向量（Embedding）概念通俗解释：把文字变成数字选修

4.4. 调用Embedding API（智谱/OpenAI）将文本块转为向量选修

4.5. 向量数据库入门：Chroma本地安装与集合创建选修

4.6. 实现向量存储与相似度检索（给定问题，找到最相关的文本块）选修

5. 文献信息提取核心选修

5.1. 设计提取Prompt：要求大模型输出JSON格式（研究问题、方法、结论、创新点）选修

5.2. 批量调用API：遍历每篇文献，提取结构化信息选修

5.3. 结果清洗与验证：处理API返回的非标准JSON 选修

5.4. 存储为Pandas DataFrame：便于后续分析选修

5.5. 可视化：用matplotlib绘制“关键词词云”和“研究方法分布饼图” 选修

5.6. 实战：对5篇AI教育类论文进行批量提取选修

6. 文献对比表格生成选修

6.1. 表格结构设计：行=文献，列=研究问题/方法/结论/创新点选修

6.2. 动态生成HTML表格：使用pandas.DataFrame.to_html() 选修

6.3. 添加排序与筛选功能：前端TableSorter库集成选修

6.4. 导出为Excel/CSV：方便用户下载选修

6.5. 高级功能：自动标出观点冲突的单元格（例如一个说“AI提升成绩”，另一个说“无显著影响”）选修

6.6. 分层适配：初中仅实现静态表格 / 高中+大学实现冲突检测选修

7. 综述生成核心逻辑选修

7.1. 综述写作原则：聚类相似观点、按逻辑顺序组织、避免简单罗列选修

7.2. 基于关键词聚类：使用TF-IDF将文献分成3-5个主题组选修

7.3. 为每个主题组生成段落：调用大模型，输入“该组所有文献的结论” 选修

7.4. 生成引言与总结段落：调用大模型，输入所有文献的标题和摘要选修

7.5. 合并完整综述：引言 + 主题段落 + 总结 + 参考文献列表选修

7.6. 控制综述字数：通过max_tokens参数和prompt约束选修

8. 引用溯源（可解释AI）选修

8.1. 问题：AI生成的结论，怎么知道来自哪篇文献？选修

8.2. 解决方案：在分块时记录每个块的来源文件名选修

8.3. 生成综述时，每句话末尾插入[数字]标记，数字对应参考文献序号选修

8.4. 实现溯源数据结构：{句子: [来源文件1, 来源文件2]} 选修

8.5. 前端高亮显示：鼠标悬停[1]时弹出文献详情Tooltip 选修

8.6. 分层适配：初中仅实现简单编号 / 高中+大学实现精确到句的溯源选修

9. 研究空白预测（进阶功能）选修

9.1. 什么是研究空白（Research Gap）？——科研选题的核心选修

9.2. 方法1：提取所有文献的“未来工作”部分，进行词频统计选修

9.3. 方法2：识别高频关键词的反义词或缺失维度（例如大量论文讨论“效率”，几乎没有讨论“公平性”）选修

9.4. 调用大模型生成提示：“基于以上文献，哪些问题还没有被充分研究？” 选修

9.5. 展示研究空白列表，并给出每个空白的置信度评分选修

9.6. 实战：生成一份“AI教育领域研究空白报告” 选修

10. eb界面开发（Streamlit）选修

10.1. Streamlit入门：布局、文本输入、文件上传组件选修

10.2. 实现文件上传区：支持多文件同时上传（pdf, docx, txt）选修

10.3. 实现URL输入区：用户可粘贴多个网页链接选修

10.4. 添加进度条：展示“解析中...”“向量化中...”“生成综述中...” 选修

10.5. 结果展示区：分为“综述文本”、“对比表格”、“研究空白”三个Tab 选修

10.6. 添加下载按钮：下载综述为Markdown/Word 选修

10.7. 会话状态管理（st.session_state）：避免重复处理相同文件选修

11. 项目优化与测试选修

11.1. 性能优化：使用缓存避免重复调用API（相同文献不重复提取）选修

11.2. 成本控制：统计API调用次数和token消耗，显示预估费用选修

11.3. 测试用例：使用3篇短论文（或新闻文章）进行端到端测试选修

11.4. 常见问题排查：API Key失效、PDF扫描件无法提取文字、长文本超时选修

11.5. 错误处理友好化：给用户显示“第2篇PDF解析失败，请检查是否为扫描件” 选修

11.6. 分层适配：初中使用示例数据跳过API / 高中+大学真实调用选修

12. 项目展示与拓展方向选修

12.1. 如何录制演示视频：展示上传10篇论文→生成综述的完整流程选修

12.2. 答辩PPT结构：背景→技术架构→功能演示→创新点→未来展望选修

12.3. 可能的提问与回答（评委可能问：AI会编造文献吗？如何保证准确性？）选修

12.4. 拓展方向1：接入Zotero/Mendeley文献管理软件选修

12.5. 拓展方向2：支持多语言综述输出（中文/英文）选修

12.6. 拓展方向3：本地部署开源大模型（Ollama + Llama3）实现离线使用选修