1.1.
信息过载时代:为什么需要AI辅助阅读文献?
选修
1.2.
AIGC在学术领域的应用现状与伦理边界
选修
1.3.
项目分层目标(初中:调用API做总结 / 高中:实现RAG检索 / 大学:完整Agent+自定义提示词链)
选修
1.4.
项目最终效果演示:从10篇论文到1份综述
选修
1.5.
开发环境搭建(Python 3.10 + Jupyter + VSCode)
选修
1.6.
依赖库安装(requests, PyPDF2, beautifulsoup4, chromadb, streamlit)
选修
2.
ython核心衔接:文本处理与API调用
选修
2.1.
字符串高级操作(正则表达式提取、去除空白、分词)
选修
2.2.
文件读写(批量读取txt、json配置文件)
选修
2.3.
网络请求库requests详解(GET/POST、headers、超时处理)
选修
2.4.
大模型API调用实战(以DeepSeek/智谱为例,构造prompt)
选修
2.5.
异常处理与重试机制(应对API限流)
选修
2.6.
分层知识点适配(初中:直接调用封装函数 / 高中+大学:自主设计prompt模板)
选修
3.1.
PDF文本提取:PyPDF2基础用法与局限性
选修
3.2.
高级PDF解析:pdfplumber提取表格与保留段落结构
选修
3.3.
网页内容提取:BeautifulSoup解析HTML,去除标签获取纯文本
选修
3.4.
Word文档支持:python-docx读取.docx文件
选修
3.5.
统一文档接口设计:定义一个DocumentReader基类,子类实现各自解析
选修
3.6.
实战:批量解析10篇示例论文并保存为纯文本
选修
4.1.
为什么需要分块?——大模型上下文窗口限制
选修
4.2.
分块策略:固定长度分块、语义分块(按段落/标题)
选修
4.3.
嵌入向量(Embedding)概念通俗解释:把文字变成数字
选修
4.4.
调用Embedding API(智谱/OpenAI)将文本块转为向量
选修
4.5.
向量数据库入门:Chroma本地安装与集合创建
选修
4.6.
实现向量存储与相似度检索(给定问题,找到最相关的文本块)
选修
5.1.
设计提取Prompt:要求大模型输出JSON格式(研究问题、方法、结论、创新点)
选修
5.2.
批量调用API:遍历每篇文献,提取结构化信息
选修
5.3.
结果清洗与验证:处理API返回的非标准JSON
选修
5.4.
存储为Pandas DataFrame:便于后续分析
选修
5.5.
可视化:用matplotlib绘制“关键词词云”和“研究方法分布饼图”
选修
5.6.
实战:对5篇AI教育类论文进行批量提取
选修
6.1.
表格结构设计:行=文献,列=研究问题/方法/结论/创新点
选修
6.2.
动态生成HTML表格:使用pandas.DataFrame.to_html()
选修
6.3.
添加排序与筛选功能:前端TableSorter库集成
选修
6.4.
导出为Excel/CSV:方便用户下载
选修
6.5.
高级功能:自动标出观点冲突的单元格(例如一个说“AI提升成绩”,另一个说“无显著影响”)
选修
6.6.
分层适配:初中仅实现静态表格 / 高中+大学实现冲突检测
选修
7.1.
综述写作原则:聚类相似观点、按逻辑顺序组织、避免简单罗列
选修
7.2.
基于关键词聚类:使用TF-IDF将文献分成3-5个主题组
选修
7.3.
为每个主题组生成段落:调用大模型,输入“该组所有文献的结论”
选修
7.4.
生成引言与总结段落:调用大模型,输入所有文献的标题和摘要
选修
7.5.
合并完整综述:引言 + 主题段落 + 总结 + 参考文献列表
选修
7.6.
控制综述字数:通过max_tokens参数和prompt约束
选修
8.1.
问题:AI生成的结论,怎么知道来自哪篇文献?
选修
8.2.
解决方案:在分块时记录每个块的来源文件名
选修
8.3.
生成综述时,每句话末尾插入[数字]标记,数字对应参考文献序号
选修
8.4.
实现溯源数据结构:{句子: [来源文件1, 来源文件2]}
选修
8.5.
前端高亮显示:鼠标悬停[1]时弹出文献详情Tooltip
选修
8.6.
分层适配:初中仅实现简单编号 / 高中+大学实现精确到句的溯源
选修
9.1.
什么是研究空白(Research Gap)?——科研选题的核心
选修
9.2.
方法1:提取所有文献的“未来工作”部分,进行词频统计
选修
9.3.
方法2:识别高频关键词的反义词或缺失维度(例如大量论文讨论“效率”,几乎没有讨论“公平性”)
选修
9.4.
调用大模型生成提示:“基于以上文献,哪些问题还没有被充分研究?”
选修
9.5.
展示研究空白列表,并给出每个空白的置信度评分
选修
9.6.
实战:生成一份“AI教育领域研究空白报告”
选修
10.1.
Streamlit入门:布局、文本输入、文件上传组件
选修
10.2.
实现文件上传区:支持多文件同时上传(pdf, docx, txt)
选修
10.3.
实现URL输入区:用户可粘贴多个网页链接
选修
10.4.
添加进度条:展示“解析中...”“向量化中...”“生成综述中...”
选修
10.5.
结果展示区:分为“综述文本”、“对比表格”、“研究空白”三个Tab
选修
10.6.
添加下载按钮:下载综述为Markdown/Word
选修
10.7.
会话状态管理(st.session_state):避免重复处理相同文件
选修
11.1.
性能优化:使用缓存避免重复调用API(相同文献不重复提取)
选修
11.2.
成本控制:统计API调用次数和token消耗,显示预估费用
选修
11.3.
测试用例:使用3篇短论文(或新闻文章)进行端到端测试
选修
11.4.
常见问题排查:API Key失效、PDF扫描件无法提取文字、长文本超时
选修
11.5.
错误处理友好化:给用户显示“第2篇PDF解析失败,请检查是否为扫描件”
选修
11.6.
分层适配:初中使用示例数据跳过API / 高中+大学真实调用
选修
12.1.
如何录制演示视频:展示上传10篇论文→生成综述的完整流程
选修
12.2.
答辩PPT结构:背景→技术架构→功能演示→创新点→未来展望
选修
12.3.
可能的提问与回答(评委可能问:AI会编造文献吗?如何保证准确性?)
选修
12.4.
拓展方向1:接入Zotero/Mendeley文献管理软件
选修
12.5.
拓展方向2:支持多语言综述输出(中文/英文)
选修
12.6.
拓展方向3:本地部署开源大模型(Ollama + Llama3)实现离线使用
选修