CZON

TODO 待办事项提取报告

文档分析

👤 需要从大量Markdown文档中自动化提取和管理待办事项的开发者、项目经理或文档分析人员。
本文档是一份关于如何从大量Markdown文件中提取待办事项(TODO)的详细指南。它首先概述了文档阅读流程,包括获取文件列表、分批阅读提取、上下文管理和完整性验证四个阶段。接着,文档定义了TODO的提取规则,包括显式和隐式TODO的识别,以及提取要素如描述、来源文件、原文引用和推断日期。文档还提供了状态判断规则(如已完成、进行中、待开始)和优先级标记规则(高、中、低优先级)。最后,文档指定了输出格式,包括头部格式、概览和TODO列表的展示方式,并强调了引用链接规范、分段写入规则和禁止行为。核心价值在于提供一套系统化方法,帮助用户自动化处理大量文档中的任务信息,生成结构化的报告。
  • ✨ 文档定义了从Markdown文件中提取TODO的完整流程,包括四个阶段:获取文件列表、分批阅读提取、上下文管理和完整性验证。
  • ✨ 文档详细说明了TODO的提取规则,包括显式和隐式TODO的识别,以及提取要素如描述、来源文件、原文引用和推断日期。
  • ✨ 文档提供了状态判断规则(已完成、进行中、待开始)和优先级标记规则(高、中、低优先级),以帮助分类和排序TODO项。
  • ✨ 文档指定了输出格式,包括头部、概览和TODO列表的展示方式,并强调引用链接规范、分段写入规则和禁止行为,确保报告质量。
  • ✨ 文档的核心目标是实现自动化、结构化的任务管理,通过系统化方法处理大量文档,生成准确、可读的报告。
1,818 字 · 约 7 分钟阅读
  • TODO提取
  • 文档分析
  • 任务管理
  • Markdown
  • 自动化
  • 结构化报告
  • 优先级
  • 状态跟踪

TODO 待办事项提取报告

文档阅读流程(必须严格遵循)

核心原则

本仓库可能包含成百上千个 Markdown 文件。你必须逐一阅读每个文件,不得跳过。 为了处理大量文件,采用渐进式阅读与摘要策略。

阶段 1:获取完整文件列表

  1. 执行 npx czon@latest ls-files 获取所有 Markdown 文件
  2. 记录文件总数 N
  3. 将文件列表保存为待阅读队列

阶段 2:分批阅读与提取

将文件分批处理。建议每批 10-20 个文件,但你可以根据文件大小和复杂度自行调整。

对于每一批:

  1. 阅读:使用 Read 工具逐一读取该批次的每个文件完整内容
  2. 提取 TODO:根据下方「TODO 提取规则」,识别并记录所有 TODO 项
  3. 批次汇总:将该批次提取的 TODO 项整理到「TODO 知识库」中
  4. 累积:将批次结果合并到全局 TODO 知识库

阶段 3:上下文管理

当上下文接近限制时:

  1. 压缩知识库:已提取的 TODO 条目保留核心信息(描述、来源文件、状态),丢弃详细原文引用
  2. 保留索引:无论如何压缩,必须保留所有文件的路径和标题索引
  3. 继续阅读:使用压缩后的知识库继续处理剩余文件

阶段 4:完整性验证

在生成报告前,必须确认:

  1. 文件列表中的所有 N 个文件都已处理
  2. 所有提取的 TODO 项都有明确的来源文件

如果发现遗漏:返回阶段 2 处理遗漏的文件。


TODO 提取规则

显式 TODO

文中明确表达待办意图的内容,包括但不限于以下标志词:

  • "TODO"、"FIXME"、"HACK"
  • "待办"、"待完成"、"待处理"、"待实现"
  • "计划做"、"计划实现"、"计划添加"
  • "接下来要做"、"接下来要"、"下一步"
  • "需要实现"、"需要添加"、"需要完成"、"需要解决"

隐式 TODO

文中表达了意图或规划但尚未明确完成的事项:

  • "我会..."、"我打算..."、"我准备..."
  • "应该..."、"需要一个..."
  • "未来会..."、"之后会..."
  • "还没有..."、"暂时没有..."
  • 描述了一个功能设想但没有实现的迹象

提取要素

对每个识别到的 TODO 项,记录以下信息:

字段 说明
描述 TODO 的简短描述(一句话概括)
来源文件 文件路径和文章标题
原文引用 相关原文片段(1-2 句话)
推断日期 该 TODO 提出的日期(从文章内容推断)

状态相关的额外提取要素

对于判断为「🔄 进行中」的 TODO,还需额外记录:

字段 说明
已完成部分 已经取得的进展(具体做了什么)
剩余部分 尚未完成的内容(还需要做什么)
进展证据 体现进展的后续文章原文片段(注明来源文章)

对于判断为「✅ 已完成」的 TODO,还需额外记录:

字段 说明
完成依据 为什么判断已完成(引用具体证据及来源文章)
成果 完成后取得了什么具体成果或产出

状态判断规则

通过交叉对比多篇文章内容,判断每个 TODO 的当前状态:

✅ 已完成

  • 后续文章中明确提到「已完成」「已实现」「已上线」「已解决」
  • 在代码库或产品中可以观察到相关功能已存在
  • 相关问题在后续文章中不再被提及,且有明确的解决迹象

🔄 进行中

  • 后续文章中提到正在做、有部分进展
  • 存在相关的中间产物(如设计文档、原型)但未完全完成
  • 最近的文章中仍在讨论相关内容

⬜ 待开始

  • 仅提出了计划或想法,未见任何后续进展
  • 没有在其他文章中被再次提及
  • 明确标注为未来计划

优先级标记规则

基于文章内容体现的作者价值观和关注领域,自动判断优先级:

🔴 高优先级

  • 与核心业务目标直接相关:创业、投资、产品发布、收入目标
  • 与正在活跃开发的项目直接相关(如 CZON、CZONE、EA 等)
  • 作者在文中明确表达了紧迫感或重要性
  • 阻塞其他工作的关键任务

🟡 中优先级

  • 技术改进、工具优化、流程提升
  • 对产品质量有正面影响但非紧急
  • 作者表达了兴趣但没有明确时间要求

🟢 低优先级

  • 探索性想法、研究性质的思考
  • 非紧急的改进建议
  • 「有空再做」类的想法
  • 纯学习或实验目的

输出格式

头部格式

# AI 总结:待办事项

**AI 分析时间**:YYYY年MM月DD日
**基于 N 个 Markdown 文件生成**
**注**:本报告由 AI 自动提取,状态和优先级为 AI 推断结果,仅供参考。

---

其中 N 为阶段 1 中获取到的实际 Markdown 文件总数。

概览

## 概览

| 状态      | 数量  |
| --------- | ----- |
| ⬜ 待开始 | X     |
| 🔄 进行中 | X     |
| ✅ 已完成 | X     |
| **总计**  | **X** |

TODO 列表

按状态分组展示,每组内部按优先级排序(高 → 中 → 低)。 不同状态的 TODO 使用不同的展示格式:

⬜ 待开始 格式

## ⬜ 待开始

### 🔴 [TODO 简短描述]

- **来源**:[文章标题](../../../path/to/file.md)
- **日期**:YYYY-MM-DD
- **原文**:
  > 引用相关原文片段

---

🔄 进行中 格式

## 🔄 进行中

### 🔴 [TODO 简短描述]

- **来源**:[文章标题](../../../path/to/file.md)
- **日期**:YYYY-MM-DD
- **原文**:
  > 引用相关原文片段
- **进度**:
  - **已完成**:描述已经取得的进展,具体做了什么
  - **剩余**:描述尚未完成的内容,还需要做什么
  - **证据**:[后续文章标题](../../../path/to/later-file.md)
    > 引用体现进展的后续文章原文片段

---

✅ 已完成 格式

## ✅ 已完成

### 🔴 [TODO 简短描述]

- **来源**:[文章标题](../../../path/to/file.md)
- **日期**:YYYY-MM-DD
- **原文**:
  > 引用相关原文片段
- **完成依据**:说明为什么判断已完成,引用具体证据
  - 证据来源:[相关文章标题](../../../path/to/evidence-file.md)
- **成果**:描述完成后取得了什么具体成果或产出

---

引用链接规范

  • 引用原文链接时,保证链接有效
  • 永远链接到具体的 Markdown 文件,不要链接目录
  • 链接文本应当是对应的标题,而不是文件名
  • 由于生成到 .czon/AIGC/TODO/ 目录,引用时使用 ../../../ 开头的相对路径

正确示例

[资本持久战:个人投资者跨越阶级的战略](../../../INSIGHTS/6.md)

错误示例

[INSIGHTS/6.md](../../../INSIGHTS/6.md) ← 使用了文件名而非标题

分段写入规则

由于报告内容可能很长,必须分段写入,禁止一次性写入整个报告。

步骤 1:写入骨架文件

首先创建报告文件,写入头部、概览占位、各状态章节标题和占位标记。

步骤 2:逐章节填充内容

按章节顺序,逐一替换占位标记为实际内容:

  1. 每次只填充一个章节的内容
  2. 单次写入内容控制在 2000 字以内
  3. 如果某个章节超过 2000 字,拆分为多次写入

步骤 3:完整性检查

所有章节填充完毕后:

  1. 读取完整文件,确认无遗漏的占位标记
  2. 确认所有链接格式正确
  3. 确认概览中的统计数字与实际 TODO 数量一致

禁止行为

  • ❌ 不得在阅读完所有文件前开始生成报告
  • ❌ 不得跳过任何文件
  • ❌ 不得虚构不存在的 TODO 项
  • ❌ 不得虚构完成状态(无法判断时标记为「待开始」)
  • ❌ 不得遗漏明确标记的 TODO(如文中出现 "TODO" 字样的条目)