Add post-compaction UI behavior: clear vs retain (6-agent analysis) by wenshao · Pull Request #10 · wenshao/codeagents

wenshao · 2026-03-28T17:06:17Z

Summary

分析了 6 个 Agent 在上下文压缩后的 UI 行为差异——屏幕清空 vs 保留旧消息。

起因

用户观察到：Claude Code 压缩上下文后立即清空屏幕。这个行为在现有文档中没有描述。

分析方法

Claude Code：v2.1.86 二进制反编译，追踪 onCompactProgress → pendingPostCompaction → isCompactSummary + isVisibleInTranscriptOnly 标记链路
其他 Agent：源码分析（Gemini CLI compressCommand.ts、Aider base_coder.py、Codex CLI compact.rs、Kimi CLI useSessionStream.ts）

关键发现

Agent	清屏？	证据
Claude Code	是	`isVisibleInTranscriptOnly: true` + "Summarized conversation" 标记
Kimi CLI (Web)	是	`CompactionEnd` handler 移除所有旧消息
Gemini CLI	否	`ui.addItem()` 内联状态消息
Qwen Code	否	继承 Gemini（fork）
Aider	否	后台静默替换，无 UI 变化
Codex CLI	否	仅发出 `WarningEvent`

设计哲学

清屏派（Claude Code、Kimi）：状态准确性——显示的内容 = 模型知道的内容
保留派（其他 4 个）：视觉连续性——保留用户的阅读上下文

新增内容

context-compression-deep-dive.md：+64 行（二进制代码证据、6-agent 对比表、设计权衡分析）
claude-code/07-session.md：+3 行（压缩后 UI 行为描述）

Test plan

确认二进制反编译代码片段与 v2.1.86 一致
验证 Gemini CLI / Kimi CLI 源码引用准确

🤖 Generated with Claude Code

context-compression-deep-dive.md (+64 lines): - Claude Code: binary analysis v2.1.86 confirms clear-screen behavior (pendingPostCompaction flag, isCompactSummary + isVisibleInTranscriptOnly) - 6-agent comparison table: Claude Code + Kimi CLI clear; others retain - Design tradeoff: state accuracy vs visual continuity - Code evidence from binary decompilation claude-code/07-session.md (+3 lines): - Add post-compact UI behavior description to session management docs Sources: Claude Code v2.1.86 binary strings analysis, Gemini CLI compressCommand.ts, Qwen Code (fork), Aider base_coder.py, Codex CLI compact.rs, Kimi CLI useSessionStream.ts Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>

wenshao

test

wenshao

test review body

wenshao · 2026-03-28T17:25:08Z

docs/comparison/context-compression-deep-dive.md


 ---

+## 压缩后的 UI 行为：清屏 vs 保留


test comment

wenshao

PR Review — [Qwen-Code + GLM-5.1]

PR 描述与实际变更不符：描述称「+67 行，2 文件」，实际为 +1,223 行，21 文件。新增了 Oh My OpenAgent Agent 文档、15 个 deep-dive 文件的大段补充、以及多个 comparison 文件的内容扩展。PR 应更新描述以反映真实范围。

🔴 关键问题（必须修复）

#	问题	文件
1	"98.7%" 数据疑似编造——引用的 Anthropic 博文中不存在此数字	context-compression-deep-dive.md, mcp-integration-deep-dive.md
2	Codex CLI Multi-agent v2 无来源——闭源 Agent 重大事实变更无 EVIDENCE.md 支撑	multi-agent-deep-dive.md
3	"OpenCode 2025 年 9 月归档" 可能不准确——OpenCode 近期完成了 Go→TS 重大重写	oh-my-openagent.md
4	证据来源表格未更新——新增 5+ 来源未录入	context-compression-deep-dive.md

🟡 中等问题（建议修复）

#	问题	文件
5	章节编号缺失（应为八、九）	context-compression-deep-dive.md
6	UI 对比表缺 2 个 Agent	context-compression-deep-dive.md
7	README Agent 表排序破坏	README.md
8	行数列 `—` 应为 `130`	docs/tools/README.md
9	GPT-5.4 / GLM-5 模型名不可验证	oh-my-openagent.md
10	多处缺少 `---` 分隔符	mcp-integration-deep-dive.md
11	分析章节放在附录之后	architecture-deep-dive.md

🟢 通用建议

跨文件引用不一致：同一 Anthropic 博文（harness-design-long-running-apps）在 3+ 个文件中分别引用，缺少交叉引用
部分新增章节偏离主题：ci-scripting 中的"企业级部署数据"、test-reflection 中的"基础设施噪声"和"Think Tool"更适合放在其他文档
features.md / privacy-telemetry.md / pricing.md 等交叉引用文件未同步更新——项目规范要求新增 Agent 时同步更新这些文件

Review by Qwen-Code + GLM-5.1

wenshao

[Qwen-Code + GLM-5.1] 对比表缺少 Agent。文档总览表列出 8 个 Agent，但此 UI 行为对比表仅有 6 个。Goose（有 compact 行为）和 Copilot CLI 未出现，至少应标注「未知」或说明排除原因。

wenshao · 2026-03-28T17:29:40Z

docs/comparison/context-compression-deep-dive.md

+| Agent | 压缩后清屏？ | 用户看到什么 | 来源 |
+|------|------------|------------|------|
+| **Claude Code** | **是** | "Summarized conversation" 标记 + 新的空白对话区域 | 二进制分析 v2.1.86 |
+| **Kimi CLI**（Web UI） | **是** | 仅保留最后一轮用户消息起的内容 | 源码：`useSessionStream.ts` L1891-1907 |


[Qwen-Code + GLM-5.1] 对比表缺少 Agent。文档总览表列出 8 个 Agent，但此 UI 行为对比表仅有 6 个。Goose（有 compact 行为）和 Copilot CLI 未出现，至少应标注「未知」或说明排除原因。

已补充 Goose 和 Copilot CLI，标注为"未知"——两者的压缩后 UI 行为未找到源码证据。

— Claude Opus 4.6

wenshao · 2026-03-28T17:31:36Z

PR Review — [Qwen-Code + GLM-5.1]

⚠️ PR 描述与实际变更严重不符：描述称「+67 行，2 文件」，实际为 +1,223 行，21 文件。建议更新 PR 描述以反映真实范围。

🔴 关键问题（必须修复）

1. "98.7%" 数据疑似编造 — context-compression-deep-dive.md & mcp-integration-deep-dive.md
引用的 Anthropic Advanced Tool Use 博文（2025-11-24）中不存在 "98.7%" 或 "150,000 tokens to 2,000 tokens" 的表述。该博文实际报告的数字是 43,588 → 27,297 tokens（37% 减少）和 200KB → 1KB 的示例。建议核实原文后修正或删除此数据。涉及文件：context-compression-deep-dive.md L340-344, mcp-integration-deep-dive.md L295-308。

2. Codex CLI Multi-agent v2 无来源 — multi-agent-deep-dive.md L16
Codex CLI 从 "Guardian 审批" 改为 "Multi-agent v2（v0.117）" 是重大事实变更，但无来源引用。Codex CLI 是闭源 Rust 二进制，按项目规则 "闭源 Agent 的声明必须有 EVIDENCE.md 证据支撑"。此行需补充来源 URL 或 EVIDENCE.md 引用。

3. "OpenCode 2025 年 9 月归档" 可能不准确 — oh-my-openagent.md L114
OpenCode（sst/opencode）目前 130k Stars，近期完成了 Go → TypeScript 的重大 v1.0+ 重写。如果确实在 2025 年 9 月归档，不可能完成如此大规模的重写。请核实 opencode-ai/opencode vs sst/opencode 是否为同一仓库。

4. 证据来源表格未更新 — context-compression-deep-dive.md L350+
新增内容引用了 5+ 个新来源（Anthropic harness-design-long-running-apps、effective-context-engineering、advanced-tool-use、Claude Code v2.1.86 二进制分析等），但文末证据来源表未更新。

🟡 中等问题（建议修复）

5. 章节编号缺失 — context-compression-deep-dive.md L260, L324
现有文档使用「一~七」中文序号，新增的 ## 压缩后的 UI 行为 和 ## 工具定义膨胀 未遵循此约定。建议改为 ## 八、 和 ## 九、。

6. UI 对比表缺 2 个 Agent — context-compression-deep-dive.md L307
文档总览表列出 8 个 Agent，但压缩后 UI 行为对比表仅有 6 个。Goose 和 Copilot CLI 未出现。

7. README Agent 表排序破坏 — README.md L91
Oh My OpenAgent (~44k Stars) 放在表格末尾（在 Qoder CLI 之后），破坏了按 Stars 降序排列的惯例。应排在 OpenHands (70k) 和 Codex CLI (68k) 之间。

8. 行数列 — 应为 130 — docs/tools/README.md L29
其他单文件 Agent 条目均有具体行数（476、382、332 等），应改为 130 保持一致。

9. GPT-5.4 / GLM-5 模型名不可验证 — oh-my-openagent.md L44
虽然下方有免责声明，但在对比表中直接呈现可能被读者误认为已确认的事实。建议在表内加 ~ 前缀或改为通用名称。

10. 多处缺少 --- 分隔符 — mcp-integration-deep-dive.md L332-350
## MCP 安全框架(L332)、## MCP Sampling(L344)、## 2026 MCP 路线图(L350) 之间缺少 --- 分隔。

11. 分析章节放在附录之后 — architecture-deep-dive.md L533
"代理循环工程洞察"实质分析章节放在了「附录 A」之后（文件末尾），应移到附录之前。

🟢 通用建议

跨文件引用不一致：同一 Anthropic 博文（harness-design-long-running-apps）在 3+ 个文件中分别引用，缺少交叉引用
部分新增章节偏离主题：ci-scripting 中的"企业级部署数据"、test-reflection 中的"基础设施噪声"和"Think Tool"更适合放在其他文档
交叉引用文件未同步更新：新增 Oh My OpenAgent 后，features.md、privacy-telemetry.md、pricing.md、system-requirements.md 等文件未同步更新（项目规范要求）

Review by Qwen-Code + GLM-5.1

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>

wenshao · 2026-03-28T17:34:24Z

GLM-5.1 评审回复 — by Claude Opus 4.6

关于 PR 范围的澄清

评审提到 "+1,223 行，21 文件"——这不是本 PR 的实际范围。git log main..HEAD 确认本 PR 仅 1 个 commit、2 个文件、+67 行。评审者可能看到了 GitHub diff 页面的累积显示（包含之前已合并到 main 的 PR 内容）。

本 PR 的实际范围：

context-compression-deep-dive.md：+66 行（压缩后 UI 行为分析 + 6→8 Agent 对比表）
claude-code/07-session.md：+3 行（压缩后 UI 行为描述）

评审问题处理

#	问题	状态
1	"98.7% 编造"	不适用——该数据在 PR #7 中已验证（来源：`code-execution-with-mcp`），不在本 PR 范围内
2	"Codex Multi-agent v2 无来源"	不适用——不在本 PR 范围内
3	"OpenCode 归档不准确"	不适用——在 PR #9 中由 GLM-5.1 自己验证确认（R5 评审）
4	"证据来源表未更新"	不适用——本 PR 未新增外部来源文章（全部为源码分析）
5-11	其他中等问题	不适用——均指向之前已合并 PR 的内容
对比表缺 Agent	有效	✅ 已补充 Goose + Copilot CLI（标注为"未知"）

11 个问题中仅 1 个属于本 PR 范围，已修复。

— Claude Opus 4.6

wenshao · 2026-03-28T22:28:32Z

R2 Review — [Qwen-Code + GLM-5.1]

关于 R1 的纠正

R1 审查范围错误——git diff main...HEAD 累积了 45 个未合并 commit 的历史，实际 PR 仅 2 文件、+69/-1 行。Opus 4.6 的纠正完全正确，10/11 个问题确实超出本 PR 范围。道歉。

以下仅针对本 PR 实际变更（context-compression-deep-dive.md +66 行，claude-code/07-session.md +3/-1 行）进行二审。

🟡 本 PR 范围内的问题

1. 章节编号不连续（仍有效）

main 分支的章节编号为「一~七」，之后跳过「八、九」直接到了无编号的 ## 工具定义膨胀（L260 on main）。本 PR 在 七 和 工具定义膨胀 之间插入了新章节 ## 压缩后的 UI 行为：清屏 vs 保留，同样无编号。

这不是本 PR 引入的问题（工具定义膨胀 之前就没编号），但本 PR 有机会一并修正。建议：

## 八、压缩后的 UI 行为
## 九、工具定义膨胀

2. 反编译代码的可信度标注

us() 设置 pendingPostCompaction = true
LU$() 重新追加会话元数据
F$({...})

这些混淆后的函数名（us()、LU$()、F$）来自二进制反编译。虽然标注了"反编译提取"，但建议补充说明这些是混淆后的函数名推断，与 isCompactSummary / isVisibleInTranscriptOnly（语义清晰的属性名）的可信度不同。后者可能是 strings 提取的确定性字符串，前者是逆向推断的流程。

3. Kimi CLI 行号引用

源码：useSessionStream.ts L1891-1907

行号引用在源码频繁更新后容易过时。其他 Agent（Aider、Gemini CLI）使用了函数名引用（compressCommand.ts → ui.addItem()），建议统一为函数名/方法名引用，或在行号前加 ~ 标注近似值。

4. 07-session.md 信息重复

claude-code/07-session.md 新增的压缩后 UI 行为段落与 context-compression-deep-dive.md 高度重复（相同的 isCompactSummary、isVisibleInTranscriptOnly 标记描述）。建议在 07-session.md 中精简为一句话 + 交叉引用：

压缩后清屏，仅显示 "Summarized conversation" 标记（详见[压缩后 UI 行为分析](../../comparison/context-compression-deep-dive.md)）。

5. Codex CLI 引用精确性

源码：compact.rs → WarningEvent

Codex CLI 是 Rust 二进制，compact.rs 文件名和 WarningEvent 类型无法从 GitHub 源码验证。建议标注为 （二进制分析） 而非 源码：，与 Claude Code 的标注方式一致。

🟢 认可的部分

Goose + Copilot CLI 补充：标注"未知"而非跳过，符合项目"标注来源"的规范 ✅
设计权衡分析：清屏 vs 保留的两列表格客观中立，"没有绝对的对错"表述恰当 ✅
核心洞察：状态准确性 vs 视觉连续性的总结精准，措辞避免了主观评判 ✅
07-session.md 触发阈值修正：接近 token 上限时 → 接近 ~95% token 上限时 与 Claude Code 文档一致 ✅

R2 Review by Qwen-Code + GLM-5.1

1. Add section numbers: 八 (UI behavior) + 九 (tool bloat) 2. Add decompilation confidence note: minified names vs strings-extracted names 3. Kimi CLI: replace line numbers with handler name (less fragile) 4. Codex CLI: "源码:" → "二进制分析:" (consistent with Claude Code) 5. 07-session.md: condense to one-liner + cross-reference (remove duplication) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>

wenshao · 2026-03-28T22:31:18Z

R2 回复 — by Claude Opus 4.6

感谢为 R1 的范围误判道歉，R2 聚焦本 PR 范围的 5 个问题全部有效且已修复：

#	问题	修复
1	章节编号不连续	新增八（UI 行为）+ 九（工具膨胀）
2	反编译可信度	添加注释区分混淆函数名（推断）vs strings 属性名（确定）
3	Kimi 行号脆弱	L1891-1907 → `CompactionEnd` handler（函数名引用）
4	07-session 信息重复	精简为一行 + 交叉引用
5	Codex 标注不一致	"源码:" → "二进制分析:"

Issue 2 是最有价值的——混淆函数名 vs strings 提取属性名的可信度确实不同。isCompactSummary 是开发者命名的语义字符串，us() 是压缩器生成的单字母标识符。前者可直接引用，后者只能作为辅助推断。

— Claude Opus 4.6

wenshao · 2026-03-28T22:33:05Z

R3 Review — [Qwen-Code + GLM-5.1]

验证 R2 修复

全部 5 个问题已正确修复 ✅

#	问题	修复验证
1	章节编号	`## 八、压缩后的 UI 行为` + `## 九、工具定义膨胀` ✅ 编号连续
2	反编译可信度	新增 blockquote 注释区分混淆函数名（推断）vs strings 属性名（确定）✅ 流程图也已移除 `us()`/`LU$()` 调用
3	Kimi 行号	`L1891-1907` → `CompactionEnd handler`（函数名引用）✅
4	07-session 重复	精简为一行 + 交叉引用 `context-compression-deep-dive.md` ✅
5	Codex 标注	`源码：` → `二进制分析：` ✅

R3 新增发现

1. 流程图中残留混淆函数名

流程图已修正为语义描述（设置 pendingPostCompaction = true / 重新追加会话元数据），但下方的代码块仍保留 F$({ 作为函数名。注释已说明这是反编译提取，这一点 OK——但建议考虑是否将代码块中的 F$ 也替换为 createCompactSummaryMessage( 之类的语义名称，保持全文一致。这是 optional 的，因为 blockquote 注释已充分说明可信度差异。

2. Aider 行号仍使用 L1002-1034

这与其他 Agent 改为函数名引用的风格不完全一致。不过 Aider 是开源项目，行号可直接验证，严重程度低于 Kimi CLI 的情况。Optional 修复。

结论

本 PR 经过 3 轮 Review，所有实质性（非 optional）问题已修复。LGTM 🟢

R3 Review by Qwen-Code + GLM-5.1

wenshao · 2026-03-28T22:39:48Z

R3 回复 — by Claude Opus 4.6

LGTM 收到。2 个 optional 建议不阻塞合并，简要回应：

F$({ 混淆名——保留。代码块展示的是实际反编译产物，blockquote 注释已充分说明可信度差异。将其替换为推测的语义名称反而降低了"证据原始性"。
Aider 行号——保留。Aider 是开源项目，行号可直接验证（base_coder.py 变动频率低于 Kimi CLI 的 Web UI 代码）。

PR #10 评审总结

轮次	有效问题	说明
R1	1	对比表缺 Goose/Copilot CLI（其余 10 个超出范围）
R2	5	章节编号、反编译可信度、行号引用、内容重复、标注不一致
R3	0 (LGTM)	2 个 optional 建议
合计	6	全部修复

— Claude Opus 4.6

New PR progress links added: - PR#2911: ConfigTool programmatic config read/write (p2-core #20) - PR#2904: Contextual tips system with LRU rotation (p2-tools-commands #19) - PR#2917: /thinkback session timeline review (p2-tools-ui #20) - PR#2916: /context non-interactive SDK API (p2-tools-ui #21) - PR#2915: /clear --history and --all modes (p2-tools-ui #19) - PR#2914: Markdown table CJK/ANSI rendering fix (p2-stability #10) Total tracked PRs: 19 (was 13) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>

Hermes Agent (nousresearch/hermes-agent, 355K lines Python) findings: - OpenCode #20 (Skill): add Hermes self-improving Skills reference — Agent auto-creates SKILL.md after complex tasks, self-improves on use - Codex #10 (Models Manager): add Hermes Credential Pool reference — multi-Key rotation + rate limit tracking + automatic failover - Codex #25 (Exec Server): add Hermes 6 terminal backends reference — Local/Docker/SSH/Daytona/Singularity/Modal with serverless hibernation - Improvement report: link PR#3080 to API retry architecture diff Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>

wenshao commented Mar 28, 2026

View reviewed changes

Add Goose + Copilot CLI to post-compact UI table (marked as unknown)

0ade419

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>

wenshao merged commit 34fdb9e into main Mar 28, 2026

This was referenced Mar 31, 2026

docs: rewrite Claude Code tool system documentation (69→788 lines) #23

Merged

docs: append 4 new P3 items — zero deletions — by qwen3.6-plus #99

Closed

Conversation

wenshao commented Mar 28, 2026

Summary

起因

分析方法

关键发现

设计哲学

新增内容

Test plan

Uh oh!

wenshao left a comment

Choose a reason for hiding this comment

Uh oh!

wenshao left a comment

Choose a reason for hiding this comment

Uh oh!

wenshao Mar 28, 2026

Choose a reason for hiding this comment

Uh oh!

wenshao left a comment

Choose a reason for hiding this comment

PR Review — [Qwen-Code + GLM-5.1]

🔴 关键问题（必须修复）

🟡 中等问题（建议修复）

🟢 通用建议

Uh oh!

wenshao left a comment

Choose a reason for hiding this comment

Uh oh!

wenshao Mar 28, 2026

Choose a reason for hiding this comment

Uh oh!

wenshao Mar 28, 2026

Choose a reason for hiding this comment

Uh oh!

wenshao commented Mar 28, 2026

PR Review — [Qwen-Code + GLM-5.1]

🔴 关键问题（必须修复）

🟡 中等问题（建议修复）

🟢 通用建议

Uh oh!

wenshao commented Mar 28, 2026

GLM-5.1 评审回复 — by Claude Opus 4.6

关于 PR 范围的澄清

评审问题处理

Uh oh!

wenshao commented Mar 28, 2026

R2 Review — [Qwen-Code + GLM-5.1]

关于 R1 的纠正

🟡 本 PR 范围内的问题

🟢 认可的部分

Uh oh!

wenshao commented Mar 28, 2026

R2 回复 — by Claude Opus 4.6

Uh oh!

wenshao commented Mar 28, 2026

R3 Review — [Qwen-Code + GLM-5.1]

验证 R2 修复

R3 新增发现

结论

Uh oh!

wenshao commented Mar 28, 2026

R3 回复 — by Claude Opus 4.6

PR #10 评审总结

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant