<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
  <channel>
    <title>AI Agent on 卓琪的开发笔记</title>
    <link>https://zhuoqidev.com/tags/ai-agent/</link>
    <description>Recent content in AI Agent on 卓琪的开发笔记</description>
    <generator>Hugo -- gohugo.io</generator>
    <language>zh-CN</language>
    <copyright>© 2026 Liu ZhuoQi</copyright>
    <lastBuildDate>Mon, 11 May 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://zhuoqidev.com/tags/ai-agent/index.xml" rel="self" type="application/rss+xml" />
    
    <item>
      <title>RAG vs LLM Wiki vs Plain Text — A Decision Framework for Agent Long-Term Memory</title>
      <link>https://zhuoqidev.com/en/posts/memory-choice-framework/</link>
      <pubDate>Mon, 11 May 2026 00:00:00 +0000</pubDate>
      
      <guid>https://zhuoqidev.com/en/posts/memory-choice-framework/</guid>
      <description>&lt;p&gt;Every Agent builder hits this question eventually: &lt;em&gt;where do I store user data so the agent remembers it next session?&lt;/em&gt;&lt;/p&gt;&#xA;&lt;p&gt;Three approaches dominate the landscape: RAG (vector retrieval), LLM Wiki (structured knowledge injection), and plain-text context memory (the CLAUDE.md / Cursor Rules pattern). Each has vocal advocates. But picking wrong is expensive — do RAG too light and it&amp;rsquo;s a noise generator; do plain text too heavy and it&amp;rsquo;s a token incinerator.&lt;/p&gt;</description>
      
    </item>
    
    <item>
      <title>什么时候用 RAG，什么时候用 LLM Wiki，什么时候用纯文本记忆——一个 Agent 记忆选型框架</title>
      <link>https://zhuoqidev.com/posts/memory-choice-framework/</link>
      <pubDate>Mon, 11 May 2026 00:00:00 +0000</pubDate>
      
      <guid>https://zhuoqidev.com/posts/memory-choice-framework/</guid>
      <description>&lt;p&gt;做 Agent 系统的人迟早会撞上这个选择题：&lt;strong&gt;用户的数据往哪放，下次对话怎么记住？&lt;/strong&gt;&lt;/p&gt;&#xA;&lt;p&gt;目前工业界有三条主流路线——RAG（向量检索）、LLM Wiki（结构化知识注入）、纯文本上下文记忆（CLAUDE.md / Cursor Rules 模式）。三条路各有拥趸，但&lt;strong&gt;选错的代价很大&lt;/strong&gt;：RAG 做轻了是噪音生成器，纯文本做重了是 token 焚化炉。&lt;/p&gt;&#xA;&lt;p&gt;这篇给出一个可以直接用的决策框架。&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&#xA;&lt;h2 class=&#34;relative group&#34;&gt;三种方案一句话定义&#xA;    &lt;div id=&#34;三种方案一句话定义&#34; class=&#34;anchor&#34;&gt;&lt;/div&gt;&#xA;    &#xA;    &lt;span&#xA;        class=&#34;absolute top-0 w-6 transition-opacity opacity-0 -start-6 not-prose group-hover:opacity-100 select-none&#34;&gt;&#xA;        &lt;a class=&#34;text-primary-300 dark:text-neutral-700 !no-underline&#34; href=&#34;#%e4%b8%89%e7%a7%8d%e6%96%b9%e6%a1%88%e4%b8%80%e5%8f%a5%e8%af%9d%e5%ae%9a%e4%b9%89&#34; aria-label=&#34;锚点&#34;&gt;#&lt;/a&gt;&#xA;    &lt;/span&gt;&#xA;    &#xA;&lt;/h2&gt;&#xA;&lt;table&gt;&#xA;  &lt;thead&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;th&gt;方案&lt;/th&gt;&#xA;          &lt;th&gt;核心机制&lt;/th&gt;&#xA;          &lt;th&gt;代表产品/模式&lt;/th&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/thead&gt;&#xA;  &lt;tbody&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;&lt;strong&gt;RAG&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td&gt;向量检索 → top-k 片段 → 拼入 prompt&lt;/td&gt;&#xA;          &lt;td&gt;Mem0, Zep, LangChain RAG, Cursor Codebase Index&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;&lt;strong&gt;LLM Wiki&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td&gt;结构化文档 → 全量或按需注入 system prompt&lt;/td&gt;&#xA;          &lt;td&gt;Claude Projects, GPTs Knowledge, Notion AI&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;&lt;strong&gt;纯文本上下文&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td&gt;Markdown/文本文件 → 直接拼入 system prompt&lt;/td&gt;&#xA;          &lt;td&gt;CLAUDE.md, Cursor Rules, AGENTS.md, Devin Knowledge&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/tbody&gt;&#xA;&lt;/table&gt;&#xA;&lt;p&gt;关键区别不在于&amp;quot;存哪里&amp;quot;，而在于&lt;strong&gt;检索方式&lt;/strong&gt;和&lt;strong&gt;注入时机&lt;/strong&gt;。&lt;/p&gt;</description>
      
    </item>
    
    <item>
      <title>Why LLMs Have No Memory — A Cross-Validated Research Report with 67 Primary Sources</title>
      <link>https://zhuoqidev.com/en/projects/llm-memory-research/</link>
      <pubDate>Mon, 04 May 2026 00:00:00 +0000</pubDate>
      
      <guid>https://zhuoqidev.com/en/projects/llm-memory-research/</guid>
      <description>&lt;h2 class=&#34;relative group&#34;&gt;1. Why LLMs Are Stateless&#xA;    &lt;div id=&#34;1-why-llms-are-stateless&#34; class=&#34;anchor&#34;&gt;&lt;/div&gt;&#xA;    &#xA;    &lt;span&#xA;        class=&#34;absolute top-0 w-6 transition-opacity opacity-0 -start-6 not-prose group-hover:opacity-100 select-none&#34;&gt;&#xA;        &lt;a class=&#34;text-primary-300 dark:text-neutral-700 !no-underline&#34; href=&#34;#1-why-llms-are-stateless&#34; aria-label=&#34;Anchor&#34;&gt;#&lt;/a&gt;&#xA;    &lt;/span&gt;&#xA;    &#xA;&lt;/h2&gt;&#xA;&lt;p&gt;Four independent constraints — individually manageable, together they leave &amp;ldquo;stateless&amp;rdquo; as the only viable engineering solution. This conclusion is cross-validated across 67 primary sources.&lt;/p&gt;&#xA;&#xA;&lt;h3 class=&#34;relative group&#34;&gt;Architecture: O(n²) Attention&#xA;    &lt;div id=&#34;architecture-on-attention&#34; class=&#34;anchor&#34;&gt;&lt;/div&gt;&#xA;    &#xA;    &lt;span&#xA;        class=&#34;absolute top-0 w-6 transition-opacity opacity-0 -start-6 not-prose group-hover:opacity-100 select-none&#34;&gt;&#xA;        &lt;a class=&#34;text-primary-300 dark:text-neutral-700 !no-underline&#34; href=&#34;#architecture-on-attention&#34; aria-label=&#34;Anchor&#34;&gt;#&lt;/a&gt;&#xA;    &lt;/span&gt;&#xA;    &#xA;&lt;/h3&gt;&#xA;&lt;p&gt;Self-attention scales at &lt;code&gt;O(n²)&lt;/code&gt;. A single 4096-token sequence needs &lt;del&gt;2 GB VRAM for KV cache; 32 concurrent sessions hit 64 GB — more than the model weights themselves. Llama 3.1 at 100M context requires 638 H100 GPUs (&lt;/del&gt;$5,400/hour) for KV cache alone.&lt;/p&gt;</description>
      
    </item>
    
    <item>
      <title>Why LLMs Have No Memory — A Research Report Covering 67 Primary Sources</title>
      <link>https://zhuoqidev.com/en/posts/llm-memory-research/</link>
      <pubDate>Mon, 04 May 2026 00:00:00 +0000</pubDate>
      
      <guid>https://zhuoqidev.com/en/posts/llm-memory-research/</guid>
      <description>&lt;p&gt;This is not AI科普. This is a cross-validated research sprint backed by &lt;strong&gt;67 primary sources&lt;/strong&gt; — vendor docs, arXiv papers, and researcher interviews — on a question every Agent builder hits: &lt;em&gt;why don&amp;rsquo;t LLMs remember anything?&lt;/em&gt;&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;→ &lt;a href=&#34;https://zhuoqidev.com/en/projects/llm-memory-research/&#34; &gt;Full report: 14-product comparison table, 9 engineering takeaways, 3-year paradigm roadmap&lt;/a&gt;&lt;/strong&gt;&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&#xA;&lt;h2 class=&#34;relative group&#34;&gt;The One-Liner&#xA;    &lt;div id=&#34;the-one-liner&#34; class=&#34;anchor&#34;&gt;&lt;/div&gt;&#xA;    &#xA;    &lt;span&#xA;        class=&#34;absolute top-0 w-6 transition-opacity opacity-0 -start-6 not-prose group-hover:opacity-100 select-none&#34;&gt;&#xA;        &lt;a class=&#34;text-primary-300 dark:text-neutral-700 !no-underline&#34; href=&#34;#the-one-liner&#34; aria-label=&#34;Anchor&#34;&gt;#&lt;/a&gt;&#xA;    &lt;/span&gt;&#xA;    &#xA;&lt;/h2&gt;&#xA;&lt;p&gt;Four independent constraints — &lt;strong&gt;O(n²) attention + KV cache VRAM + catastrophic forgetting + GDPR right-to-be-forgotten&lt;/strong&gt; — stacked together leave &amp;ldquo;stateless&amp;rdquo; as the only viable engineering solution. Every &amp;ldquo;Memory&amp;rdquo; feature you&amp;rsquo;ve seen (ChatGPT, Claude, Cursor) is &lt;strong&gt;structured text injected into the system prompt&lt;/strong&gt;. Zero weight modification. The next 1–3 years belong to &lt;strong&gt;stateless LLM kernels + stateful Agent memory layers&lt;/strong&gt;.&lt;/p&gt;</description>
      
    </item>
    
    <item>
      <title>大模型为什么没有记忆——67 条一手资料的交叉验证</title>
      <link>https://zhuoqidev.com/posts/llm-memory-research/</link>
      <pubDate>Mon, 04 May 2026 00:00:00 +0000</pubDate>
      
      <guid>https://zhuoqidev.com/posts/llm-memory-research/</guid>
      <description>&lt;p&gt;这不是一篇&amp;quot;AI 科普&amp;quot;——这是一次用 Exa / Tavily / Context7 / WebSearch 四源交叉验证，覆盖 &lt;strong&gt;67 条一手资料&lt;/strong&gt; 的硬核调研。如果你在给 Agent 系统设计记忆层，或者想搞清楚 ChatGPT Memory / Claude Memory / Cursor Rules 到底是怎么回事，这篇是你要看的东西。&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;→ &lt;a href=&#34;https://zhuoqidev.com/projects/llm-memory-research/&#34; &gt;完整报告（含 14 产品对比表、9 条工程结论、3 年范式演进地图）&lt;/a&gt;&lt;/strong&gt;&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&#xA;&lt;h2 class=&#34;relative group&#34;&gt;一句话结论&#xA;    &lt;div id=&#34;一句话结论&#34; class=&#34;anchor&#34;&gt;&lt;/div&gt;&#xA;    &#xA;    &lt;span&#xA;        class=&#34;absolute top-0 w-6 transition-opacity opacity-0 -start-6 not-prose group-hover:opacity-100 select-none&#34;&gt;&#xA;        &lt;a class=&#34;text-primary-300 dark:text-neutral-700 !no-underline&#34; href=&#34;#%e4%b8%80%e5%8f%a5%e8%af%9d%e7%bb%93%e8%ae%ba&#34; aria-label=&#34;锚点&#34;&gt;#&lt;/a&gt;&#xA;    &lt;/span&gt;&#xA;    &#xA;&lt;/h2&gt;&#xA;&lt;p&gt;所谓「大模型没有记忆」不是疏忽，而是 &lt;strong&gt;O(n²) 注意力 + KV Cache 显存 + 灾难性遗忘 + GDPR 合规&lt;/strong&gt; 四重约束的均衡解。ChatGPT / Claude / Cursor 的 &amp;ldquo;Memory&amp;rdquo; 本质都是把结构化文本 &lt;strong&gt;塞回 system prompt&lt;/strong&gt;，模型权重永远不动。未来 1–3 年的主流是 &lt;strong&gt;「无状态 LLM 内核 + 有状态 Agent 记忆层」&lt;/strong&gt; 混合架构。&lt;/p&gt;</description>
      
    </item>
    
    <item>
      <title>大模型为什么没有记忆——67 条一手资料的交叉验证调研</title>
      <link>https://zhuoqidev.com/projects/llm-memory-research/</link>
      <pubDate>Mon, 04 May 2026 00:00:00 +0000</pubDate>
      
      <guid>https://zhuoqidev.com/projects/llm-memory-research/</guid>
      <description>&lt;h2 class=&#34;relative group&#34;&gt;一句话结论&#xA;    &lt;div id=&#34;一句话结论&#34; class=&#34;anchor&#34;&gt;&lt;/div&gt;&#xA;    &#xA;    &lt;span&#xA;        class=&#34;absolute top-0 w-6 transition-opacity opacity-0 -start-6 not-prose group-hover:opacity-100 select-none&#34;&gt;&#xA;        &lt;a class=&#34;text-primary-300 dark:text-neutral-700 !no-underline&#34; href=&#34;#%e4%b8%80%e5%8f%a5%e8%af%9d%e7%bb%93%e8%ae%ba&#34; aria-label=&#34;锚点&#34;&gt;#&lt;/a&gt;&#xA;    &lt;/span&gt;&#xA;    &#xA;&lt;/h2&gt;&#xA;&lt;p&gt;所谓「大模型没有记忆」不是疏忽，而是 &lt;strong&gt;Transformer O(n²) 注意力 + KV cache 显存 + 权重纠缠（灾难性遗忘）+ GDPR 合规&lt;/strong&gt; 四重约束的均衡解。ChatGPT / Claude / Cursor 的 &amp;ldquo;Memory&amp;rdquo; 本质都是&lt;strong&gt;把结构化文本塞回 system prompt&lt;/strong&gt;，模型权重永远不动。Prompt Caching 只是性能优化，不是记忆。未来 1–3 年的主流是 &lt;strong&gt;「无状态 LLM 内核 + 有状态 Agent 记忆层」&lt;/strong&gt; 混合架构。&lt;/p&gt;&#xA;&lt;table&gt;&#xA;  &lt;thead&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;th&gt;计算复杂度&lt;/th&gt;&#xA;          &lt;th&gt;100M ctx 成本&lt;/th&gt;&#xA;          &lt;th&gt;Cache 价格&lt;/th&gt;&#xA;          &lt;th&gt;主流 TTL&lt;/th&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/thead&gt;&#xA;  &lt;tbody&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;&lt;strong&gt;O(n²)&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td&gt;&lt;strong&gt;638×H100&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td&gt;&lt;strong&gt;0.1×&lt;/strong&gt;&lt;/td&gt;&#xA;          &lt;td&gt;&lt;strong&gt;5min–24h&lt;/strong&gt;&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/tbody&gt;&#xA;&lt;/table&gt;&#xA;&lt;hr&gt;&#xA;&#xA;&lt;h2 class=&#34;relative group&#34;&gt;1. 为什么 LLM 被设计成无状态&#xA;    &lt;div id=&#34;1-为什么-llm-被设计成无状态&#34; class=&#34;anchor&#34;&gt;&lt;/div&gt;&#xA;    &#xA;    &lt;span&#xA;        class=&#34;absolute top-0 w-6 transition-opacity opacity-0 -start-6 not-prose group-hover:opacity-100 select-none&#34;&gt;&#xA;        &lt;a class=&#34;text-primary-300 dark:text-neutral-700 !no-underline&#34; href=&#34;#1-%e4%b8%ba%e4%bb%80%e4%b9%88-llm-%e8%a2%ab%e8%ae%be%e8%ae%a1%e6%88%90%e6%97%a0%e7%8a%b6%e6%80%81&#34; aria-label=&#34;锚点&#34;&gt;#&lt;/a&gt;&#xA;    &lt;/span&gt;&#xA;    &#xA;&lt;/h2&gt;&#xA;&lt;p&gt;四个独立约束叠加，每一个单独都不致命，叠在一起就只剩&amp;quot;无状态&amp;quot;这一种工程解——这个结论来自对 67 条一手资料的交叉验证。&lt;/p&gt;</description>
      
    </item>
    
  </channel>
</rss>
