Harzoo 的诞生¶

动机

我们创造 Harzoo 的动机有两个：

1.时代的召唤. 机械时代延伸了人的肌肉与体力，计算机时代延伸了人的计算与记忆能力，互联网时代延伸了人的信息获取与交流能力，我们相信，AI 时代人的学习与推理能力将得极大延伸，因为现在机器可以像人类一样学习了，一切与人的学习能力相关的都将被改变或重塑。

2.机器学习技术的发展. 早期，机器学习技术往往学习的都是简单的人类任务，比如人脸识别、文本分类等，都是小模型。如今，机器学习技术可以学习互联网上的全人类知识，比如 DeepSeek、豆包等大模型，这些大模型拥有了全人类知识，并具备相当的决策和推理能力。我们相信，接下来AI技术的发展将会聚焦到如何使用大模型真实的改造世界, 大模型将会像人一样可以完成各种工作。因此，我们设计了 Harzoo，希望在大模型和真实世界之间架起一座桥梁，让人们更方便地使用大语言模型去改造自己的专业领域，构建自己领域的AI（智能体）。

设计思路

我们在设计 Harzoo 时，始终遵循着一个核心的原则：符合简单的直觉。

第1个思路：大语言模型（LLM）+ 提示词（Prompt） + 工具（Tool）的组成架构

编程AI可以达到人类软件开发专家的水平，核心是因为其背后的大语言模型的能力，大语言模型是通过机器学习技术对互联网上全人类的知识与数据学习而成，因此，大语言模型本质是一个“最强大脑”，拥有着全人类的知识和一定的推理能力。

如今，我们每个人都可以方便的获得大语言模型的能力，各大厂商均提供了调用大语言模型的API，比如千问、豆包、DeepSeek等。然而，大语言模型本身存在两个天然问题：

输出不可控，高度依赖高质量的提示词来引导。为此，我们为大语言模型接入了“提示词模块”，让用户可以通过添加提示词文件来引导大语言模型，使大语言模型成为具备专业本领且稳定可控的“大脑”。
输出局限于文字，无法真正操控外部世界。为此，我们为大语言模型接入了“工具模块”，让用户可以通过添加工具文件，为大语言模型接入各种工具，让大语言模型拥有操控现实世界的“手脚”。

因此，Harzoo 由大语言模型模块、提示词模块、工具模块三个模块组成，其中，大语言模型模块，负责连接各大厂商的大语言模型的API，获得大语言模型的能力。

第2个思路：通用的世界任务架构

我们发现，人类解决任何复杂任务时，都遵循一个极其朴素的范式：从当前的初始状态出发，思考决策并采取一个行动，进入下一个状态，再根据新状态发起新的思考、决策与行动——如此循环往复，直至抵达终点。这便是 State₁ → Decide₁ → Action₁ → State₂ → Decide₂ → Action₂ → State₃ → … 的永恒节律，其本质是将 State → Decide → Action → Next State 这一单步不断重复。因此，Harzoo 的运行架构也完全基于这一范式，像人类解决问题一样，不断重复 State → [LLM + Prompt] → Tool → Next State 这一单步。其中，[LLM + Prompt] 为“大脑”，负责思考决策，决定需要调用哪些工具以及传入哪些参数值；Tool** 为“手脚”，负责具体工具的执行，操控现实世界。于是，Harzoo 可以像人类一样，在持续不断的感知、思考与行动中，一步步理解并改造世界。

第3个思路：天然支持协作模式

我们发现，人类在解决复杂任务时，往往需要多人协作才能完成，协作模式通常有两种：

流水线模式：同一条工作线上，由不同专业能力的人依次完成任务。
总分模式：类似“项目经理 + 多专业人员”的结构，项目经理负责拆解目标、分配任务，专业人员负责执行。

同样，Harzoo 需要支持这样的协作架构，以满足复杂任务的需求。巧妙的是，Harzoo 的 State → [LLM + Prompt] → Tool → Next State → ... 的运行架构天然支持这两种协作模式：

对于流水线模式，只需在工具模块接入 [修改自身身份的工具] 即可；
对于总分模式，只需在工具模块接入 [指派任务给特定身份的工具] 即可；

上述的协作模式仅仅依靠简单的添加工具即可实现，无需引入复杂的编排模块，这一切都源于工具模块的能力。工具不仅可以操控外部世界，还可以操控自身。这种随时感知自身状态并做出实时调整的能力，让AI真正成为一个独立自主的AI。

结束语

最后，期待它能在你的领域里帮上忙，Enjoy!