Harzoo 的诞生¶
动机
我们创造 Harzoo 的动机有两个:
时代的召唤. 机械时代延伸了人的肌肉与体力,计算机时代延伸了人的计算与记忆能力,互联网时代延伸了人的信息获取与交流能力,我们相信,AI 时代 人的学习与推理能力将得极大延伸,因为现在机器可以像人类一样学习了,一切与人的学习能力相关的都将被改变或重塑。
机器学习技术的发展. 早期,机器学习技术往往学习的都是简单的人类任务,比如人脸识别、文本分类等,都是小模型。如今,机器学习技术可以学习互联网上的全人类知识,比如 DeepSeek、豆包等大模型,这些大模型拥有了全人类知识,并具备相当的决策和推理能力。我们相信,接下来AI技术的发展将会聚焦到如何使用大模型真实的改造世界, 大模型将会像人一样可以完成各种工作。因此,我们设计了 Harzoo,希望在大模型和真实世界之间架起一座桥梁,让人们更方便地使用大语言模型去改造自己的专业领域,构建自己领域的AI(智能体)。
设计思路
我们在设计 Harzoo 的实现方案时,始终遵循着一个核心的原则:符合简单的直觉。
Harzoo的模块组成
我们发现,如今的大语言模型厂商均提供了 API,让人们可以非常方便地获得大语言模型的能力,但大语言模型本身存在两个严重问题:
| 问题 | 解决方案 |
|---|---|
| 输出不可控:需依赖高质量的提示词(Prompt)来驾驭引导。 | 为大语言模型包裹一个提示词层,让用户可以方便地自定义提示词,来驾驭引导大语言模型,让大语言模型成为稳定可控的专业领域专家。 |
| 输出局限于文字:无法真正操控外部世界。 | 为大语言模型添加一个工具层,让用户可以方便地为其接入各种各样的工具,让大语言模型能够直接操控现实世界。 |
因此,Harzoo 自然由 LLM 模型层 + Prompt 层 + Tool 层 三个核心模块组合而成,其中:LLM 模型层 负责连接各大模型厂商的 API; Prompt 层 负责为大语言模型添加提示词; Tool 层 负责为大语言模型接入工具。
Harzoo的运行架构
我们发现,人类解决任何复杂任务时,都遵循一个极其朴素的范式:从眼前的初始状态出发,思考决策并采取一个行动,进入下一个状态,再根据新状态发起新的思考决策与行动——如此循环往复,直至抵达终点,这即是:State₁ → decide₁ → Action₁ → State₂ → decide₂ → Action₂ → State₃ → … 的永恒节律,而这个永恒的节律,仅仅是 State → decide → Action → Next State 这一单步的不断重复。
因此,Harzoo 的运行架构也完全基于这一范式,像人类解决任务一样,不断的重复:State → [LLM + Prompt] → Tool → Next State 。其中,[LLM + Prompt] 负责思考决策,决策出需要调用哪些Tool及喂给Tool的参数值,Tool 负责具体执行,操控现实世界。所以 Harzoo 可以像人类一样,在持续感知、思考与行动中,一步步理解并改造世界。
Harzoo的协作架构
我们发现,人类在解决复杂任务时,往往需要多人协作才能完成,协作模式通常有两种:
- 流水线模式:同一条工作线,轮流由不能专业能力的人完成;
- 总分模式:类似[项目经理 + 多专业人员],项目经理负责拆目标、派活,专业人员负责做;
在应用大模型解决复杂任务时,这种多人协作的思想同样是有用的,能够极大提升解决复杂任务的效果。因此,Harzoo需要支持这样的协作架构,满足复杂任务的需求。巧妙的是,Harzoo的运行架构是天然支持协作模式的,不需要在Harzoo的模块组成中引入专门的协作模块,只需要在Tool层外接两个工具(SwitchProfile 和SubtaskAgent)即可,SwitchProfile 工具负责对自身的专业身份进行切换,SubtaskAgent工具负责以某种专业身份接收任务进行工作。
结束语
我们可以发现,Harzoo是简单的、符合直觉的,能像人类一样完成各种各样的任务。Tool is all,工具不仅拥有操作真实世界的能力,还拥有改变自身状态的能力,这将让Harzoo可以仅仅依靠简单的添加工具,就可以实现丝滑且强大的功能。Harzoo 可以接入世界上最强大的大脑,也可接入最锋利的工具,期待它能在你的领域里帮上忙。