第1部分:代理是人类的模仿者,是完成复杂任务的通话工具
AI代理可以使用工具独立实现目标
AI代理可以使用工具获取实时信息或在现实世界中提出采取建议。为此,模型需要访问外部工具以独立计划和执行任务。从广义上讲,生成的AI代理可以定义为通过观察周围世界并使用可用工具来实现其目标的应用程序。代理人是自主的(自主),只要它们提供适当的目标,他们就可以独立行动而无需人工干预;即使有模糊的人类指示,代理商也可以推理下一步应该做什么并采取行动以最终实现其目标。
代理与LLM:模型的知识仅限于其培训数据。 AI代理通过工具连接外部系统,除了模型提供的知识外,还可以实时扩展知识。该模型缺乏本机逻辑层,因此有必要使用及时的单词工程或使用推理框架(COT,React等)形成复杂的提示以指导模型进行预测。 AI代理具有本地认知体系结构,并具有内置的推理框架,例如COT,React或编排框架,例如Langchain。
AI代理的基本组件:模型,工具,内存,计划
AI代理的基本组件包括:模型,工具,内存和计划。模型:代理中用于做出核心决策的大脑,这可能是任何大小的一个或多个模型。计划:将大型任务分解为较小的,可管理的子目标,以有效处理复杂的任务。工具:基本模型在文本和图像生成方面非常强大,但不能与外部世界链接。使用工具,代理可以与外部数据和服务进行交互。记忆:获取,存储,保留和后来检索信息的过程,帮助代理人积累经验,发展自己并以更一致,合理和有效的方式行事。
AI代理的结构 – 工具
工具是实时和上下文意识的基本模型和外部系统之间的桥梁。当前,主要有功能,扩展,数据存储,插件和其他方法。扩展:将API连接到代理的组件以标准化的方式连接到代理,使代理可以调用外部API,而不必担心这些API背后的实现。功能:模型可以设置一组已知功能,确定何时使用该函数以及根据规范需要哪些参数。数据存储:向代理提供增量数据,将传入文档转换为一组向量数据库嵌入,并为代理提取信息。一个典型的例子是检索增强产生(RAG)。
AI代理仍处于发展的早期阶段
L1级 – 使用基于规则的AI; L2级 – 基于互动学习(IL)/增强学习(RL)的AI并添加推理和决策能力; L3级 – 使用基于LLM的AI替代交互式学习/增强学习方法,并增加记忆和自我反思以实现专家级的绩效; L4级 – 使用L3,增强自学和概括能力,并且在特定任务上的表现更好; L5级 – 使用L4,在L4上添加个性(情感 +个性)和协作行为(多动力),并在表现方面表现更多。
第2部分:模型和工具用于帮助代理成熟并普及
AI代理如何工作
AI代理的响应质量取决于模型的推理能力和执行任务的能力,包括选择合适的工具的能力以及工具本身的质量。可以将AI代理商的工作与厨师的烹饪相提并论:1)收集信息(输入):客户订购的菜肴,厨房中存在的食材等; 2)推理(思考):根据收集的信息来判断哪些菜肴可以烹饪; 3)烹饪(动作):包括切蔬菜,添加调味料,烹饪和炒菜等。在上述每个阶段,厨师(特工)根据需要进行调整。信息接收,计划,执行和调整周期描述了代理商用于实现目标的特定认知架构。代理商使用上述一种或多种推理技术(反应,经营链,经营之树等)来接受特定的用户请求来确定下一个最佳动作。
多基因:小组协作改善系统性能
为什么需要多构想? – 随着任务复杂性的增加,单个代理需要了解面部上下文窗口限制的上下文和工具的使用,从而导致性能退化;通过动态任务分解,劳动力和协作工作的专业部门,多种协作克服了这一挑战。这种合作可能会产生情报出现,即系统的整体性能超过了单个代理的能力之和。多代理系统协作模式:在层次命令模式下,指挥官代理执行任务分解并集成了每个专家代理返回的结果,并且专家代理执行任务并返回结果。在免费的协作模式下,每个代理都会单独进行交互以生成最终结果。多代理框架包括Openai群,Autogen,Metagpt,等。
MCP:AI工具统一接口,释放代理商前所未有的潜力
当大型语言模型与外部系统互动时,企业将面对不同的框架或系统时,它需要参考其协议以开发相应的工具,这是一个非常重复的任务。 MCP(模型上下文协议)是一个由拟人化于2024年11月启动的开放协议。它旨在统一LLM和外部数据源和工具之间的通信协议,支持各种大型模型,并可以与AI应用程序的USB-C接口进行比较。 MCP组件:主机(MCP主机)是一个允许用户与AI进行交互的应用程序(例如Claude Desktop,IDE);服务器(MCP服务器)位于工具端(例如Slack,Database),可以授予AI许可以访问特定资源;客户端(MCP服务器)负责将AI指令发送到服务器。
围绕MCP协议的生态系统正在逐渐形成,并有望重塑AI代理景观,并带来新一代的自动,多模式和深入整合的AI体验。 MCP客户端:目前,高质量的MCP客户端主要集中在编码领域,但是随着MCP协议的成熟度和普及,预计将来会出现更多用于商业应用程序的MCP客户端。 MCP营销和服务器托管解决方案:MCPT,Smithery和Opentool之类的平台正在努力为MCP服务器构建“应用商店”,使开发人员可以更轻松地发现,共享和共享和贡献新的MCP服务器,帮助标准化高素质MCP服务器的访问,并允许AI Agent动态选择和集成所需的工具和集成所需的工具。服务器生成工具(例如Mintlify,不锈钢)正在降低创建MCP兼容服务的阈值。
第3部分:GUI代理的浪潮继续提高自主权和普遍性
GUI代理从规则驱动到自治的端到端申请
2024年10月,Anthropic发布了Claude 3.5十四行诗并支持“计算机使用”功能,使其成为第一个可以以图形用户界面(GUI)代理的形式控制公共测试中计算机的AI模型; 2025年1月,OpenAI推出了运营商及其核心模型使用计算机代理(CUA),该代理仅适用于每月200美元的Pro用户; 2025年3月,莫妮卡(Monica)团队发布了“世界上第一个通用AI代理” Manus,进一步促进了计算机使用代理的概念。
Openai推出了第一个AI代理操作员
2025年1月24日,OpenAI发布了AI代理运营商,该应用程序可以在浏览器上执行简单的在线任务,例如预订音乐会票,在线订购杂货等。关键技术:由新的模型计算机使用代理(CUA)供电,构建在GPT-4O上的新模型计算机(CUA),CUA可以通过处理多台的处理和处理多个处理程序,以使多台上的操作系统适应,使其适应了PRICK,将AR AR AR AR OR AR AR AR AR A A A A A A A A A A A相设为虚拟鼠标和键盘。运营商的完整计算机使用任务成功率:OSWorld(38.1%),Webarena(58.1%),WebVoyager(87%),超过了先前最先进的基准结果;在OS世界测试中落后于人类绩效(72.4%)。
OpenAI开源代理SDK帮助代理申请开发
2025年3月12日,OpenAI发布了一种新的代理工具,旨在简化代理的开发,包括:1)新响应API:结合了聊天完成API的简单性和助手API的工具使用功能,支持新的三个内置工具; 2)新代理SDK:一个开源,轻巧且有力的框架,用于精心编排单一和多代理工作流; 3)三个内置工具:Web搜索,文件搜索和计算机使用。 Openai Agent SDK使用开源和易于使用的生态位置,并促进了在各个行业中AI代理的大规模部署:当前的流行代理开发框架(例如Langchain)的成本效益是可以启动的,并且他们的内部高度抽象设计通常需要开发人员在可以灵活地使用这些原理之前深入了解原理。 OpenAI的代理SDK采用了模块化和可扩展的设计,可提高系统的灵活性和可扩展性,从而使开发人员能够构建高度定制的代理应用程序。
中国企业家团队发布一般AI代理产品手动
2025年3月6日,中国企业家团队莫妮卡(Monica)发布了一种名为Manus的产品。 Manus在评估Gaia基准以通过通用人工智能助理解决现实世界中的问题时,取得了最先进的结果(SOTA,最先进的),其性能超过了OpenAI的深入研究。作为世界上第一个真正的通用AI代理,Manus可以独立思考,计划和执行复杂的任务并直接提供完整的结果。它的名字来自拉丁语“ Mens et Manus”,这意味着使用双手和大脑,并用手执行知识。
马努斯创始团队
马努斯产品团队的创始人小洪(Xiao Hong)毕业于华Zhong科学技术大学。 2015年毕业后,小洪创立了Nightingale技术,专注于企业微信SaaS工具,并推出了“微信助理”和“ Yiban Assistant”,为企业提供有效的社交营销工具。它已从腾讯和Zhen Fund等知名投资机构获得了数亿美元的投资,为超过200万B端用户提供了服务。 2022年,莫妮卡(Monica)成立着专注于海外市场。这是一位多合一的AI助手。用户可以通过单击浏览器中的图标直接使用他们访问的主要主流模型。 2023年,莫妮卡(Monica)通过获取流行的插件“ for Google for Google”来迅速扩大其用户量表。收购后,莫妮卡建立了一个AI工具矩阵,以满足不同方案的需求。目前,莫妮卡的累积用户已经超过700万,在AI Chrome插件中排名第一。 2024年7月,小洪和张陶和首席科学家智Yichao共同创立了Manus AI。张陶曾经负责国际产品,然后在Light年份担任产品经理。在高中的第二年,吉野野独立开发了“猛mm”(猛mm象)。此浏览器在Apple App Store上启动后,它很快获得了大量用户的青睐。
马努斯创新点
从技术实施的角度来看,Manus的本质是“虚拟机 +计算使用 +工件 +多代理协作”。核心是重新填充现有光标产品,降低使用阈值,并使非技术用户能够使用AI更轻松地修复复杂的任务。马努斯(Manus)的首席科学家解释了“较少结构,更多的智能”的设计理念:当您的数据是高质量的,模型是聪明的,您的体系结构是灵活的,并且您的工程是扎实的,那么计算机使用,深入研究和编码代理等概念已经从产品特征转变为自然出现。在产品设计中,向用户呈现了可理所作用的做事过程,并且可以通过反馈此过程来纠正结果,从而进一步加深可控性。
字节开源通用AI代理产品TARS
2025年1月,Bontedance的开源智能系统 – 基于自发的本机GUI(图形用户界面)代理型号UI-TARS,可以自动完成交叉应用程序,例如通过屏幕视觉分析和动作序列计划进行诸如空中票证预订;支持MCP,并且可以更灵活地连接各种模型并集成新功能以适应复杂而可变的商业环境。在多个基准测试中出色:在VisualWebbench,WebSRC和ScreenQa-Short等基准测试中领先;出色的定位能力评估基准Screenspot Pro,Screenspot和ScreenPot V2。
报告摘录:
(本文仅供参考,不代表我们的任何投资建议。如果您需要使用相关信息,请参阅原始报告。)
选定的报告来源:[未来智囊团]。未来的智囊团 – 官方网站
本网站每日更新互联网创业教程,一年会员只需98,全站资源免费下载点击查看会员权益