AGI熱門方向:國內前五AI智能體TARS-RPA-Agent落地,實在智能打造人手一個智能助理
早在 1950 年代,Alan Turing 就將「智能」的概念擴展到了人工實體,并提出了著名的圖靈測試。這些人工智能實體通常被稱為 —— 代理(Agent)。
代理這一概念起源于哲學,描述了一種擁有欲望、信念、意圖以及采取行動能力的實體。在人工智能領域,這一術語被賦予了一層新的含義:具有自主性、反應性、積極性和社交能力特征的智能實體。大型語言模型(LLMs)的出現為智能代理的進一步發展帶來了希望。
目前,大型語言模型是最為熱門的AGI研究方向,AI Agent(人工智能代理,Artificial Intelligence Agent)已是公認大語言模型落地的有效方式之一,它是一種能夠感知環境、進行決策和執行動作的智能實體,通常基于機器學習和人工智能技術,具備自主性和自適應性,在特定任務或領域中能夠自主地進行學習和改進。
更多的LLM,讓AIGC以更迅猛的速度進入并影響更多業務場景,這也讓更多人看清了大語言模型創業的方向,讓投資者們更加看好LLM、Agent與已有企業管理軟件的融合應用,用語言模型做AGI 也成為目前較為主流的路線。
簡單來說,AI Agent基于LLM驅動Agent實現對通用問題的自動化處理,具備獨立的思考和認知功能、擁有記憶,能進行思考、邏輯推斷和自我反思,可以閱讀和在線學習,擅長利用適當的工具處理問題,還能策劃并根據實際情況調整任務的優先級,為LLM提供了行動能力,真正釋放了LLM的潛能。
在這其中,很多投資機構重點還關注到RPA、低代碼等技術領域,其在自動化方面的天然屬性,并且自然語言交互能夠為其帶來相當的質變,能夠為客戶端到端自動化的超自動化以及如何與AI Agent融合。
那RPA與AI Agent結合,會有什么樣的化合反應呢?下面讓我們先看一個具體案例:
以往我們通過傳統RPA在電商平臺上搜索關鍵詞,只能圍繞已有組件去做各種形式的流程實現,對于沒有編程能力的普通用戶而言比較復雜。而現在,我們通過一位“AI助理”,它在新建流程的對話窗口輸入“查詢京東中最暢銷的電視機”,提交以后,就能看到AI助理給我們反饋了流程創建的兩個執行計劃。在計劃詳情中可以查看每個計劃的執行步驟,還可以通過多輪對話修改以創建更復雜的流程。點擊執行后,AI助理就會進入IPA模式按計劃的詳情步驟開始執行。
這位“AI助理”,就是國內AI準獨角獸企業實在智能業界首發的一款AI Agent類RPA產品,TARS-RPA-Agent。TARS-RPA-Agent是一個真正的產品級Agent,是普通用戶不需要部署就能方便使用的大語言模型智能體,基于“TARS+ISSUT(智能屏幕語義理解)”雙模引擎、有“大腦”,更有“眼睛和手腳”的超自動化智能體,是能夠自主拆解任務、感知當前環境、執行并且反饋、記憶歷史經驗的RPA全新模式產品。
繼續以上述web端案例,通過與TARS對話,ChatRPA自動創建在京東查詢商品數據的流程為例,現在基于大語言模型的ChatRPA具備了“遇河搭橋”的能力,在沒有組件可調用的情況下直接生成一個組件,進而保證流程的創建與執行。流程并不是一下就生成的,TARS-RPA-Agent會不斷修改用戶意圖,不斷完善流程,流程可以越做越復雜,最后會變成一個高可用的標準流程。當遇到不能執行的步驟,ChatRPA只需要人工通過繼續對話或者按照提示點擊相應頁面元素,流程就能持續創建,全流程基本都是自動化創建,人工參與的部分已經很少。
隨著不斷的數據喂養與加強學習,以后它還能生成更復雜的組件以創建復雜的長流程。這就相當于用戶在創建流程的時候身邊有個具備業務能力的程序員在做指導,總能以最簡單最優化的方式幫助用戶去實現各種流程的創建與執行。
大語言模型本質上是一個語言模型,它能夠分析邏輯,卻看不到要操作的對象。而通過計算機視覺告訴LLM操作對象在哪里,它就可以進一步去操作各種對象驅動RPA去創建各種流程。
過去的RPA模式,用戶可能還得根據AI推薦去找一些需要被操作的對象元素。TARS-RPA-Agent則更進一步,不需要去指定元素,只需要告訴模型要操作的目標是什么,它刷一下當前的屏幕,就能根據屏幕語義理解意思,直接命中目標元素。
因此,TARS-RPA-Agent與其他Agent的不同之處在于,目前大多數AI Agent產品仍是基于語言模型的綜合應用,而TARS-RPA-Agent是計算機視覺和大模型的結合。這在全球Agent領域也是不多見的,更是RPA領域的首創。

實在智能將TARS-RPA-Agent打造成為一個有大腦眼睛和手腳的能夠自主拆解任務、感知當前環境、執行并且反饋和記憶歷史經驗的IPA全新模式和超自動化智能體,所依賴的LLM是實在智能基于通用大模型基座的自研垂直“塔斯(TARS)”大模型——采用以TARS大模型和ISSUT智能屏幕語義理解為基座的技術框架,底層是包括通用基礎模型和各個垂直行業基礎模型在內的TARS系列大模型和智能屏幕語義理解技術,上層是依托這兩項關鍵技術完成全面升級和改造的超自動化產品。在未來計劃中,實在智能還會持續推出更多的TARS+X的模型及產品。

能夠在AI Agent盛行不久便能打造出AI智能體產品,得益于長期的技術沉淀與經驗積累。自推出RPA產品至今天發布TARS-RPA-Agent,實在智能的產品體系已經歷三次重要迭代:
2019-2021年,實在第一代專家模式RPA,實現可視化拖拉拽構建數字員工。
2021-2022,實在第二代簡易模式IPA,基于首創ISSUT智能屏幕語義理解技術,跳出IDE技術模式,開啟全球首個點選用模式RPA。
2022-2023,實在第三代對話模式RPA(ChatRPA),結合大語言模型基礎,實現超自動化Agent,打造業界首款計算機視覺與大語言模型結合的智能體產品,以全新體驗人機交互開啟對話式流程創建時代。
事實證明,只有“邊探索邊創建”的模式,才能讓RPA真正融合LLM并發揮真正的作用。實在智能認為,RPA將迎來“你說TArs做”的新境界,這也映射了實在智能在TARS-RPA-Agent的終極目標——“你說,PC做”,要真正實現包括流程創建等各種業務處理的“所說及所得”,讓RPA行業喊了多年的“RPA人人可用”愿景成為現實,也使得“人人擁有一個智能助理”進一步成為可能。
率先成為國內五大AI智能體之一,TARS-RPA-Agent不僅僅是國內廠商在AI Agent領域初步嘗試的成果,更為超自動化廠商以及To B領域產品的未來發展提供了一個方向,對RPA行業的發展具有里程碑的意義,也必將成為大語言模型落地的典型AI智能體案例。
在未來,人類與電腦/手機的協同方式一定是從人適應技術轉變為技術適應人,產品也將從以系統為中心轉變為以人為中心。在這種全新人機協同模式下,Agent可以理解我們的需求和習慣做出調整,人類也不用花費大量時間去學習如何操作一個新的應用或工具,AI才能變得更加智能化、人性化。