|
生成式 AI 现状
在这个蓬勃发展的生成AI时代,有大量的AIGC工具用于各种生成任务,包括text-to- text , text-to-image,图像描述,text-to-speech,语音识别,视频生成,3D生成等。尽管他们实现了令人印象深刻的功能,但生成式AI所需要的不仅仅是 ChatGPT。
从输入输出的角度来看,ChatGPT主要擅长文本到文本的任务。
在输入端,目前主要以文本为主,随着底层语言模型从GPT-3.5进化到GPT-4,加强版 ChatGPT增加输入模态。具体来说,它可以选择性地将图像作为输入,但是,它仍然不能处理视频或其他数据模态。在输出端,GPT-4仍然局限于生成文本,这使得它与通用的AIGC工具相距甚远。
很多人都想知道下一代GPT可能会发展到怎样的程度。极有可能的情况是,ChatGPT 可能会走向通用型 AIGC,这将是实现人工通用智能(AGI)的重要一步。
可能实现 AGI 的技术路径
我认为存在两种可能实现 AGI 的技术路径:
1. ChatGPT 这类大模型直接实现 AGI 能力。
也就是很多人想象的 GPT-5, 看完了这个世界上所有的文本、图像和视频,听完了这个世界上所有的语音,可以直接操作文本、图像、语音等多种模态。优点是实现的 AGI 能力上限比较高,缺点是实现难度大。
2. ChatGPT 作为控制中枢(大脑)控制各种 AI 工具(肢体)。
以并行的方式将各种AIGC工具集成到一个共享 agent 中,让 ChatGPT 来设计和调度任务。优点是简单可行,思路直观,缺点是不同任务之间独立性太强,缺乏交互。
目前已经有类似做法,微软的 HuggingGPT 思路就是使用 ChatGPT 去调度操作 HuggingFace 上的各种模型来完成各种复杂任务,他们将这个系统命名为 JARVIS。
地址如下:
https://github.com/microsoft/JARVIS
巧合的是目前有论文也阐述了这两种思路,他们还作了一个图来说明这两条路径,左边是我说的路径2,右边是我说的路径 1。

感兴趣可以看看论文原文,这篇综述写的很详细:
https://arxiv.org/abs/2304.06488 目前实现 AGI 的尝试
1. Auto-GPT
https://github.com/Torantulino/Auto-GPT AutoGPT 相当于给基于 GPT 的模型一个内存和一个身体。有了它,你可以把一项任务交给 AI 智能体,让它自主地提出一个计划,然后执行计划。此外其还具有互联网访问、长期和短期内存管理、用于文本生成的 GPT-4 实例以及使用 GPT-3.5 进行文件存储和生成摘要等功能。AutoGPT 用处很多,可用来分析市场并提出交易策略、提供客户服务、进行营销等其他需要持续更新的任务。
2. BabyAGI
https://github.com/yoheinakajima/babyagi babyagi 是一个智能任务管理和解决工具,它结合了OpenAI GPT-4和Pinecone向量搜索引擎的力量,以自动完成和管理一系列任务,从一个初始任务开始,babyagi使用GPT4生成解决方案和新任务,并将解决方案存储在Pinecone中以便进一步检索。
3. AgentGPT
https://github.com/reworkd/AgentGPT 通过AgentGPT配置和部署“Autonomous AI agent”。命名你自己的自定义AI,让它开始任何你能想到的目标。它会通过思考要做的任务,执行它们,并从结果中学习来试图达到目标.
4. AwesomeAGI
https://github.com/yzfly/Awesome-AGI AGI 相关项目,论文收录
5. OpenAGI
https://github.com/agiresearch/OpenAGI 为了促进社区对AGI能力的长期改进和评估,OpenAgi项目开放代码,基准和评估方法。 |
|