基本功能
- 单轮/多轮聊天
- 多模态信息展示与交互
- Age
- 工具
- Web searching
- Image generation
- Image caption
- audio-to-text
- text-to-audio
- Video caption
- RAG
- 私有数据库
- 离线部署
2
支持信息模式
- text
- image
- audio
- video
3
模型接口API
- ChatGPT
- Dalle
- Google-Search
- BLIP
2 开发
项目技术栈:Python + torch + langchain + gradio
⚡ 2.1 安装
- 在Anaconda中创建虚拟环境:
conda create -n agent python=3.10
- 进入虚拟环境并安装相关依赖包:
conda activate agent
pip install -r ./requirements.txt
-
本地安装BLIP模型,打开BLIP网站,下载所有文件到 Models/BLIP 。
-
按照提示配置 .env 中需要使用的 API 的密钥。
? 2.2 演示
Multi Agent GPT 提供 UI 界面交互,允许用户通过运行 web.py 来启动代理并实现智能对话:
python ./web.py
该程序将运行本地 URL:http://XXX。使用本地浏览器打开可以看到UI界面:
1 与图片聊天
通过集成BLIP模型,智能体可以理解图像信息并提供高质量的对话信息。
?️ 3 结构
- .env
- Agents/
- openai_agents.py #用来定义基于gpt3.5的agent
- Database/
- Docs/
- Imgs/
- Show/ #存储一些示例图片
- Models
- BLIP #图像理解大模型
- Tools/
- ImageCaption.py #基于BLIP的图像理解工具
- ImageGeneration.py #定义了一个基于openai dalle的文本生成图像的工具
- search.py #基于Google-search的联网搜索工具
- Utils/
- data_io.py
- stdio.py #实现了如何截获当前程序的日志信息,主要是用来获取agent的verbose信息
- utils_image.py #关于图像处理的一些功能函数
- utils_json.py #从已有的log日志信息中提取相关的有用字段(服务stdio)
- python_new_funciton.py #开发过程中的测试文件
- readme.md
- requirements.txt
- web.py #主运行文件
项目链接
https://github.com/YangXuanyi/Multi-Agent-GPT