随着AI大模型发展,从大量、结构复杂的文档中提取关键信息,编排工作流的需求变多。
比如上传某个领域知识,通过AI对话,找到关键信息;上传某个作者的所有书籍/演讲,学习其思想。
目前有很多工具(如下图),还有Coze。
今天介绍一款关注度较高的开源工具——RAGFlow。
RAGFlow是一款基于深度文档理解技术的开源RAG(检索增强生成)引擎,能快速、准确地从各种复杂文档中提取信息,生成高质量的答案。广泛适用于企业和个人。
图 从文档中检索信息,返回引文
最近一个月,RAGFlow新增了从Docx文件中提取图片和表格、流程编排可视化等功能,功能变得更加强大了。
告别手动查找和整理!RAGFlow支持Word 文档、PPT、excel 表格、txt 文件、图片、PDF、影印件、复印件、结构化数据、网页等各种格式的文档。
可以自动识别并提取图片、表格等内容,让信息获取变得前所未有的简单。
当你有问题需要解答时,RAGFlow能快速从相关文档中找到答案,并标明信息来源。
这样,你就可以轻松验证答案的准确性和可靠性,不必担心回答虚假信息了。
无论是企业内部知识管理、法律文档解析,还是学术研究资料整理,RAGFlow都能应对自如。
它的多模板分块功能可以适应不同的业务需求,灵活性极高。还提供易用的API,可以轻松集成到各类企业系统。
有两种方法,一种是自行部署使用,可以根据需求二次开发。这种方法适合有技术基础的同学。
这种方法的前提条件是要求:
• CPU:≥4核
• 内存:≥16GB
• 硬盘:≥50GB
• Docker:≥24.0.0 & Docker Compose:≥v2.26.1
具体操作见:https://github.com/infiniflow/ragflow
另外一种是使用官网,上手简单,适合没有技术基础的同学。
下面重点介绍这种使用。
我们以硅谷创业教父保罗·格雷厄姆(Paul Graham)的为例。保罗是硅谷最具影响力的企业家、创业思想家和投资人之一。他的思想影响了无数年轻人。
假如你想学习他的思维方式,遇到问题想问问他,现在你可以使用 RAGFlow 打造一个保罗分身。
首先,下载他博客上的所有文章。
打开RAGFlow官网并登录:https://ragflow.io/
可以看到,页面上方有四个模块,点击相应模块,即可切换。
上传数据。支持上传各种格式(见上文)、多个文档。
数据上传后,等待数据解析。根据上传的数据量,解析时间有所不同。下面是我解析好的数据。
如果你想更新数据,可以选择左边的“配置”上传数据。
现在建立一个保罗分身。点击新建助理,配置助理名字、设置开场白、选择知识库。
在“提示引擎”处配置系统提示词,让其用保罗的思维方式、语气回答问题,只能从知识库中检索数据回答问题。
这样保罗的分身就建好了。
输入问题,测试效果。
下图问了保罗分身如何保持独立思考,回家效果只能说能看。
如果测试效果不好,按下图更改数值。如提高“相似度阈值”,那么检索出的文本相似度会提高。
可以生成API,集成到各类企业系统。比如对接到飞书、企业微信中。
可以选择“图”进行复杂工作流编排。可根据需要,集成外部浏览器等。
比如,我可以集成保罗的博客官网,以便从博客官网搜索信息。
需要注意的是,RAGFlow官网提供默认模型只有一个deepseek-chat。如果想要更多功能,需要自行部署配置。
如果你想要学习更实用、更底层的操作,可以关注我们的AI线下工作坊,【入群】享受报名优惠。
5种使用AI大模型的正确姿势!接入知识库、微调,总有一种适合你
解读 Graph RAG:从大规模文档中发现规律,找到相互关系,速度更快,信息更全面!
最具代表性的文本数据集:覆盖32个领域,444个数据集,774.5TB数据量**