-
0700-6.2.0-使用Solr7对多种格式文件建立全文索引
文档编写目的Solr是一个开源搜索平台,用于构建搜索应用程序。它建立在Lucene(全文搜索引擎 之上。Solr是企业级的,快速的和高度可扩展的。使用Solr构建的应用程序非常复杂,可提供高性能 。它提供了层面搜索(就是统计 、命中醒目显示并且支持多种输出格式(包括XML/XSLT 和JSON等格式...
04月25日[精选文章]浏览:8
-
一键开启无纸化办公革命!Paperless-ngx 解析
本文将探讨 Paperless-ngx —— 一款开源、高效的文档管理系统,如何用数字化技术终结杂乱无章的纸质文件时代!你是否也经历过这些崩溃瞬间?...
04月25日[精选文章]浏览:10
-
47.3K star开源RAG引擎香!文档理解+检索+可视化干预,一站式搞定
RAGFlow 是基于深度文档理解的开源RAG引擎,通过与LLM结合提供带精准引用的问答能力。支持20+文档格式解析,提供智能分块策略和混合检索方案,具备可视化干预界面,支持Docker快速部署,是企业级知识库构建的利器!...
04月25日[精选文章]浏览:11
-
不同功能jar,同包名同类名冲突解决
原因项目中需要用到httpClient和tika-app相关jar,在使用httpClient远程调用的时候发现有冲突并且没有使用maven等其他包管理工具。java.lang.NoSuchFieldError: INSTANCE at org.apache.http.conn.ssl.SSLCo...
03月18日[精选文章]浏览:8
-
开篇语 | 容器中的大模型 (LLM in Containers)
如果我们想搭建一个企业级的大模型应用,不管使用开源的基础模型自己来发布,还是使用类似于 ChatGPT 的闭源 API,我们都需要搭建一个大模型流水线来管理应用体系中除了基础模型之外的功能模块。...
03月18日[精选文章]浏览:8
-
0成本打造私人文档管理系统,这个开源工具让你省下万元订阅费
在这个数字化时代,我们每天都在处理大量的文件和文档,随着时间推移,这些纸质文件不断堆积,不仅占用大量空间,查找起来非常让人头疼。你是否也曾因为找不到重要文件而焦虑不已?或是被满屋子的文件弄得焦头烂额?而今天要介绍的这款开源神器 Paperless-ngx,带来了一站式的文档管理解决方案:智能OCR识...
03月18日[精选文章]浏览:8
-
-
Hadoop教程:如何为Hadoop集群选择合适的硬件
随着Apache Hadoop的起步,云客户的增多面临的首要问题就是如何为他们新的的Hadoop集群选择合适的硬件。尽管Hadoop被设计为运行在行业标准的硬件上,提出一个理想的集群配置不想提供硬件规格列表那么简单。 选择硬件,为给定的负载在性能和经济性提供最佳平衡是需要测试和验证其有效性。(比如,...
03月18日[精选文章]浏览:8
-
-
计算机软件技术分享--赠人玫瑰,手遗余香
一、Nutch介绍What is Apache Nutch?Apache Nutch is a highly extensible and scalable open source web crawlersoftware project. Stemming from Apache Lucene, t...
03月18日[精选文章]浏览:8