<rss xmlns:atom="http://www.w3.org/2005/Atom" version="2.0">
  <channel>
    <title>LLM - 标签 - cfanzp学习笔记</title>
    <link>https://cfanzp008.github.io/tags/llm/</link>
    <description>LLM - 标签 - cfanzp学习笔记</description>
    <generator>Hugo -- gohugo.io</generator><language>zh-CN</language><managingEditor>cfan.zp@qq.com (cfanzp)</managingEditor>
      <webMaster>cfan.zp@qq.com (cfanzp)</webMaster><lastBuildDate>Tue, 07 Apr 2026 11:37:25 &#43;0800</lastBuildDate><atom:link href="https://cfanzp008.github.io/tags/llm/" rel="self" type="application/rss+xml" /><item>
  <title>RAG检索增强生成分类详解</title>
  <link>https://cfanzp008.github.io/rag-classification-detailed-guide/</link>
  <pubDate>Tue, 07 Apr 2026 11:37:25 &#43;0800</pubDate>
  <author>作者</author>
  <guid>https://cfanzp008.github.io/rag-classification-detailed-guide/</guid>
  <description><![CDATA[RAG检索增强生成分类详解 背景 随着大语言模型（LLM）的快速发展，如何让AI在生成内容时准确引用最新、最相关的信息成为一个核心挑战。检索增强生成（Retrieval-Augmented Generation，简称RAG）技术应运而生，它通过结合检索系统和生成模型的优势，显著提升了AI输出的准确性和可信度。本文将详细介绍RAG的分类体系，帮助读者根据不同场景选择合适的RAG方案。
RAG基本工作原理 RAG的核心思想是将用户查询与外部知识库相结合，其工作流程主要包括以下几个环节：
文档处理：将原始文档切分为Chunks（文本块），每个chunk经过Embedding模型转换为向量 向量存储：将向量存入向量数据库（如Milvus、Pinecone、Chroma等） 语义检索：用户查询同样被转换为向量，在向量数据库中检索最相关的Top-K个chunks 增强生成：将检索到的相关文档作为上下文，连同用户问题一起发送给LLM生成回答 1 用户问题 → 向量化 → 向量数据库检索 → 上下文组装 → LLM生成 → 回答输出 RAG分类体系 根据技术复杂度和应用场景，RAG可以分为以下几类：
1. 简单RAG（Naive RAG） 简单RAG是最基础的实现方式，采用&quot;检索-拼接-生成&quot;的直线路径。
工作流程：
用户输入查询 一次性从向量数据库检索Top-K相关文档 将检索结果与查询拼接后发送给LLM 优点：架构简单、实现成本低、延迟低
缺点：当检索结果不准确或包含噪声时，生成质量会明显下降；无法处理复杂的多跳推理问题
适用场景：文档问答、知识库查询、结构简单的FAQ系统
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 # 简单RAG实现示例 from langchain_ollama import OllamaLLM from langchain_chroma import Chroma from langchain_ollama import OllamaEmbeddings # 初始化组件 llm = OllamaLLM(model=&#34;qwen2.]]></description>
</item>
<item>
  <title>Google Gemma 4 全面介绍：开源最强模型如何使用</title>
  <link>https://cfanzp008.github.io/gemma-4-introduction/</link>
  <pubDate>Sat, 04 Apr 2026 10:00:00 &#43;0800</pubDate>
  <author>作者</author>
  <guid>https://cfanzp008.github.io/gemma-4-introduction/</guid>
  <description><![CDATA[Google Gemma 4 全面介绍：开源最强模型如何使用 什么是 Gemma 4 Gemma 4 是 Google DeepMind 于 2026 年 4 月 2 日发布的最新开源模型系列，被誉为&quot;字节对字节&quot;最强大的开源模型。该模型基于与 Gemini 3 相同的研究构建，在推理、Agent 工作流、编程和多模态理解方面表现出色。
核心理念 Gemma 这个名字来源于拉丁语&quot;gemma&quot;，意为&quot;宝石&quot;。Google 希望通过这个轻量级但强大的模型系列，让 AI 能力像宝石一样珍贵且易于获取。
Gemma 4 四大版本 Gemma 4 提供四个规模的模型，满足不同场景需求：
版本 参数规模 适用场景 硬件要求 Gemma 4 2B 20亿 手机/嵌入式设备 普通 CPU 即可 Gemma 4 4B 40亿 笔记本电脑 8GB+ RAM Gemma 4 9B 90亿 台式机/服务器 16GB+ VRAM Gemma 4 27B 270亿 高性能服务器 显存 80GB+ 核心特性 1. 多模态能力 Gemma 4 支持文本和图像输入，可以：]]></description>
</item>
<item>
  <title>MiniMax AI 平台全面介绍</title>
  <link>https://cfanzp008.github.io/minimax-platform-introduction/</link>
  <pubDate>Fri, 03 Apr 2026 16:00:00 &#43;0800</pubDate>
  <author>作者</author>
  <guid>https://cfanzp008.github.io/minimax-platform-introduction/</guid>
  <description><![CDATA[MiniMax AI 平台全面介绍 什么是 MiniMax MiniMax 是由稀宇科技开发的 AI 平台，提供从文本到语音、视频、音乐的全模态 AI 能力。该平台在编程、多模态理解、Agent 能力等方面表现出色，是国内领先的 AI 大模型提供商之一。
MiniMax 的核心理念是&quot;让 AI 能力触手可及&quot;，通过提供高性价比的 API 服务，让开发者能够轻松构建 AI 应用。
模型矩阵 文本模型 模型 上下文窗口 特点 MiniMax-M2.7 200K 最新旗舰模型，编程和 Agent 能力 SOTA MiniMax-M2.5 200K 编程能力突出，SWE-Bench 得分 80.2% MiniMax-M2.5-Lightlight 200K 轻量版本，性价比更高 MiniMax-M2.1 200K 多语言编程大师 MiniMax-M2 200K Agent 能力，先进推理 语音模型 MiniMax Speech 2.6：最新语音合成模型 MiniMax Speech 2.5：高质量语音输出 视频模型 MiniMax Hailuo 2.3：视频生成模型 MiniMax Hailuo 2.3 Fast：快速生成版本 其他模态 图片生成 音乐生成 核心能力 1. 编程能力 MiniMax-M2.5 在编程领域表现突出：]]></description>
</item>
<item>
  <title>如何理解纳瓦尔说的 Software was eaten by AI？</title>
  <link>https://cfanzp008.github.io/understanding-software-was-eaten-by-ai/</link>
  <pubDate>Fri, 03 Apr 2026 10:00:00 &#43;0800</pubDate>
  <author>作者</author>
  <guid>https://cfanzp008.github.io/understanding-software-was-eaten-by-ai/</guid>
  <description><![CDATA[如何理解纳瓦尔说的 Software was eaten by AI？ 背景：一场跨越十三年的范式升级 2011年，马克·安德森（Marc Andreessen）提出了那句著名的论断——&ldquo;Software is eating the world&rdquo;（软件正在吞噬世界）。十三年后，纳瓦尔·拉维坎特（Naval Ravikant）给出了他的回应：&ldquo;Software was eaten by AI&rdquo;（软件被 AI 吞噬了）。
这不仅仅是一句话的更新，而是整个时代范式的升级。安德森说的是软件作为一种商业模式如何征服世界，而纳瓦尔说的是软件作为一门生意的根基如何被彻底动摇。
理解这句话，需要从三个维度来看：生产逻辑、交付逻辑、以及价值中心的转移。
一、从确定性逻辑到概率性生成 旧世界：软件是规则的集合 传统的软件开发本质上是规则的集合。程序员编写 if-else 语句，编译器将这些规则转化为机器可执行的指令。整个过程是确定性的——相同的输入必然产生相同的输出。
在那个世界里，软件是昂贵的&quot;复杂建筑&quot;：
你需要雇佣高薪的程序员 需要花费数月时间敲代码、Debug 构建出一个僵硬的系统 任何需求变更都意味着重新编写代码 软件工程师就像传统的手工艺人，每一行代码都是精心雕琢的作品。
新世界：AI 是&quot;生长&quot;出来的 当 AI 介入后，一切都变了。我们不再通过编写规则来解决问题，而是通过数据训练模型，让它自己生成结果。
这种转变是根本性的：
不再需要明确的规则：AI 通过海量数据学习模式，能够处理从未见过的场景 结果是概率性的：同样的输入可能产生不同的输出，但质量往往更高 系统是弹性的：模型可以自适应，而不需要手动修改代码 当纳瓦尔说&quot;AI 吞噬了软件&quot;，他意味着软件的构建块正在发生质变。未来的软件不再是由数百万行手写代码组成的，而是由几个核心算法（AI）和海量推理构成的。
二、软件的边际成本：从&quot;低&quot;变为&quot;零&quot; 安德森说&quot;软件吞噬世界&quot;，是因为软件的复制成本几乎为零——一份软件可以无限复制而不需要额外成本。这是 SaaS（软件即服务）商业模式成立的基础。
但纳瓦尔看到了更深层的变革：定制化软件的生产成本正在归零。
以前的困境 以前，如果你需要一个特定的功能，你有两个选择：
购买通用软件：承担高昂的许可费用，接受固定的功能集合 雇人开发：等待数周甚至数月，承担巨大的开发成本 软件产品本质上是一种&quot;刚性&quot;商品——你想要灵活性，就要付出额外代价。
AI 带来的变革 现在，AI（如 LLM）可以根据你的自然语言需求：
实时生成代码 直接提供解决方案 动态调整输出以匹配你的意图 这意味着：
软件产品正在贬值：用户不再需要一个固定的界面和功能列表 推理能力正在升值：真正值钱的变成了&quot;解决问题的能力&quot; 这解释了为什么传统的 SaaS 面临巨大的挑战——用户不再需要一个固定的软件产品，而是需要一个能随时理解意图并交付结果的智能体（Agent）。
三、编程语言的终极演变：英语是新的编程语言 软件时代：人适应机器 在过去五十年里，学习编程意味着要适应机器的思维方式：]]></description>
</item>
<item>
  <title>RAG 深度解读：检索增强生成技术原理与实践</title>
  <link>https://cfanzp008.github.io/rag-deep-analysis/</link>
  <pubDate>Thu, 02 Apr 2026 10:00:00 &#43;0800</pubDate>
  <author>作者</author>
  <guid>https://cfanzp008.github.io/rag-deep-analysis/</guid>
  <description><![CDATA[RAG 深度解读：检索增强生成技术原理与实践 背景与问题 大型语言模型（LLM）在生成代码、总结文章、回答问题等方面表现出色，但存在一个根本性限制：它们只知道训练数据中的信息。
训练数据是有限的，且存在以下问题：
知识截止日期（Knowledge Cutoff）：模型的知识停留在训练数据收集的时间点，无法获取实时信息 领域知识缺失：通用模型缺乏特定领域的专业知识，如企业内部文档、产品规格等 幻觉问题（Hallucination）：模型可能生成看似合理但实际错误的内容 训练成本高昂：想让模型学习新知识，需要重新训练或微调，成本巨大 RAG（Retrieval-Augmented Generation，检索增强生成）正是为解决这些问题而设计的架构。
什么是 RAG RAG 是一种优化 LLM 性能的架构，通过连接外部知识库，让模型在生成响应时能够访问最新的、领域特定的、权威的数据。
RAG 这个名称本身就描述了它的工作流程：
Retrieval（检索）：从外部知识库查询相关信息 Augmented（增强）：将检索到的信息添加到提示中作为上下文 Generation（生成）：基于增强后的提示生成最终响应 RAG 核心流程 RAG 系统遵循五阶段流程：
1 用户提交问题 → 检索知识库 → 返回相关信息 → 构建增强提示 → LLM生成响应 阶段详解 用户提交提示（Prompt）：用户提出问题或请求 信息检索（Retrieval）：检索模型查询知识库，获取相关数据 信息返回：从知识库返回相关信息到集成层 提示增强（Augmentation）：RAG 系统将原始用户提示与检索到的上下文结合，构建增强提示 生成响应（Generation）：LLM 基于增强后的提示生成最终响应，返回给用户 RAG 系统核心组件 RAG 系统包含四个主要组件：
1. 知识库（Knowledge Base） 知识库是 RAG 系统的外部数据仓库，可以包含多种数据源：
PDF 文档 文本文件、指南 网站内容 音频文件 数据库记录 知识库中的数据需要经过**向量化（Embedding）**处理，转换为数值向量表示，才能进行语义搜索。
2. 检索器（Retriever） 检索器是执行语义搜索的 AI 模型，其工作流程：
将用户查询转换为向量表示（使用相同的嵌入模型） 在知识库中搜索相似的向量 返回最相关的文档片段 3.]]></description>
</item>
</channel>
</rss>
