Jacky's blog
首页
  • 学习笔记

    • web
    • android
    • iOS
    • vue
  • 分类
  • 标签
  • 归档
收藏
  • tool
  • algo
  • python
  • java
  • server
  • growth
  • frida
  • blog
  • SP
  • more
GitHub (opens new window)

Jack Yang

编程; 随笔
首页
  • 学习笔记

    • web
    • android
    • iOS
    • vue
  • 分类
  • 标签
  • 归档
收藏
  • tool
  • algo
  • python
  • java
  • server
  • growth
  • frida
  • blog
  • SP
  • more
GitHub (opens new window)
  • shell

  • tool

  • 网络

  • compute_base

  • blog

  • growth

  • java

  • C&C++

  • ai

    • base

      • AI 指南
      • RAG
      • AI TOP10基础问题
        • 1. Tools、Workflow 和 Agent 三者区别是什么?
        • 2. 什么是 RAG?
        • 3. 什么是 Prompt Engineering?
        • 4. 什么是幻觉(Hallucination)?
        • 5. Token 是什么?为什么 LLM 按 Token 计费?
        • 6. Temperature 参数是什么?
        • 7. Embedding 是什么?
        • 8. Function Calling 是什么?
        • 9. 什么是 MCP?
        • 10. 大模型是如何训练的?
      • LLM 学习入门完整指南
    • tools

    • other

  • secure

  • cms

  • english

  • 生活

  • 金融学

  • more

  • other
  • ai
  • base
Jacky
2026-03-19
目录

AI TOP10基础问题

# 1. Tools、Workflow 和 Agent 三者区别是什么?

参考:小林coding (opens new window)

三者是粒度从小到大的三层结构,不是三选一的关系,实际项目中通常同时存在、相互嵌套。

  • Tools:最小的能力单元,就是封装好的可调用函数(如搜索、执行代码、发邮件),只负责「执行」,本身没有决策能力
  • Agent:完整的决策系统,内部用 LLM 做大脑,自主判断何时调哪个 Tool、要不要继续、何时结束
  • Workflow:上层编排框架,把 Agent、LLM、Tools 组织成一条确定性流程,节点做什么、按什么顺序流转由开发者事先写死

核心区别一句话:Tools 不做决策只执行,Agent 自己做决策,Workflow 是开发者替所有节点把决策提前写好。

维度 Tools Agent Workflow
决策能力 无(只执行) 有(LLM 自主决策) 无(开发者写死)
执行方式 被动等待调用 主动循环直到完成 按定义顺序执行
确定性 高 低(同输入可能不同路径) 高(完全可预测)
灵活性 只做一件事 高(应对预料外情况) 低(流程固定)
调试难度 容易 难(路径不确定) 容易(链路清晰)
适用场景 封装单一能力 路径未知的复杂任务 流程固定的业务系统

Agentic Workflow(生产主流模式)

纯 Agent 行为难控制、成本高;纯 Workflow 又太脆、无法穷举所有情况。生产环境主流做法是 Agentic Workflow:用 Workflow 固定主流程骨架,在需要灵活判断的节点嵌入 Agent,其余固定节点直接用 LLM 或 Tools。

# 2. 什么是 RAG?

RAG(Retrieval-Augmented Generation,检索增强生成)是一种让 LLM 结合外部知识库来回答问题的技术架构。

工作流程:

用户提问 -> 向量化查询 -> 从知识库检索相关文档 -> 将文档作为上下文注入 Prompt -> LLM 生成回答
1

为什么需要 RAG:

  • LLM 的训练数据有截止日期,无法回答最新信息
  • LLM 可能产生幻觉(编造不存在的内容)
  • 企业私有数据不在 LLM 训练集中

RAG vs 微调(Fine-tuning):

维度 RAG 微调
知识更新 更新文档即可,实时性强 需要重新训练,成本高
成本 较低(只需向量数据库) 较高(GPU 训练资源)
适用场景 知识库问答、文档检索 特定领域风格/格式要求
可解释性 高(可追溯来源文档) 低(知识融入模型权重)

# 3. 什么是 Prompt Engineering?

Prompt Engineering(提示工程)是通过设计和优化输入给 LLM 的提示词,来引导模型输出更准确、更符合预期结果的技术。

常用技巧:

  • 角色设定:「你是一个资深 Python 开发者」
  • Few-shot:给出几个输入输出示例,让模型学习模式
  • CoT(Chain of Thought):加上「请一步步思考」引导推理过程
  • 输出格式约束:「请以 JSON 格式返回」
  • 分隔符:用 """ 或 ### 明确区分指令和内容

参考资源:

  • OpenAI Prompt Engineering Guide (opens new window)
  • awesome-chatgpt-prompts (opens new window)

# 4. 什么是幻觉(Hallucination)?

LLM 幻觉是指模型生成看似合理但实际错误或虚构的内容。

常见表现:

  • 编造不存在的论文、书籍、URL
  • 虚构人物经历或历史事件细节
  • 给出错误的代码或 API 调用

缓解方法:

  • 使用 RAG 引入外部知识作为依据
  • 降低 temperature 参数减少随机性
  • 要求模型回答时附带来源引用
  • 在 Prompt 中明确「如果不确定请说不知道」

# 5. Token 是什么?为什么 LLM 按 Token 计费?

Token 是 LLM 处理文本的最小单位,不等于字或词。

  • 英文:约 1 个单词 ≈ 1~1.5 个 Token(如 "hello" = 1 Token,"unbelievable" = 3 Tokens)
  • 中文:约 1 个汉字 ≈ 1~2 个 Token

为什么按 Token 计费:LLM 的计算成本与处理的 Token 数量直接相关,Token 越多,推理时间和资源消耗越大。

上下文窗口:每个模型有 Token 上限(如 GPT-4o 为 128K),输入 + 输出的总 Token 数不能超过这个限制。

# 6. Temperature 参数是什么?

Temperature 控制 LLM 输出的随机性/创造性,取值范围通常为 0~2。

值 效果 适用场景
0~0.3 输出确定、保守、一致性高 代码生成、数据提取、事实问答
0.5~0.8 平衡创造性和准确性 一般对话、内容写作
1.0~2.0 输出多样、创造性强、可能跑偏 头脑风暴、创意写作

# 7. Embedding 是什么?

Embedding(嵌入)是将文本转换为高维向量(数字数组) 的技术,使计算机能理解语义相似性。

"猫"     -> [0.21, -0.53, 0.87, ...]
"小猫咪" -> [0.19, -0.51, 0.85, ...]   # 向量接近,语义相似
"汽车"   -> [-0.72, 0.33, -0.11, ...]   # 向量差异大,语义不同
1
2
3

核心应用:语义搜索、RAG 中的文档检索、推荐系统、文本分类。

# 8. Function Calling 是什么?

Function Calling 是 LLM 的一种能力:模型根据用户意图,自动决定调用哪个函数并生成对应参数。

用户:"北京今天天气怎么样?"
  -> LLM 识别意图,输出:调用 get_weather(city="北京")
  -> 应用层执行函数,获取真实天气数据
  -> 将结果返回 LLM 生成自然语言回答
1
2
3
4

Function Calling 是实现 Agent 调用 Tools 的底层机制。不同模型厂商的实现方式略有差异,但核心思路一致:开发者向 LLM 描述可用的函数签名,LLM 决定是否调用以及传什么参数。

# 9. 什么是 MCP?

MCP(Model Context Protocol)是 Anthropic 发布的开源标准协议,用于统一 AI 应用与外部系统的连接方式。

详见:AI 指南 - MCP

一句话理解:MCP 之于 AI 工具调用,类似于 USB 之于硬件设备——一个统一的接口标准,让不同的 AI 应用可以通过同一套协议连接各种外部工具和数据源。

# 10. 大模型是如何训练的?

大模型训练一般分为三个阶段:

预训练(Pre-training) -> 有监督微调(SFT) -> 人类反馈强化学习(RLHF)
1
阶段 数据 目标
预训练 海量互联网文本(TB 级) 学习语言知识和世界知识
SFT 人工标注的指令-回答对 学会按指令格式回答问题
RLHF 人类对回答的偏好排序 让输出更符合人类期望

预训练消耗资源最大(数千张 GPU 训练数周),SFT 和 RLHF 相对轻量,是让模型从"会说话"变成"好用"的关键步骤。

#ai#agent#llm
上次更新: 2026/03/19, 21:56:31
RAG
LLM 学习入门完整指南

← RAG LLM 学习入门完整指南→

最近更新
01
claude
03-18
02
android沉浸式设置
03-17
03
openclaw
03-09
更多文章>
Theme by Vdoing | Copyright © 2019-2026 Jacky | MIT License
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式