AI有哪些分类？AI大模型基础及原理

一、AI大模型时代已来，你准备好了吗？

什么是AI？

AI的核心目标在于模拟并延伸人类的智能，使机器能胜任那些通常需要人类高级认知能力才能完成的任务。这包括从基础的语言理解、图像识别，到更复杂的决策分析、自主学习等一系列智能行为。

人工智能已经走过了几个关键发展阶段：

·早期阶段：以规则为基础的专家系统，依赖预设的逻辑和规则。比如1970年代，无人驾驶技术的研究；

·机器学习时代：通过数据训练模型，使机器能够从数据中学习规律。

·深度学习时代：利用神经网络模拟人脑的复杂结构，处理更复杂的任务。

·大模型时代：以大规模数据和算力为基础，构建通用性强、性能卓越的AI模型

当前，我们正处在大模型时代，了解其原理并掌握API使用已成为技术人员的基本技能。

二、AI的分类：了解你的工具

1. 分析式AI（判别式AI）

核心任务：对已有数据进行分类、预测或决策

优势：高精度、高效性

局限：只能处理已有数据模式，无法创造新内容

2. 生成式AI

核心任务：创造新内容，如文本、图像、音频等

优势：创造性、灵活性

挑战：数据隐私、版权保护

在实际应用中，我们需要根据具体场景选择合适的AI类型。如果你需要分析用户评论情感，分析式AI更合适；如果你需要生成广告文案，那么生成式AI是你的首选。

三、大语言模型（LLM）深度解析

1、什么是LLM？

大型语言模型是基于海量文本数据训练的深度学习模型，属于生成式AI。它能理解和生成类人类的自然语言，常见模型有GPT系列、DeepSeek、Qwen等。

核心能力：

• 文本理解、摘要、翻译、问答

• 内容创作

• 上下文关联对话

• 少量示例学习下游任务

场景示例：

•智能客服：电商网站导入基于LLM的聊天机器人，能即时理解客户复杂的售后问题，提供个性化的解决方案，大幅提升服务效率与客户满意度。

•内容创作：营销团队使用LLM，输入产品关键字和目标受众，快速生成多版本的广告文案、社交媒体帖文与博客文章，有效降低人力成本。

2、生图/生视频模型(Text-to-Image/Video)

• 专门将文字描述转换为全新的图像或视频。它们学习了图像、视频与其对应文字标签之间的关联，代表模型有DALL-E、Midjourney及Sora。

• 能够根据用户输入的文字提示（Prompt），创造出符合描述且风格多样的视觉内容。模型能融合不同概念、属性和风格，生成前所未有的原创作品。

场景示例：

• 产品设计：设计师输入“一款具有未来感的流线型运动跑鞋，采用回收海洋塑料材质”，模型可快速生成多款概念图，加速产品可视化与迭代过程。

• 影视预览：导演利用文字生成视频模型，将剧本中的关键场景转换为动态预览片段，以便在实际拍摄前，评估镜头、光影和场景布局的可行性。

3. 视觉识别模型(Computer Vision Model)

• 视觉识别模型让计算机能“看懂”并解析图像与视频内容，属于计算机视觉领域。主要任务包括图像分类、物体检测、图像分割等，模型如YOLO、ResNet。

• 能准确辨识影像中的物体、人脸、文字或特定场景。其核心在于从像素中提取特征，并与已知模式进行比对，以完成识别、定位或追踪等任务。

场景示例：

• 智能制造：在生产线上部署视觉识别系统，能即时检测产品外观的微小瑕疵，如刮痕或缺件，自动剔除不合格品，确保出厂品质，准确率远超人眼。

• 医疗影像分析：医院导入AI辅助判读系统，分析X光或CT扫描影像。模型能快速标记出疑似肿瘤或病变的区域，协助放射科医生提高诊断效率与准确性。

LLM的训练过程（以ChatGPT为例）

大语言模型是一种通用自然语言生成模型，使用大量预料数据训练，以实现生成文本、回答问题、对话生成等

训练步骤：

这里有个关键洞察：使用排序任务代替打分任务，因为让标注员给统一标准的排序比给出绝对分数更容易，这大大提高了数据标注的一致性。

强化学习阶段，我们让AI自我探索发掘出一系列新的答案，这些答案有好有坏，有比之前标注结果更好的，也有距离标准答案更远的，通过调整RANK List记录排名的方式，让AI明白哪个答案更准确，那种结果推断方向更正确。

随着大模型AI的不断发展，我们可以看到，大模型的参数量已经从GPT1时代的1.17亿，迭代到了GPT5时代的52万亿(2025年8月)，有人揣测最终可能会突破100万亿参数的规模。当前的AI的创作灵感，就是来源于我们人类的大脑，我们模拟大脑工作方式，组装出了叫做“神经网络”的模型，进而发展出当前众多的AI模型，而我们人类大脑的神经元数量是多少？是250万亿，GPT5的突破100万亿，已经和人类神经元数量比较接近，基本处于同一水平。而且，我们为了训练大模型，已经至少向其投喂了至少45TB的数据，1TB数据量大约相当于1000万本书，而我们人类从0-20岁，最多看过学过1000本书的知识量，所以在这个层面来讲，我们人类个体和AI几乎没有可比性……这就是当前大模型所拥有的恐怖能力。

四、核心技术概念详解

1. Token：大模型的语言单位

Token是LLM处理文本的最小单位。模型无法直接理解文字，需要将文本切分成Token，再转换为数字向量进行运算。不同的模型使用不同的“分词器”（Tokenizer）来定义Token。

示例：

·英文"Hello World" → ["Hello", "World"]

GPT-4o 会切分为[“Hello“, ”World“] => 对应的 token id = [13225, 5922]

·中文"人工智能你好啊" → ["人工智能", "你好", "啊"]

DeepSeek-R1会切分为[“人工智能”, “你好”,“啊”] => 对应的token id = [33574, 30594, 3266]

小贴士：不同模型使用不同的分词器，这直接影响模型效率和对语言细节的理解能力。推荐使用在线工具 tiktokenizer 查看不同模型如何切分你的文本。

2. 特殊Token：模型的"标点符号"

为了让模型更好地理解文本的结构和指令，开发者会预设一些具有特殊功能的Token。这些Token不代表具体词义，而是作为一种“标点”或“命令”存在。

• 分隔符(Separator Token): 用于区分不同的文本段落或角色。比如，在对话中区分用户和AI的发言，可能会用<|user|>和<|assistant|>这样的Token。

• 结束符(End-of-Sentence/End-of-Text Token): 告知模型文本已经结束，可以停止生成了。常见的如[EOS] 或<|endoftext|>。这对于确保模型生成完整且不冗长的回答至关重要。

• 起始符(Start Token): 标记序列的开始，例如[CLS] (Classification) 或[BOS] (Beginning of Sentence)，帮助模型准备开始处理文本。

3. Temperature与Top P：控制文本多样性的双刃剑

Temperatur和Top P是控制LLM 生成文本的多样性，但原理不同。

Temperature（温度）：

·原理：调整下一个Token概率分布的平滑度

·低温度（0.2）：结果稳定、保守，适合事实性问答

·高温度（1.0+）：结果创造性高，可能不连贯，适合创意写作

Top P（核采样）：

·原理：它设定一个概率阈值（P），然后从高到低累加所有Token的概率，直到总和超过P为止。模型只会在这个累加出来的“核心”词汇表中选择下一个Token。

·低Top P（0.1）：候选词少，结果确定性强

·高Top P（0.9）：候选词多，结果多样性高

举例：假设模型要完成句子：“今天天气真...”

模型预测的下一个词可能是：好(60%)、不错(30%)、糟(9%)、可乐(0.01%)。

高Temperature：会提升所有词的概率，使得“可乐”这个不相关的词也有机会被选中。

Top P (设为0.9)：会选择概率总和达到90%的词。这里好(60%) +不错(30%) = 90%，所以模型只会从“好”和“不错”中选择，直接排除了“可乐”这种离谱的选项。

相比Temperature，Top P能更动态地调整候选词的数量，避免选到概率极低的离谱词汇=> 产生更高质量的文本。

实战建议：对于需要准确性的任务，使用低Temperature和低Top P；对于创意任务，可适当调高这两个参数。

五、AI聊天产品的"超能力"

1. 联网搜索：突破数据时效限制

弥补LLM训练数据截止日期的限制=>获取外部信息

当用户提问涉及最新资讯时，系统会识别出这一需求，自动调用搜索Tool，并将问题转化为多个简洁的搜索关键词。接着，程序调用搜索引擎API（如Google搜索）获取信息。

最后，这些实时信息会作为上下文提供给模型，由模型进行总结和提炼，生成精准且与时俱进的回答。

应用场景：查询最新股价、新闻事件、技术动态等。

例如，当你询问“黄金的涨跌和哪些因素有关？” LLM会调用一个搜索工具，输入你刚才的问题，然后获取相关的信息 => 整理到回答中。

2. 读取文件：基于RAG的技术

工作流程：

基于“检索增强生成”（Retrieval-Augmented Generation, RAG）的技术。

当你上传一个文件（如PDF、Word文档）时，系统首先会将其内容分割成小块（Chunks）。

然后，通过Embedding技术将这些文本块转化为数学向量，并存储在专门的“向量数据库”中。

当你针对文件内容提问时，系统会将你的问题也转化为向量，并在数据库中快速找到最相关的文本块，最后将这些文本块连同你的问题一起交给模型，生成答案。

应用场景：分析公司财报、技术文档、法律合同等。

比如，上传一份公司财报后，提问“第二季度的利润是多少？” RAG系统能精确定位到财报中相关的片段，让LLM直接使用。

3. 记忆功能：从"金鱼"到"伙伴"

LLM本身是无状态的，每次对话都是一次全新的互动，不记得之前的交流。

为了实现“记忆”，系统会在每次对话时，将最近的几轮问答作为背景信息一起发送给模型

=> 称为“短期记忆”或“上下文窗口”。

对于需要长期记住的关键信息，例如你的名字或偏好，系统会通过特定算法提取这些信息，

=> 将其存储在用户专属的数据库中。

=> 在后续的对话中，系统会先从数据库中读取，为模型提供更个性化的背景知识。

应用场景：记住用户偏好、对话历史、个人设置等。

比如，你告诉AI“我喜欢简洁的回答风格”，系统会记录这一偏好。

下次你提问时，它就会倾向于给出更简练的答复。

六、全球AI发展现状

如上图所示，无需多言，目前全球主流模型，都集中在中美两个国家，这也是当今全球人工智能竞争的两大主力区域。

上图展示了目前各主流推理大模型的综合排名(本排名截止2025年6月，相对较旧)

全球AI模型发展现状（中美对比）：

• 美国：OpenAI、Anthropic、Google、Meta等公司主导前沿模型，如GPT-4o、Claude 4 Sonnet、Gemini 2.5 Flash。

• 中国：DeepSeek（如R1、V3）、阿里巴巴（如Qwen3）、Moonshot等公司快速追赶，部分模型（如Kimi K2, DeepSeek R1）已接近美国前沿水平。

•关键趋势：中国模型在2024年显著缩小与美国的差距，尤其在推理模型和开源模型领域表现突出。 • 其他地区：法国（Mistral）、加拿大（Cohere）等也有前沿模型，但中美仍是主导力量。

出口限制与硬件影响：

美国对华限制：

1、时间线：2022年10月首次限制（H100、A100），2023年10月升级（H800、A800受限），2025年1月新增“AI扩散规则”。

2、当前状态：仅H20、L20等低性能芯片可出口中国，未来可能进一步收紧。

3、影响：中国依赖国产芯片（如华为昇腾）或降级版NVIDIA芯片（如H20，算力仅为H100的15%）。

硬件性能对比：

• NVIDIA H100：989 TFLOPs，3.35 TB/s带宽。

• NVIDIA H20：148 TFLOPs，4 TB/s带宽（专为中国市场设计）。

• AMD MI300X：1307 TFLOPs，5.3 TB/s带宽（未受限制）。

中国AI公司概览：

1、大科技公司：

• 阿里巴巴：通义千问（Qwen）系列，Qwen3

• 百度：文心一言（Ernie 4.0 Turbo）

• 腾讯：混元大模型（HunyuanLarge）

• 字节跳动：豆包（Doubao1.6 Pro）

• 华为：盘古5.0（Pangu 5.0 Large）

初创公司：

• DeepSeek：R1、V3，开源模型表现优异。

• Moonshot：Kimi K2，专注长上下文窗口。

• MiniMax：Text-01，多模态能力突出。（2025年10月末发布M2，据说性能突出，价格低廉）

• 其他：智谱AI（ChatGLM）、百川智能（Baichuan）等。