返回文章列表
AI

AI有哪些分类?AI大模型基础及原理

小站
2025-11-11
3周前
AI有哪些分类?AI大模型基础及原理

一、AI大模型时代已来,你准备好了吗?

什么是AI?

AI的核心目标在于模拟并延伸人类的智能,使机器能胜任那些通常需要人类高级认知能力才能完成的任务。这包括从基础的语言理解、图像识别,到更复杂的决策分析、自主学习等一系列智能行为。

人工智能已经走过了几个关键发展阶段:

·早期阶段以规则为基础的专家系统,依赖预设的逻辑和规则。比如1970年代,无人驾驶技术的研究;

·机器学习时代通过数据训练模型,使机器能够从数据中学习规律。

·深度学习时代利用神经网络模拟人脑的复杂结构,处理更复杂的任务。

·大模型时代以大规模数据和算力为基础,构建通用性强、性能卓越的AI模型

当前,我们正处在大模型时代,了解其原理并掌握API使用已成为技术人员的基本技能。

二、AI的分类:了解你的工具

1. 分析式AI(判别式AI)

核心任务:对已有数据进行分类、预测或决策

优势:高精度、高效性

局限:只能处理已有数据模式,无法创造新内容

2. 生成式AI

核心任务:创造新内容,如文本、图像、音频等

优势:创造性、灵活性

挑战:数据隐私、版权保护

在实际应用中,我们需要根据具体场景选择合适的AI类型。如果你需要分析用户评论情感,分析式AI更合适;如果你需要生成广告文案,那么生成式AI是你的首选。

三、大语言模型(LLM)深度解析

1、什么是LLM?

大型语言模型是基于海量文本数据训练的深度学习模型,属于生成式AI。它能理解和生成类人类的自然语言,常见模型有GPT系列、DeepSeekQwen等。

核心能力

文本理解、摘要、翻译、问答

内容创作

上下文关联对话

少量示例学习下游任务

场景示例:

智能客服:电商网站导入基于LLM的聊天机器人,能即时理解客户复杂的售后问题,提供个性化的解决方案,大幅提升服务效率与客户满意度。

内容创作:营销团队使用LLM,输入产品关键字和目标受众,快速生成多版本的广告文案、社交媒体帖文与博客文章,有效降低人力成本。

2、生图/生视频模型(Text-to-Image/Video)

专门将文字描述转换为全新的图像或视频。它们学习了图像、视频与其对应文字标签之间的关联,代表模型有DALL-EMidjourneySora

能够根据用户输入的文字提示(Prompt),创造出符合描述且风格多样的视觉内容。模型能融合不同概念、属性和风格,生成前所未有的原创作品。

场景示例:

产品设计:设计师输入一款具有未来感的流线型运动跑鞋,采用回收海洋塑料材质,模型可快速生成多款概念图,加速产品可视化与迭代过程。

影视预览:导演利用文字生成视频模型,将剧本中的关键场景转换为动态预览片段,以便在实际拍摄前,评估镜头、光影和场景布局的可行性。

3. 视觉识别模型(Computer Vision Model)

视觉识别模型让计算机能看懂并解析图像与视频内容,属于计算机视觉领域。主要任务包括图像分类、物体检测、图像分割等,模型如YOLOResNet

能准确辨识影像中的物体、人脸、文字或特定场景。其核心在于从像素中提取特征,并与已知模式进行比对,以完成识别、定位或追踪等任务。

场景示例:

智能制造:在生产线上部署视觉识别系统,能即时检测产品外观的微小瑕疵,如刮痕或缺件,自动剔除不合格品,确保出厂品质,准确率远超人眼。

医疗影像分析:医院导入AI辅助判读系统,分析X光或CT扫描影像。模型能快速标记出疑似肿瘤或病变的区域,协助放射科医生提高诊断效率与准确性。

LLM的训练过程(以ChatGPT为例)

   大语言模型是一种通用自然语言生成模型,使用大量预料数据训练,以实现生成文本、回答问题、对话生成等



训练步骤:


   这里有个关键洞察:使用排序任务代替打分任务,因为让标注员给统一标准的排序比给出绝对分数更容易,这大大提高了数据标注的一致性。



   强化学习阶段,我们让AI自我探索发掘出一系列新的答案,这些答案有好有坏,有比之前标注结果更好的,也有距离标准答案更远的,通过调整RANK List记录排名的方式,让AI明白哪个答案更准确,那种结果推断方向更正确。



   随着大模型AI的不断发展,我们可以看到,大模型的参数量已经从GPT1时代的1.17亿,迭代到了GPT5时代的52万亿(20258),有人揣测最终可能会突破100万亿参数的规模。当前的AI的创作灵感,就是来源于我们人类的大脑,我们模拟大脑工作方式,组装出了叫做神经网络的模型,进而发展出当前众多的AI模型,而我们人类大脑的神经元数量是多少?是250万亿,GPT5的突破100万亿,已经和人类神经元数量比较接近,基本处于同一水平。而且,我们为了训练大模型,已经至少向其投喂了至少45TB的数据,1TB数据量大约相当于1000万本书,而我们人类从0-20岁,最多看过学过1000本书的知识量,所以在这个层面来讲,我们人类个体和AI几乎没有可比性……这就是当前大模型所拥有的恐怖能力。

四、核心技术概念详解

1. Token:大模型的语言单位

TokenLLM处理文本的最小单位。模型无法直接理解文字,需要将文本切分成Token,再转换为数字向量进行运算。不同的模型使用不同的分词器Tokenizer)来定义Token

示例

·英文"Hello World" → ["Hello", "World"]

GPT-4o 会切分为[“Hello“, ”World“] => 对应的 token id = [13225, 5922]

·中文"人工智能你好啊" → ["人工智能", "你好", ""]

DeepSeek-R1会切分为[“人工智能”, “你好”,“”] => 对应的token id = [33574, 30594, 3266]

小贴士:不同模型使用不同的分词器,这直接影响模型效率和对语言细节的理解能力。推荐使用在线工具 tiktokenizer 查看不同模型如何切分你的文本。

2. 特殊Token:模型的"标点符号"

为了让模型更好地理解文本的结构和指令,开发者会预设一些具有特殊功能的Token。这些Token不代表具体词义,而是作为一种标点命令存在。

分隔符(Separator Token): 用于区分不同的文本段落或角色。比如,在对话中区分用户和AI的发言,可能会用<|user|><|assistant|>这样的Token

结束符(End-of-Sentence/End-of-Text Token): 告知模型文本已经结束,可以停止生成了。常见的如[EOS] 或<|endoftext|>。这对于确保模型生成完整且不冗长的回答至关重要。

起始符(Start Token): 标记序列的开始,例如[CLS] (Classification) [BOS] (Beginning of Sentence),帮助模型准备开始处理文本。

3. Temperature与Top P:控制文本多样性的双刃剑

TemperaturTop P是控制LLM 生成文本的多样性,但原理不同。

Temperature(温度)

·原理:调整下一个Token概率分布的平滑度

·低温度(0.2):结果稳定、保守,适合事实性问答

·高温度(1.0+):结果创造性高,可能不连贯,适合创意写作

Top P(核采样)

·原理它设定一个概率阈值(P),然后从高到低累加所有Token的概率,直到总和超过P为止。模型只会在这个累加出来的核心词汇表中选择下一个Token

·低Top P(0.1):候选词少,结果确定性强

·高Top P(0.9):候选词多,结果多样性高

举例:假设模型要完成句子:今天天气真...”

模型预测的下一个词可能是:好(60%)、不错(30%)、糟(9%)、可乐(0.01%)

Temperature:会提升所有词的概率,使得可乐这个不相关的词也有机会被选中。

Top P (设为0.9):会选择概率总和达到90%的词。这里好(60%) +不错(30%) = 90%,所以模型只会从不错中选择,直接排除了可乐这种离谱的选项。

相比Temperature,Top P能更动态地调整候选词的数量,避免选到概率极低的离谱词汇=> 产生更高质量的文本。

实战建议:对于需要准确性的任务,使用低Temperature和低Top P;对于创意任务,可适当调高这两个参数。

五、AI聊天产品的"超能力"

1. 联网搜索:突破数据时效限制

弥补LLM训练数据截止日期的限制=>获取外部信息

当用户提问涉及最新资讯时,系统会识别出这一需求,自动调用搜索Tool,并将问题转化为多个简洁的搜索关键词。接着,程序调用搜索引擎API(如Google搜索)获取信息。

最后,这些实时信息会作为上下文提供给模型,由模型进行总结和提炼,生成精准且与时俱进的回答。

应用场景:查询最新股价、新闻事件、技术动态等。

例如,当你询问“黄金的涨跌和哪些因素有关?” LLM会调用一个搜索工具,输入你刚才的问题,然后获取相关的信息 => 整理到回答中。

2. 读取文件:基于RAG的技术

工作流程

基于检索增强生成Retrieval-Augmented Generation, RAG)的技术。

当你上传一个文件(如PDFWord文档)时,系统首先会将其内容分割成小块(Chunks)。

然后,通过Embedding技术将这些文本块转化为数学向量,并存储在专门的向量数据库中。

当你针对文件内容提问时,系统会将你的问题也转化为向量,并在数据库中快速找到最相关的文本块,最后将这些文本块连同你的问题一起交给模型,生成答案。

应用场景:分析公司财报、技术文档、法律合同等。

比如,上传一份公司财报后,提问“第二季度的利润是多少?” RAG系统能精确定位到财报中相关的片段,让LLM直接使用。

3. 记忆功能:从"金鱼"到"伙伴"

LLM本身是无状态的,每次对话都是一次全新的互动,不记得之前的交流。

为了实现记忆,系统会在每次对话时,将最近的几轮问答作为背景信息一起发送给模型

=> 称为短期记忆上下文窗口

对于需要长期记住的关键信息,例如你的名字或偏好,系统会通过特定算法提取这些信息,

=> 将其存储在用户专属的数据库中。

=> 在后续的对话中,系统会先从数据库中读取,为模型提供更个性化的背景知识。

应用场景:记住用户偏好、对话历史、个人设置等。

比如,你告诉AI“我喜欢简洁的回答风格”,系统会记录这一偏好。

下次你提问时,它就会倾向于给出更简练的答复。

六、全球AI发展现状


如上图所示,无需多言,目前全球主流模型,都集中在中美两个国家,这也是当今全球人工智能竞争的两大主力区域。


 上图展示了目前各主流推理大模型的综合排名(本排名截止20256月,相对较旧)

全球AI模型发展现状(中美对比):

美国:OpenAIAnthropicGoogleMeta等公司主导前沿模型,如GPT-4oClaude 4 SonnetGemini 2.5 Flash

中国:DeepSeek(如R1V3)、阿里巴巴(如Qwen3)、Moonshot等公司快速追赶,部分模型(如Kimi K2, DeepSeek R1)已接近美国前沿水平。

•关键趋势:中国模型在2024年显著缩小与美国的差距,尤其在推理模型和开源模型领域表现突出。其他地区:法国(Mistral)、加拿大(Cohere)等也有前沿模型,但中美仍是主导力量。

出口限制与硬件影响:

美国对华限制:

1、时间线:202210月首次限制(H100A100),202310月升级(H800A800受限),20251月新增“AI扩散规则

2、当前状态:仅H20、L20等低性能芯片可出口中国,未来可能进一步收紧。

3、影响:中国依赖国产芯片(如华为昇腾)或降级版NVIDIA芯片(如H20,算力仅为H100的15%)。

硬件性能对比:

• NVIDIA H100989 TFLOPs3.35 TB/s带宽。

• NVIDIA H20148 TFLOPs4 TB/s带宽(专为中国市场设计)。

• AMD MI300X1307 TFLOPs5.3 TB/s带宽(未受限制)。

中国AI公司概览:

1、大科技公司:

阿里巴巴:通义千问(Qwen)系列,Qwen3

百度:文心一言(Ernie 4.0 Turbo

腾讯:混元大模型(HunyuanLarge

字节跳动:豆包(Doubao1.6 Pro

华为:盘古5.0Pangu 5.0 Large

初创公司:

• DeepSeekR1V3,开源模型表现优异。

• MoonshotKimi K2,专注长上下文窗口。

• MiniMaxText-01,多模态能力突出。(202510月末发布M2,据说性能突出,价格低廉)

其他:智谱AIChatGLM)、百川智能(Baichuan)等。

本文内容仅供参考,不构成任何专业建议。使用本文提供的信息时,请自行判断并承担相应风险。

分享文章
合作伙伴

本站所有广告均是第三方投放,详情请查询本站用户协议