大语言模型发展简史
所属分类 AI
浏览量 24
时间 / 发展阶段 / 主要模型或技术 / 描述
1950年一1980年 统计语言模型 N-grams 基于统计的模型,通过计算单词共现频率来预测下一个单词
1980年一2010年 神经网络语言模型
前馈神经网络 采用多层感知机,将上下文单词嵌入作为输入,输出下一个单词的概率分布
循环神经网络(RNN) 通过隐藏状态传递上下文信息,能够处理序列数据
长短期记忆网络(LSTM) 结构简化的LSTM,参数更少,适用于处理长序列
门控循环单元(GRU) 通过门控机制克服长距离依赖问题,提高对上下文的建模能力
2017年 Transformer架构
Transformer 引入自注意力机制,允许并行处理序列,显著提升训练效率
BERT 通过双向编码器建模上下文,提升文本理解能力
GPT 自回归模型,专注于文本生成任务,表现出色
T5 (文本到文本转移变换器) 统一将所有NLP任务转换为文本到文本的格式,换器提升通用性
2020年 更大规模模型
GPT-3 具有1750亿参数的生成模型,表现出色,推动了生成式AI的发展
ChatGPT 结合对话能力和生成能力,广泛应用于聊天机器人和虚拟助手
其他大型语言模型 各大公司如Google、Meta等纷纷推出大型语言模型,其应用领域不断拓展
时间范围 发展阶段 主要模型或技术 描述
1950 年 —1980 年 统计语言模型时代
N-grams、机器翻译系统(如 IBM 早期系统)、Eliza
- N-grams 通过计算单词序列的共现概率预测下一个词,是早期主流统计模型;
- 1954 年 IBM 与乔治城大学合作的俄语 - 英语翻译系统,开创机器翻译先河;
- 1966 年 Eliza 通过模式匹配模拟对话,是首个聊天机器人,虽无真正理解能力,但启发了人机交互思路 ;
1980 年 —2010 年 神经网络语言模型兴起
前馈神经网络、循环神经网络(RNN)、长短期记忆网络(LSTM)、门控循环单元(GRU)
- 前馈神经网络首次将单词嵌入为向量输入,尝试用神经网络建模语言;
- RNN 通过隐藏状态处理序列数据,但存在 “梯度消失 / 爆炸” 问题,难以捕捉长距离依赖;
- 1997 年 LSTM 提出,通过遗忘门、输入门等机制解决长序列建模难题;
- 2014 年 GRU 简化 LSTM 结构,减少参数同时保留长距离建模能力,提升训练效率 ;
2010 年 —2017 年 词向量与深度学习过渡 Word2Vec、GloVe、Seq2Seq 模型
- 2013 年 Word2Vec 提出 “词向量” 概念,将单词映射为低维稠密向量,捕捉语义关联;
- GloVe(2014 年)通过全局词共现统计优化词向量,提升语义表示能力;
- Seq2Seq 模型(2014 年)基于 RNN 实现 “编码 - 解码” 框架,推动机器翻译等序列生成任务发展 ;
2017 年 Transformer 革命
Transformer 架构、BERT(2018)、GPT(2018)、T5(2019)
- 2017 年 Vaswani 等人提出 Transformer,以自注意力机制替代 RNN,支持并行计算,大幅提升训练效率;
- BERT(2018)采用双向 Transformer,通过 “掩码语言模型” 预训练,在文本理解任务(如分类、实体识别)中突破;
- GPT(2018)基于 Transformer 的自回归生成模式,专注文本续写,GPT-2(2019 年,15 亿参数)首次展现 “零样本迁移” 能力;
- T5(2019)提出 “文本到文本” 统一框架,将所有 NLP 任务转化为 “输入文本→输出文本” 格式,提升模型通用性 ;
2020 年 —2022 年 大规模模型爆发
GPT-3(2020)、PaLM(2022)、LLaMA(2022)
- 2020 年 GPT-3 以 1750 亿参数刷新规模纪录,通过 “少样本 / 零样本学习” 在翻译、创作等任务中表现惊艳,证明 “规模即能力”;
- 谷歌 PaLM(5400 亿参数)在多语言理解和推理任务中领先;
- Meta 的 LLaMA(开源,参数量从 70 亿到 6500 亿)降低大模型研究门槛,推动开源社区发展 ;
2022 年至今 实用化与多模态拓展
ChatGPT(2022)、GPT-4(2023)、Bard、文心一言等
- 2022 年 ChatGPT 结合 InstructGPT 的指令微调与 RLHF(人类反馈强化学习),实现自然对话能力,引发 AI 普及浪潮;
- 2023 年 GPT-4 支持文本、图像多模态输入,在逻辑推理、专业考试(如律师资格考)中接近人类水平;
- 谷歌 Bard、百度文心一言等跟进,多模态能力与行业落地(如教育、医疗)成为竞争焦点;
- 开源模型(如 Mistral、DeepSeek)快速迭代,推动大模型从 “闭源垄断” 向 “开源普惠” 发展 ;
上一篇
下一篇
关键词匹配与语义搜索:技术原理与应用场景解析
快速学习 LangChain 提问示例
企业智能问答系统技术栈
LangChain4j核心功能
AI知识点001-模型蒸馏
AI知识点002-交叉熵