文章详情|大语言模型发展简史

大语言模型发展简史 所属分类 AI 浏览量 247
时间 / 发展阶段 / 主要模型或技术 /  描述

1950年一1980年  统计语言模型    N-grams    基于统计的模型，通过计算单词共现频率来预测下一个单词

1980年一2010年  神经网络语言模型
前馈神经网络        采用多层感知机，将上下文单词嵌入作为输入，输出下一个单词的概率分布
循环神经网络(RNN)   通过隐藏状态传递上下文信息，能够处理序列数据
长短期记忆网络(LSTM)   结构简化的LSTM，参数更少，适用于处理长序列
门控循环单元(GRU)     通过门控机制克服长距离依赖问题，提高对上下文的建模能力

2017年   Transformer架构 
Transformer    引入自注意力机制，允许并行处理序列，显著提升训练效率
BERT           通过双向编码器建模上下文，提升文本理解能力
GPT            自回归模型，专注于文本生成任务，表现出色
T5 (文本到文本转移变换器）   统一将所有NLP任务转换为文本到文本的格式，换器提升通用性


2020年 更大规模模型
GPT-3           具有1750亿参数的生成模型，表现出色，推动了生成式AI的发展
ChatGPT         结合对话能力和生成能力，广泛应用于聊天机器人和虚拟助手
其他大型语言模型   各大公司如Google、Meta等纷纷推出大型语言模型，其应用领域不断拓展





时间范围	发展阶段	主要模型或技术	描述

1950 年 —1980 年	统计语言模型时代	
N-grams、机器翻译系统（如 IBM 早期系统）、Eliza	

- N-grams 通过计算单词序列的共现概率预测下一个词，是早期主流统计模型；
- 1954 年 IBM 与乔治城大学合作的俄语 - 英语翻译系统，开创机器翻译先河；
- 1966 年 Eliza 通过模式匹配模拟对话，是首个聊天机器人，虽无真正理解能力，但启发了人机交互思路 ；



1980 年 —2010 年	神经网络语言模型兴起	

前馈神经网络、循环神经网络（RNN）、长短期记忆网络（LSTM）、门控循环单元（GRU）

- 前馈神经网络首次将单词嵌入为向量输入，尝试用神经网络建模语言；
- RNN 通过隐藏状态处理序列数据，但存在 “梯度消失 / 爆炸” 问题，难以捕捉长距离依赖；
- 1997 年 LSTM 提出，通过遗忘门、输入门等机制解决长序列建模难题；
- 2014 年 GRU 简化 LSTM 结构，减少参数同时保留长距离建模能力，提升训练效率 ；

2010 年 —2017 年	词向量与深度学习过渡	Word2Vec、GloVe、Seq2Seq 模型	
- 2013 年 Word2Vec 提出 “词向量” 概念，将单词映射为低维稠密向量，捕捉语义关联；
- GloVe（2014 年）通过全局词共现统计优化词向量，提升语义表示能力；
- Seq2Seq 模型（2014 年）基于 RNN 实现 “编码 - 解码” 框架，推动机器翻译等序列生成任务发展 ；


2017 年	Transformer 革命	
Transformer 架构、BERT（2018）、GPT（2018）、T5（2019）	

- 2017 年 Vaswani 等人提出 Transformer，以自注意力机制替代 RNN，支持并行计算，大幅提升训练效率；
- BERT（2018）采用双向 Transformer，通过 “掩码语言模型” 预训练，在文本理解任务（如分类、实体识别）中突破；
- GPT（2018）基于 Transformer 的自回归生成模式，专注文本续写，GPT-2（2019 年，15 亿参数）首次展现 “零样本迁移” 能力；
- T5（2019）提出 “文本到文本” 统一框架，将所有 NLP 任务转化为 “输入文本→输出文本” 格式，提升模型通用性 ；


2020 年 —2022 年	大规模模型爆发	
GPT-3（2020）、PaLM（2022）、LLaMA（2022）	

- 2020 年 GPT-3 以 1750 亿参数刷新规模纪录，通过 “少样本 / 零样本学习” 在翻译、创作等任务中表现惊艳，证明 “规模即能力”；
- 谷歌 PaLM（5400 亿参数）在多语言理解和推理任务中领先；
- Meta 的 LLaMA（开源，参数量从 70 亿到 6500 亿）降低大模型研究门槛，推动开源社区发展 ；


2022 年至今	实用化与多模态拓展	

ChatGPT（2022）、GPT-4（2023）、Bard、文心一言等
- 2022 年 ChatGPT 结合 InstructGPT 的指令微调与 RLHF（人类反馈强化学习），实现自然对话能力，引发 AI 普及浪潮；
- 2023 年 GPT-4 支持文本、图像多模态输入，在逻辑推理、专业考试（如律师资格考）中接近人类水平；
- 谷歌 Bard、百度文心一言等跟进，多模态能力与行业落地（如教育、医疗）成为竞争焦点；
- 开源模型（如 Mistral、DeepSeek）快速迭代，推动大模型从 “闭源垄断” 向 “开源普惠” 发展 ；
关键词匹配与语义搜索：技术原理与应用场景解析

快速学习 LangChain 提问示例

企业智能问答系统技术栈

LangChain4j核心功能

AI知识点001-模型蒸馏

AI知识点002-交叉熵