首页  

大语言模型发展简史     所属分类 AI 浏览量 24
时间 / 发展阶段 / 主要模型或技术 /  描述

1950年一1980年  统计语言模型    N-grams    基于统计的模型,通过计算单词共现频率来预测下一个单词

1980年一2010年  神经网络语言模型
前馈神经网络        采用多层感知机,将上下文单词嵌入作为输入,输出下一个单词的概率分布
循环神经网络(RNN)   通过隐藏状态传递上下文信息,能够处理序列数据
长短期记忆网络(LSTM)   结构简化的LSTM,参数更少,适用于处理长序列
门控循环单元(GRU)     通过门控机制克服长距离依赖问题,提高对上下文的建模能力

2017年   Transformer架构 
Transformer    引入自注意力机制,允许并行处理序列,显著提升训练效率
BERT           通过双向编码器建模上下文,提升文本理解能力
GPT            自回归模型,专注于文本生成任务,表现出色
T5 (文本到文本转移变换器)   统一将所有NLP任务转换为文本到文本的格式,换器提升通用性


2020年 更大规模模型
GPT-3           具有1750亿参数的生成模型,表现出色,推动了生成式AI的发展
ChatGPT         结合对话能力和生成能力,广泛应用于聊天机器人和虚拟助手
其他大型语言模型   各大公司如Google、Meta等纷纷推出大型语言模型,其应用领域不断拓展



时间范围 发展阶段 主要模型或技术 描述 1950 年 —1980 年 统计语言模型时代 N-grams、机器翻译系统(如 IBM 早期系统)、Eliza - N-grams 通过计算单词序列的共现概率预测下一个词,是早期主流统计模型; - 1954 年 IBM 与乔治城大学合作的俄语 - 英语翻译系统,开创机器翻译先河; - 1966 年 Eliza 通过模式匹配模拟对话,是首个聊天机器人,虽无真正理解能力,但启发了人机交互思路 ; 1980 年 —2010 年 神经网络语言模型兴起 前馈神经网络、循环神经网络(RNN)、长短期记忆网络(LSTM)、门控循环单元(GRU) - 前馈神经网络首次将单词嵌入为向量输入,尝试用神经网络建模语言; - RNN 通过隐藏状态处理序列数据,但存在 “梯度消失 / 爆炸” 问题,难以捕捉长距离依赖; - 1997 年 LSTM 提出,通过遗忘门、输入门等机制解决长序列建模难题; - 2014 年 GRU 简化 LSTM 结构,减少参数同时保留长距离建模能力,提升训练效率 ; 2010 年 —2017 年 词向量与深度学习过渡 Word2Vec、GloVe、Seq2Seq 模型 - 2013 年 Word2Vec 提出 “词向量” 概念,将单词映射为低维稠密向量,捕捉语义关联; - GloVe(2014 年)通过全局词共现统计优化词向量,提升语义表示能力; - Seq2Seq 模型(2014 年)基于 RNN 实现 “编码 - 解码” 框架,推动机器翻译等序列生成任务发展 ; 2017 年 Transformer 革命 Transformer 架构、BERT(2018)、GPT(2018)、T5(2019) - 2017 年 Vaswani 等人提出 Transformer,以自注意力机制替代 RNN,支持并行计算,大幅提升训练效率; - BERT(2018)采用双向 Transformer,通过 “掩码语言模型” 预训练,在文本理解任务(如分类、实体识别)中突破; - GPT(2018)基于 Transformer 的自回归生成模式,专注文本续写,GPT-2(2019 年,15 亿参数)首次展现 “零样本迁移” 能力; - T5(2019)提出 “文本到文本” 统一框架,将所有 NLP 任务转化为 “输入文本→输出文本” 格式,提升模型通用性 ; 2020 年 —2022 年 大规模模型爆发 GPT-3(2020)、PaLM(2022)、LLaMA(2022) - 2020 年 GPT-3 以 1750 亿参数刷新规模纪录,通过 “少样本 / 零样本学习” 在翻译、创作等任务中表现惊艳,证明 “规模即能力”; - 谷歌 PaLM(5400 亿参数)在多语言理解和推理任务中领先; - Meta 的 LLaMA(开源,参数量从 70 亿到 6500 亿)降低大模型研究门槛,推动开源社区发展 ; 2022 年至今 实用化与多模态拓展 ChatGPT(2022)、GPT-4(2023)、Bard、文心一言等 - 2022 年 ChatGPT 结合 InstructGPT 的指令微调与 RLHF(人类反馈强化学习),实现自然对话能力,引发 AI 普及浪潮; - 2023 年 GPT-4 支持文本、图像多模态输入,在逻辑推理、专业考试(如律师资格考)中接近人类水平; - 谷歌 Bard、百度文心一言等跟进,多模态能力与行业落地(如教育、医疗)成为竞争焦点; - 开源模型(如 Mistral、DeepSeek)快速迭代,推动大模型从 “闭源垄断” 向 “开源普惠” 发展 ;

上一篇     下一篇
关键词匹配与语义搜索:技术原理与应用场景解析

快速学习 LangChain 提问示例

企业智能问答系统技术栈

LangChain4j核心功能

AI知识点001-模型蒸馏

AI知识点002-交叉熵