综述《RAG and RAU: A Survey on Retrieval-Augmented Language Model in Natural Language Processing》粗读
文章作者: lix
版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Zone of Lix!
相关推荐

2025-08-12
大模型学习笔记(一)——综述笔记
综述《Large Language Models: A Survey》粗读 摘要 本文主要内容包括: 阐述当下主流的三个大模型家族(GPT,LLaMa,PaLM)的特点、贡献和局限性。 总览了制作、增强大模型的技术。 介绍了用于大模型训练、微调、评估的数据集。 介绍了大模型评估指标,并对比了各类大模型在一些代表性的benchmark上的表现。 讨论了一些公开的挑战和未来的研究方向。 图表 模型、技术概览 规模较小的模型无法拥有Emergent Abilities(涌现能力),它不是线性增长的,而是在模型的参数量达到某一个临界值后突然“获得”的。 涌现能力包括上下文学习、指令跟随、多步推理。 可以看到使用频率最高的训练数据库是Common Crawl、代码数据集(GitHub、Code datasets、SlimPajama 等)、学术/科学数据集(Arxiv、StackExchange、DocBank)。 通过预训练得到一个学会通用语言表示的模型,然后通过微调来解决具体的任务。 预训练的流程: 以掩盖部分词的句子对的形式输入,让大模型预测掩盖的是什么,并且输出下一句预...

2025-08-16
大模型学习笔记(二)——其它知识点总结
如何让模型学习、理解自然语言和世界知识 任务设计 去噪自监督学习(Denoising Auto-Encoding):破坏原文,让模型补充,BERT的MLM(Masked Language Modeling)就是这种任务。 示例: 原文: The chef cooked the meal. 破坏后: The chef [mask] the meal. 主模型的任务: 预测被 [mask] 替换的词是 cooked。 自回归语言建模 (Autoregressive Language Modeling):让模型从左到右逐个预测下一个词。 示例: 输入: 今天天气真不错,我们一起去 模型的目标: 预测出下一个词是 公园、散步 或其他合理的词。 学习到的能力: 这种方法极大地锻炼了模型的生成能力、流畅性和上下文关联能力。因为它必须根据已经出现的所有前文来推断最合理地延续,所以它对语境的理解非常深刻,这也就是为什么GPT系列擅长对话、写作和上下文学习(In-context Learning)。 对比学习 (Contrastive Learning):要求模型学会判断“相似”与“不相似”,将...
评论



