LLM 常见问题(进阶部分)
1. 什么是 LLM 复读机问题?
LLMs 复读机问题指的是模型倾向于不适当地复制用户输入的文本或者在回复中重复使用相同的句式和短语。这种倾向可能源自模型在处理输入时的一种简便路径,即模仿而不是创造性地响应。生成的内容往往缺乏变化和新颖性,这使得交互体验变得预测性强且单调。
2. 为什么 LLM 会出现复读机问题?
- LLM 趋向于提高重复先前句子的概率:当先前的 token 共享同一个句子级的上下文时,模型会学到一条捷径,直接复制该token。另一种解释就是Inudction Head机制,即模型会倾向于从前面已经预测word里面挑选最匹配的词。
- 自我强化效应(self-reinforcement effect):重复的概率随着历史重复次数的增加而单调增加,最终重复概率稳定在某个上限值附近。
3. 如何缓解 LLMs 复读机问题?
目前针对LLM重复生成的问题,主要有两种策略,一种是基于训练思想,一种是基于解码策略。
-
训练思想:整体思想就是通过构造伪数据,即短语重复、句子重复等伪数据,如短语或句子重复 N 遍,然后设计重复惩罚项来抑制大模型生成重复句子。重复惩罚项通过设计损失函数来达成,其中是惩罚因子λ,对于开放式生成,推荐取值为 0.5,对于总结摘要类任务,取值为 0.9 性能更好。
-
解码策略:基于解码策略包含诸多方法,如 beam search, random search(topK, topP), 温度等。
- 集束搜索(beam search):针对贪心策略的改进,思想就是稍微放宽一些考察范围。即在每一个时间步,不再只保留当前分数最高的 1 个输出(贪心策略),而是保留 num_beams 个,当 num_beams=1 时,集束搜索就退化成了贪心搜索。
- random search(topK, topP):topK 即从概率最高的 K 个 token 中进行筛选,即允许其他高分 tokens 有机会被选中,topP 将可能性之和不超过特定值的 top tokens 列入候选名单,topP 通常设置较高的值,目的是限制可能被采样的低概率 token 的长尾。
- Temperature:较低的温度意味着较少的随机性,温度为 0 将始终产生相同的输出,较高的温度意味着更多的随机性,可以帮助模型给出更有创意的输出。
- 集束搜索(beam search):针对贪心策略的改进,思想就是稍微放宽一些考察范围。即在每一个时间步,不再只保留当前分数最高的 1 个输出(贪心策略),而是保留 num_beams 个,当 num_beams=1 时,集束搜索就退化成了贪心搜索。
4. 什么情况用 BERT 模型,什么情况用 LLaMA、ChatGLM 这类大模型?
- BERT:BERT 主要用于文本分类、实体识别和语义相似度评估等,通常在自然语言理解(NLU)方面表现优异。
- LLaMA:该模型属于 Base 模型,擅长文本生成。LLaMa 专长于常识推理、数学推导、代码生成以及语言理解等任务。
- ChatGLM:该模型属于 Chat 模型,适合用于开发聊天机器人吗,与用户进行交流、问答。
5. 各个专业领域是否需要各自的大模型来服务?
- 垂直领域知识:为了有效处理某一专业领域的文本,模型需要接受包含该领域特定知识和术语的训练。例如,医疗领域的大型模型通过接受医疗知识的专业训练,能够更精准地解读和生成相关医疗文本。
- 行业特定语言表达和习惯用语:不同的专业领域往往发展出了独有的语言表达风格和习惯用语。通过对这些特征的深入训练,大型模型能够更好地理解并产生符合特定领域风格的文本,并且在生成内容上会更专业。
- 行业文本需求差异:各个领域对文本处理的具体需求有差异。例如,金融行业可能更专注于处理数字和统计信息,而法律行业可能更注重法规内容和案例分析的深度解读。因此不同领域的大型模型需经过额外的训练。
6. LLM 输入句子长度理论上可以无限长吗?
理论上 LLM 可以处理无限长度的文本,但主要问题是输入文本过长了生成效果可能会严重下降,限制主要在于训练数据。在没训练过的输入文本长度上效果通常不好。
7. 如何让大模型处理更长的文本?
针对长文本建模的难点,目前主要有3种不同的解决方案:
-
external memory:借助模型外部工具辅助处理长文本或者利用外部记忆,将长文本切分为若干份长度适合的短文本片段并放入数据库中。模型在处理新文本时,根据具体问题对外部的数据库,得到最相关的一个或多个短文本片段,每次只加载所需要的短文本片段,从而避开了模型无法一次读入整个长文本的问题。
-
Model Compression/ Acceleration:利用模型优化的一般方法,该类方法致力于降低模型计算时间复杂度或空间复杂度,虽然不是针对长文本建模的专门优化,但是一般性的模型优化节约出来的算力/存储空间可以用于更长的文本建模。
-
Efficient Transformers:优化 Attention 的计算,专注于降低 Transformer 模型中 Attention 的计算复杂度和空间复杂度,能直接提升模型可以处理的上下文长度。
转载自:https://juejin.cn/post/7297160453426806838