RoPE 解析
RoPE(旋转位置编码)是一种结合了绝对位置编码和相对位置编码的一种编码方法,出自苏剑林老师提出的RoFormer,现如今已经作为LLM结构的标配了,可见其效果强大。这篇文章就来具体解析一下,RoPE的原理和优势到底是什么。
RoPE(旋转位置编码)是一种结合了绝对位置编码和相对位置编码的一种编码方法,出自苏剑林老师提出的RoFormer,现如今已经作为LLM结构的标配了,可见其效果强大。这篇文章就来具体解析一下,RoPE的原理和优势到底是什么。
MOE(Mixture of Experts)也就是混合专家系统,已经在LLM(Large Language Model)的结构中成为标配了。最近看到一篇手写MOE教程,所学下来,受益颇多。
最近有语音识别方言方面的需求,由于之前没有接触到过这个领域,遂深入了解一下Open AI发布的语音识别模型Whisper
想要大模型在通用性上获得更好的效果,就需要让大模型对更多的领域知识进行“补充”。
《Do Large Language Models Need a Content Delivery Network》论文提出了 KDN(Knowledge Delivery Network),简单来说就是对输入进行“缓存”,从而提升模型首个 Token 响应时间,并将 KDN 开源为 LMCache(https://github.com/LMCache/LMCache)
Function Calling 和 MCP 通过一组外部工具,帮助 LLM 获取其无法直接知晓的信息或者难以执行的操作。本文分别对他们进行说明,并对比异同
KV Cache是一种针对Transformer-Decoder部分的注意力层的优化技术,其原理是通过缓存之前生成的KV值,提高模型的推理性能。
当我们想在分页查询中对数据进行排序展示时,通常会使用 ORDER BY
进行排序。然而,当用于排序的字段并非唯一时,可能会在翻页时遇到数据重复的问题,下面是对这个问题的具体分析和解决方案。
Prompt Learning 的本质就是将所有下游任务统一成预训练任务; 以特定的模板,将下游任务的数据转成自然语言形式,从而充分挖掘预训练语言模型本身的能力。
这篇文章给了我们一种如何在自己研究的领域去"蹭"大模型热度的思路
这篇文章是在我之前介绍的BRIO模型(BRIO | 威伦特 (voluntexi.github.io))的基础上改进的,模型的整体框架也是采用两步式摘要,即结合生成候选摘要和评估候选摘要两个阶段来获得最佳摘要。