NLP | 威伦特

标签：# NLP

LMCache

2025-07-19 11 min read # 大模型 # NLP

想要大模型在通用性上获得更好的效果，就需要让大模型对更多的领域知识进行“补充”。

《Do Large Language Models Need a Content Delivery Network》论文提出了 KDN（Knowledge Delivery Network），简单来说就是对输入进行“缓存”，从而提升模型首个 Token 响应时间，并将 KDN 开源为 LMCache（https://github.com/LMCache/LMCache）

MCP && Function Calling

2025-05-26 8 min read # NLP

Function Calling 和 MCP 通过一组外部工具，帮助 LLM 获取其无法直接知晓的信息或者难以执行的操作。本文分别对他们进行说明，并对比异同

KV Cache

2025-03-11 11 min read # NLP

KV Cache是一种针对Transformer-Decoder部分的注意力层的优化技术，其原理是通过缓存之前生成的KV值，提高模型的推理性能。

Prompt Learning

2023-12-12 9 min read # NLP

Prompt Learning 的本质就是将所有下游任务统一成预训练任务； 以特定的模板，将下游任务的数据转成自然语言形式，从而充分挖掘预训练语言模型本身的能力。

Less is More for Long Document Summary Evaluation by LLMs

2023-10-09 4 min read # 文本摘要 # NLP

这篇文章给了我们一种如何在自己研究的领域去"蹭"大模型热度的思路

Generating EDU Extracts for Plan-Guided Summary Re-Ranking

2023-09-09 7 min read # 文本摘要 # NLP

这篇文章是在我之前介绍的BRIO模型（BRIO | 威伦特 (voluntexi.github.io)）的基础上改进的，模型的整体框架也是采用两步式摘要，即结合生成候选摘要和评估候选摘要两个阶段来获得最佳摘要。

Copy is All You Need

2023-08-21 13 min read # NLP

最近在paper with code刷论文的时候，看到了一个很唬人的文章“《Copy is All You Need》”，遂找来研读研读，发现内容还是很有意思，准备写一篇阅读笔记的，偶然发现了这篇文章作者的采访稿，将文章背后的故事都介绍的挺详细的。于是乎转载一下（不是偷懒）

LONGNET: Scaling Transformers to 1,000,000,000 Tokens

2023-07-21 5 min read # NLP

前段时间刚介绍了能使模型处理上下文扩展到百万级别的方法，现在微软又提出了一种能扩展到十亿级别的方法（不过有标题党的嫌疑，因为在实验中作者只扩展到了百万级别）

Scaling Transformer to 1M tokens and beyond with RMT

2023-07-07 6 min read # NLP

当我还在用最大一次只能处理1024个上下文的BART模型做实验时，已经有能处理上百万上下文的方法了🤡

LoRA

2023-06-04 10 min read # NLP

在如今大模型时代，如果需要微调一个大模型无疑在时间和金钱方面的消耗是巨大的，而LoRA通过冻结了预训练的模型权重，并将可训练的秩分解矩阵注入到Transformer架构的每一层中，大大减少了下游任务的可训练参数的数量。尽管LoRA使得可训练参数更少，但是与微调效果相比结果相当甚至更好。

下一页