标签:# NLP

Hyper Connections

Hyper Connections 是对残差网络(Residual Connections) 的一种改进设计,其核心在于引入了可学习的深度连接与宽度连接。该方法在几乎不增加计算量和参数量的前提下,能够带来显著的性能提升,且具有极高的普适性——无论是密集连接(Dense)还是混合专家模型(MoE),无论是视觉任务还是文本模态,均能取得收益。特别是在大语言模型(LLMs)的预训练中,收敛速度最高可提升0.8[1]

HNSW

在使用 RAG(Retrieval-Augmented Generation)时,我们通常需要在大量文本向量中,找到与查询最相似的若干条语句。最直观的方式是对所有向量逐一计算相似度(余弦相似度、欧氏距离等),然后进行比较。在数据规模较小时,这种方法尚可接受;但当数据量达到百万甚至更高量级时,逐一匹配将带来巨大的时间开销。

RoPE 解析

RoPE(旋转位置编码)是一种结合了绝对位置编码和相对位置编码的一种编码方法,出自苏剑林老师提出的RoFormer,现如今已经作为LLM结构的标配了,可见其效果强大。这篇文章就来具体解析一下,RoPE的原理和优势到底是什么。

手写MOE

MOE(Mixture of Experts)也就是混合专家系统,已经在LLM(Large Language Model)的结构中成为标配了。最近看到一篇手写MOE教程,所学下来,受益颇多。

LMCache

想要大模型在通用性上获得更好的效果,就需要让大模型对更多的领域知识进行“补充”。

《Do Large Language Models Need a Content Delivery Network》论文提出了 KDN(Knowledge Delivery Network),简单来说就是对输入进行“缓存”,从而提升模型首个 Token 响应时间,并将 KDN 开源为 LMCache

MCP && Function Calling

Function Calling 和 MCP 通过一组外部工具,帮助 LLM 获取其无法直接知晓的信息或者难以执行的操作。本文分别对他们进行说明,并对比异同

KV Cache

KV Cache是一种针对Transformer-Decoder部分的注意力层的优化技术,其原理是通过缓存之前生成的KV值,提高模型的推理性能。

Prompt Learning

Prompt Learning 的本质就是将所有下游任务统一成预训练任务; 以特定的模板,将下游任务的数据转成自然语言形式,从而充分挖掘预训练语言模型本身的能力。