LoRA

在如今大模型时代,如果需要微调一个大模型无疑在时间和金钱方面的消耗是巨大的,而LoRA通过冻结了预训练的模型权重,并将可训练的秩分解矩阵注入到Transformer架构的每一层中,大大减少了下游任务的可训练参数的数量。尽管LoRA使得可训练参数更少,但是与微调效果相比结果相当甚至更好。

Longformer

Longformer是一种用来拓展模型在长序列建模的能力算法,它提出了一种时空复杂度同文本序列长度呈线性关系的Self-Attention,用以保证能够使得模型高效处理长文本。

SimCSE

最近做实验需要用到Sentence Embeddings(句向量),特地研究了一下句向量相关模型算法,其中 SimCSE 模型是目前比较火、效果也比较好的一个模型。

对预训练模型进行微调

​ 近年来随着自然语言处理技术的不断发展,预训练模型已经成为了近年来最热门的研究方向之一。预训练模型有更好的性能表现。然而,对于刚接触的人来说,阵对预训练模型的训练可能会显得复杂和难以理解。

MoCa

BRIO在生成式文本摘要领域SOTA位置还没坐稳几个月,便出现了新的SOTA—MoCa

BRIO

BRIO是2022年文本摘要领域SOTA,通过结合了对比学习解决了生成式摘要领域seq2seq自回归中的exposure bias问题

BERT

BERT(Bidirectional Encoder Representation from Transformers),BERT模型在结构上简单来讲就是一个多层的transformer的Encoder