威伦特

Scaling Transformer to 1M tokens and beyond with RMT

2023-07-07 6 min read # NLP

当我还在用最大一次只能处理1024个上下文的BART模型做实验时，已经有能处理上百万上下文的方法了🤡

2023-06-04 10 min read # NLP

在如今大模型时代，如果需要微调一个大模型无疑在时间和金钱方面的消耗是巨大的，而LoRA通过冻结了预训练的模型权重，并将可训练的秩分解矩阵注入到Transformer架构的每一层中，大大减少了下游任务的可训练参数的数量。尽管LoRA使得可训练参数更少，但是与微调效果相比结果相当甚至更好。

2023-05-18 6 min read # NLP

Longformer是一种用来拓展模型在长序列建模的能力算法，它提出了一种时空复杂度同文本序列长度呈线性关系的Self-Attention，用以保证能够使得模型高效处理长文本。

2023-04-27 6 min read # NLP

最近做实验需要用到Sentence Embeddings（句向量），特地研究了一下句向量相关模型算法，其中 SimCSE 模型是目前比较火、效果也比较好的一个模型。

2023-04-15 16 min read # 文本摘要 # NLP

本文是论文《An Empirical Survey on Long Document Summarization》的阅读笔记第二部分，介绍了抽取式、生成式和混合式三种长文本摘要方法及其对应有哪些代表模型。

2023-04-12 8 min read # 文本摘要 # NLP

论文《An Empirical Survey on Long Document Summarization》对长文本摘要领域通过模型、数据集和评价指标三个方面进行了全面的概述，文本是该论文阅读笔记第一部分，描述了长文本的概念，介绍了目前的数据集。

2023-03-01 7 min read # NLP

近年来随着自然语言处理技术的不断发展，预训练模型已经成为了近年来最热门的研究方向之一。预训练模型有更好的性能表现。然而，对于刚接触的人来说，阵对预训练模型的训练可能会显得复杂和难以理解。

2023-02-22 7 min read # NLP

BRIO在生成式文本摘要领域SOTA位置还没坐稳几个月，便出现了新的SOTA—MoCa

2023-02-08 9 min read # NLP

BRIO是2022年文本摘要领域SOTA，通过结合了对比学习解决了生成式摘要领域seq2seq自回归中的exposure bias问题

2022-12-28 6 min read # NLP

BERT(Bidirectional Encoder Representation from Transformers)，BERT模型在结构上简单来讲就是一个多层的transformer的Encoder