大数据文摘出品
要知道,之前大家一直夸Transformer的理解能力和短序列生成能力,对长序列一直“有心无力”。微软这一次操作相当于让一个短跑冠军拥有了极速跑马拉松的能力。毕竟,处理长序列的同时,处理短序列任务时依然保持优秀的性能。LONGNET is a Transformer variant that can scale sequence length to more than 1 billion tokens, with no loss in shorter sequences.
对此,网友评论:这是一场革命!因为,这项工作为建模长序列提供了新的思路和可能,未来,甚至有望将整个互联网语料视为一个Token。同时,意味着更复杂的 AI 互动成为可能。LONGNET解封序列长度Transformer 模型是许多AI系统的核心架构,工作原理是处理由Tokens组成的信息序列,从而理解或生成文本。注:Token可以是简短的单词或者完整的句子。
全局注意力机制全局注意力(global attention)是Transformer理解能力的关键所在,它允许一个Token与其他所有Token进行“互动”。序列一旦变得越长,互动次数呈指数级增长,大大增加了计算复杂性。上段内容有点抽象,解释一下:想象一下,你试图与房间里的每一个人分别进行对话。如果只有几个人,这是可以应对的。但随着人数的增加,很快就变得难以承受。ChatGPT就是 OpenAI 基于Transformer开发的,大家在使用它进行上下文对话的时候,会发现它会经常“忘”了你之前给他说过的话。以后,有了LONGNET 就解锁了ChatGPT无限对话能力,它会记起你最开始的提问。LONGNET的核心:扩张注意力的力量
在LONGNET这项工作中,微软的研究员将一种称为“扩张注意力”(dilated attention)的新颖概念引入到Transformer 模型中,从根本上改变了模型处理序列的方式。扩张注意力的妙用在于,距离增大时能够关注更多的Token,而无需让每个序列与其他所有序列互动。就像,在人群中既能关注到附近的人,也能关注到远离的人,但不需要与每个人单独交谈。

论文地址:
https://arxiv.org/abs/2307.02486
参考来源:
https://thetechpencil.com/revolutionizing-ai-with-longnet-microsofts-breakthrough-in-handling-billion-token-sequences-59b05ef7d6e8
https://mp.weixin.qq.com/s/Qns4Oi8-YHWb7WP3_gGZUA

相关教程
2025-09-05
2025-09-04
2025-09-03
2025-09-02
2025-09-02
copyright © 2012-2025 win10系统家园 qdhuajin.com 版权声明