
🦄九游娱乐(中国)网址在线在多数长落魄文任务场景中-九游娱乐(中国)网址在线
新闻
谈到大模子的"国货之光"🦄九游娱乐(中国)网址在线,除了 DeepSeek 以外,阿里云 Qwen 这边也有新动作—— 初次将开源 Qwen 模子的落魄文延迟到1M 长度。 具体而言,此次的新模子有两个"杯型": Qwen2.5-7B-Instruct-1M Qwen2.5-14B-Instruct-1M 它们在处理长文本任务中都一经末端平稳超越 GPT-4o-mini,何况在处理百万级别长文本输入时可末端近7 倍的提速! (百万 Tokens 长文本,如果换算来看的话,不错是 10 本长篇演
详情

谈到大模子的"国货之光"🦄九游娱乐(中国)网址在线,除了 DeepSeek 以外,阿里云 Qwen 这边也有新动作——
初次将开源 Qwen 模子的落魄文延迟到1M 长度。

具体而言,此次的新模子有两个"杯型":
Qwen2.5-7B-Instruct-1M
Qwen2.5-14B-Instruct-1M
它们在处理长文本任务中都一经末端平稳超越 GPT-4o-mini,何况在处理百万级别长文本输入时可末端近7 倍的提速!
(百万 Tokens 长文本,如果换算来看的话,不错是 10 本长篇演义、150 小时演讲稿或 3 万行代码。)

现在,Qwen 新模子有关的推理框架和本事叙述等实质均一经发布。
接下来,咱们就来络续深切了解一下。
模子性能
领先,让咱们来望望 Qwen2.5-1M 系列模子在长落魄文任务和随笔本任务中的性能发挥。
在落魄文长度高达 100 万 Tokens 的 "大海捞针" 式任务 —— Passkey Retrieval(密钥检索)中,Qwen2.5-1M 系列模子展现出不凡性能,大致精确地从长度为 1M 的文档里检索出荫藏信息。
值得一提的是,在整个系列模子中,仅 7B 模子出现了为数未几的诞妄。

关于更复杂的长落魄文理奉命务,策动团队接受了 RULER、LV-Eval 和 LongbenchChat 等测试集。

概括这些着力来看,不错得到的要道论断如下:
一方面,Qwen2.5-1M 系列模子比较之前的 128K 版块有权臣高出。
在多数长落魄文任务场景中,它发挥更为出色,格外是冒昧高出 64K 长度的任务时,大致更有用地处理信息,展现出相较于 128K 版块更强的妥当性与处理能力。
另一方面,Qwen2.5-14B-Instruct-1M 模子具备一定上风。
在与 Qwen2.5-Turbo 以及 GPT-4o-mini 的对比中,该模子在多个数据集上的测评收货更为杰出。
这意味着,在现存的长落魄文模子可选界限内,它算作开源模子,大致为使用者提供一种性能相对可靠、可替代其他产物的接受,不外不同模子都有各自的特质与适用场景,仍需依据具体需求进行判断。
除了长序列任务的性能外,咱们相通海涵这些模子在短序列上的发挥。
团队在平凡使用的学术基准测试中比较了 Qwen2.5-1M 系列模子及之前的 128K 版块,并加入了 GPT-4o-mini 进行对比。

由此不错发现:
Qwen2.5-7B-Instruct-1M 和 Qwen2.5-14B-Instruct-1M 在随笔本任务上的发挥与其 128K 版块突出,确保了基本能力莫得因为加多了长序列处理能力而受到影响。
与 GPT-4o-mini 比较,Qwen2.5-14B-Instruct-1M 和 Qwen2.5-Turbo 在随笔本任务上末端了支配的性能,同期落魄文长度是 GPT-4o-mini 的八倍。
如何真金不怕火成的?
在先容完性能之后,咱们来看下 Qwen 新模子背后的要道本事。
主要不错分为三大身手,它们隔离是长落魄文覆按、长度外推和寥落重意见机制。

长序列的覆按需要大量的诡计资源,因此团队选择了逐步延迟长度的行为,在多个阶段将 Qwen2.5-1M 的落魄文长度从 4K 延迟到 256K:
团队从预覆按的 Qwen2.5 的一个中间搜检点驱动,此时落魄文长度为 4K。
在预覆按阶段,团队逐步将落魄文长度从 4K 加多到 256K,同期使用 Adjusted Base Frequency 的决议,将 RoPE 基础频率从 10,000 提高到 10,000,000。
在监督微调阶段,团队分两个阶段进行以保抓短序列上的性能:* 第一阶段:仅在短教唆(最多 32K 长度)上进行微调,这里咱们使用与 Qwen2.5 的 128K 版块交流的数据和身手数,以赢得雷同的短任务性能。
第二阶段:搀杂短教唆(最多 32K)和长教唆(最多 256K)进行覆按,以末端在增强长任务的性能的同期,保抓短任务上的准确率。
在强化学习阶段,团队在随笔本(最多 8K 长度)上覆按模子。团队发现,即使在随笔本上进行覆按,也能很好地将东说念主类偏好对皆性能泛化到长落魄文任务中。
通过以上覆按,最终赢得了 256K 落魄文长度的教唆微调模子。

在上述覆按经过中,模子的落魄文长度仅为 256K 个 Tokens。为了将其延迟到 1M ,团队选择了长度外推的本事。
刻下,基于旋转位置编码的大型话语模子会在长落魄文任务中产素性能下落,这主如果由于在诡计重意见权重时,Query 和 Key 之间的相对位置距离过大,在覆按经过中未尝见过。
为了科罚这一问题,团队引入了 Dual Chunk Attention ( DCA ) ,该行为通过将过大的相对位置,重新映射为较小的值,从而科罚了这一贫瘠。
着力标明,即使是仅在 32K 长度上覆按的 Qwen2.5-7B-Instruct,在处理 1M 落魄文的 Passkey Retrieval 任务中也能达到近乎无缺的准确率。
这充分展示了 DCA 在无需额外覆按的情况下,也可权臣延迟赈济的落魄文长度的弥远能力。

临了,就是寥落重意见机制。
关于长落魄文的话语模子,推理速率对用户体验至关进犯。为为此,团队引入了基于MInference的寥落重意见优化。
在此基础上,策动东说念主员还提议了一系列矫正:包括分块预填充、集成长度外推决议、寥落性优化等。
通过这些矫正,团队的推理框架在不同模子大小和 GPU 树立上,处理 1M 长度输入序列的预填充速率普及了 3.2 倍到 6.7 倍。
临了,该名目一经提供了在线体验的地址,感意思的小伙伴不错去尝鲜了 ~
HuggingFace 体验地址:
https://huggingface.co/spaces/Qwen/Qwen2.5-1M-Demo
魔塔社区体验地址:
https://www.modelscope.cn/studios/Qwen/Qwen2.5-1M-Demo
本事叙述:
https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen2.5-1M/Qwen2_5_1M_Technical_Report.pdf
参考衔尾:
https://qwenlm.github.io/zh/blog/qwen2.5-1m/🦄九游娱乐(中国)网址在线

