让建站和SEO变得简单

让不懂建站的用户快速建站,让会建站的提高建站效率!

Tokenization不存在了?Meta最新筹办,无需Tokenizer的架构来了

机器之心报说念

剪辑:小舟、陈陈

BLT 在好多基准测试中越过了基于 token 的架构。

最近几天,来自 Meta 、芝加哥大学等机构的合著论文《 Byte Latent Transformer: Patches Scale Better Than Tokens 》火了,在 Hacker News 上受到无为商讨。

有东说念主暗示,相等期待这项筹办获得得手,这么就不错和 tokenizer 拜拜了!

还有东说念主系念的暗示,「当今 tokenization 是大多数模子的基础,这项筹办被选用的可能性究竟有多大?」

总结而言,该筹办提倡了一种新的 LLM 想想。传统的言语模子依赖于 tokenizer 来预处理数据,但 tokenization 有其固有的局限性,包括固定的词汇表、处理多言语或噪声数据的成果低下,以及由压缩启发式法式引入的偏见。

该筹办提倡字节潜在 Transformer(Byte Latent Transformer,简称 BLT)挑战了这种老例作念法。BLT 通过平直建模原始字节流,将它们凭据熵动态分组为 patch 以结束高效狡计。

具体而言,BLT 不需要 tokenizer 架构,不错平直从原始字节数据中学习,幸免了静态词汇表的端正,并能更好地处理千般化和带噪声的输入。

基于熵的 Patch:凭据信息复杂度动态地将字节分组为 Patch,对高熵区域(复杂输入)分派更多的狡计资源,在低熵区域勤俭资源。

高效膨大:通过优化 patch 大小并掌握轻量级局部模子,BLT 结束了与基于 token 模子(如 LLaMA)特等或更好的性能,并在推理经过中勤俭高达 50% 的狡计资源。

鲁棒性与活泼性:BLT 在需要字符级合资、噪声输入或长尾泛化的任务中发达出色,在好多基准测试中越过了基于 token 的架构。

图源:https://x.com/theraggedflesh/status/1867911485428482131

此外,该筹办初次提倡了对字节级模子进行 flop 端正的膨大筹办,参数界限高达 8B,检修字节高达 4T,从而展示了在莫得固定词汇表 tokenization 的情况下,从字节级别端到端地大界限检修模子。

总体而言,BLT 在检修时的 flop 端正性能与 Llama 3 特等,同期在推理时使用的 flop 减少了高达 50%。该筹办还进行了 inference-flop 端正的膨大执行(图 1),并不雅察到与基于 tokenization 架构比拟,BLT 膨大趋势较着更好。

这篇论文孝敬如下:

提倡了 BLT,这是一种字节潜在 LLM 架构,动态分派狡计资源以提高 flop 成果;展示了在 8B(即 80 亿)参数界限下,粗略结束与 Llama 3 模子特等的检修 flop 端正,同期不错通过糟跶一小部分评估方向来换取高达 50% 的 flop 成果普及;BLT 模子为膨大大型言语模子开启了一个新的维度,当今不错在保握固定推理预算的同期膨大模子大小。

论文标题:Byte Latent Transformer: Patches Scale Better Than Tokens论文地址:https://arxiv.org/pdf/2412.09871方法地址:https://github.com/facebookresearch/blt

这种无需 tokenizer 的法式代表了言语建模的要紧退换,为更高效、可膨大和鲁棒的东说念主工智能系统铺平了说念路。

对此,有筹办者暗示:「Meta 刚刚杀死了 TOKENIZATION,他们发布的 BLT 是一种无 tokenizer 的架构,不错动态地将字节编码为 patch,并结束更好的推理成果和慎重性!」

「2025 年可能是咱们告别 tokenization 的一年。」

BLT 架构

BLT 由一个对 patch 表征进行操作的大型全局自追忆言语模子以及两个较小的局部模子构成,两个较小的局部模子将字节序列编码为 patch 并将 patch 表征解码回字节(图 2)。

潜在全局 Transformer 模子

潜在全局 Transformer 是一个具有 l_G 层的自追忆 transformer 模子 G,它将一系列潜在输入 patch 表征 p_j 映射到一系列输出 patch 表征 o_j。

论文使用下标 j 暗示 patch,使用下标 i 暗示字节。全局模子使用块因果防备力掩码(Dubey et al., 2024)。

局部编码器

局部编码器

膨大趋势

该筹办展示了字节级模子膨大趋势的合座图景,不错为 BLT 模子的进一步膨大提供信息,旨在通过以下方法搞定先前字节级模子筹办的局限性:

比较狡计最优检修有忖度打算的趋势;在大齐检修上检修匹配的 8B 模子数据并评估下贱任务;测量推理资本端正成立中的膨大趋势。

参数匹配狡计最优膨大趋势

使用 Llama 2 数据集,该筹办检修了四种不同大小(参数界限从 1B 到 8B)的各式狡计最优 bpe 和 BLT 模子。然后在检修数据搀和物的代表性子集上凭据言语建模性能绘画检修 flops 图。BPE 模子使用 Llama 3 笃定的模子参数与检修数据的最好比率进行检修(Dubey et al., 2024)。这种狡计最优成立表面上旨在在给定的检修预算内结束检修数据集的最好性能(Hoffmann et al., 2022),为模子提供鲁棒的基线。关于每个 bpe 模子,该筹办还使用与相应 bpe Transformer 的大小和架构相匹配的潜在 Transformer 在调换数据上检修相应的 BLT 模子。

如图 6(右)所示,BLT 模子要么特等,要么优于 BPE 模子,何况跟着膨大模子大小和 flops,这种趋势仍然存在。

为了进一步评估膨大特点,该筹办在更大的高质地数据集 BLT-1T 上检修了一个 8B 参数界限的 BLT 模子。表 1 比较了在 BLT-1T 数据集上检修的三个模子,基于 tokenizer 的 BPE Llama 3 模子和 BLT 模子的两个变体(一个选用空间 - patch 有忖度打算 (BLT-Space),另一个选用基于熵的 patch 有忖度打算 (BLT-Entropy))。

收尾线路,BLT-Entropy 模子在 7 项任务中的 4 项上的发达优于 Llama 3 模子。这种翻新是由于 (1) 通过动态 patch 更好地掌握了检修狡计,以及 (2) 平直对字节级信息进行建模,而不是对 token 进行建模。

此外,论文还先容了 Patch 比 Token 更容易膨大。

总结来说,对 patch 长度膨大筹办标明,BLT 这种基于 patch 的架构不错通过同期增多 patch 和模子的大小来结束更好的膨大趋势。这么的趋势似乎在更大界限的模子中握续存在,以至有所改善。

字节建模提高鲁棒性

字符级任务

在对带噪声的 HellaSwag 测试收尾发现,BLT 如真的鲁棒性方面全面越过了基于 tokenizer 的模子,平均上风达到 8 个百分点,以至跳跃了在更大数据集上检修的 Llama 3.1 模子。

图 7 展示了 Llama 3 tokenizer 模子发达欠安,但 BLT 模子发达精熟的几个场景。

表 4 标明,BLT 的发达跳跃了使用 Llama 3 tokenizer 检修的模子。在流行的言语对中,BLT 的发达与 Llama 3 特等或略好。然则,在资源较少的言语对上,BLT 的发达跳跃了 Llama 3,这强调了字节建模在泛化到长尾字节序列上的灵验性。

从 Llama 3 到 BLT

终末,作家还有计划了一种责任流,其中 BLT 模子不错掌握经过预检修的基于 tokenizer 的模子,通过使用经过预检修的 Llama 3.1 运升沉 BLT 的全局 tokenizer 参数来结束更好更快的检修握住。表 5 为收尾。

很较着,经过 Llama 3.1 运升沉的 BLT 权臣优于 Llama 3 和 BLT 基线,这些基线是用调换数目的 flop 检修的。