About 2,110 results
Open links in new tab
  1. 一文了解Transformer全貌(图解Transformer) - 知乎

    Jan 21, 2025 · 网络上关于Transformer的解析文章非常大,但本文将力求用浅显易懂的语言,为大家深入解析Transformer的技术内核。 前言 Transformer是谷歌在2017年的论文《Attention Is …

  2. 如何最简单、通俗地理解Transformer? - 知乎

    Transformer 与 RNN 不同,可以比较好地并行训练。 Transformer 本身是不能利用单词的顺序信息的,因此需要在输入中添加位置 Embedding,否则 Transformer 就是一个词袋模型了。 …

  3. 如何从浅入深理解 Transformer? - 知乎

    如果说「从浅入深」理解 Transformer,逐渐要到深的那部分,答案肯定短不了,希望你有耐心看完。我认为分三步: 第一步,了解 Transformer 出现之前的几个主流语言模型,包括 N 元文 …

  4. transformer模型为什么要叫transformer? - 知乎

    “Transformer”目前已经进入到了多模态领域,比如音频与视觉,甚至数学公式、代码编程等领域,著名的Stable Diffusion 中也用到了“Transformer”。可以说,所有生成式人工智能领域的大 …

  5. 为什么目前的强化学习里深度网络很少用 transformer ,更多的是 …

    Transformer-XL:Transformer-XL[1] 提出了一种特殊的架构,相比常规 Transformer 能够在不破坏时间连贯性的情况下,使其能够学习超过固定的长度的依赖,这使得它可以利用当前的输入轨 …

  6. 为什么我还是无法理解transformer? - 知乎

    Transformer 与 RNN 不同,可以比较好地并行训练。 Transformer 本身是不能利用单词的顺序信息的,因此需要在输入中添加位置 Embedding,否则 Transformer 就是一个词袋模型了。 …

  7. 哪位大神讲解一下Transformer的Decoder的输入输出都是什么?能 …

    Transformer 与 RNN 不同,可以比较好地并行训练。 Transformer 本身是不能利用单词的顺序信息的,因此需要在输入中添加位置 Embedding,否则 Transformer 就是一个词袋模型了。 …

  8. 为什么transformer在图像的效果比CNN好? - 知乎

    transformer和cnn最大的区别在于,分块局部信息提取,再加全局特征提取。 缺点是,局部信息提取相对粗燥;优点是更好的全局性。 在实践中,metatransformer曾经做过实验,一种混合结 …

  9. 训练最基础的transformer模型用多大的gpu就行? - 知乎

    transformer 是我这个大目标的第一步,踩了许多的坑。 从一开始的直接手写,到最后的先使用 pytorch 官方 transformer 库实现功能,再替换核心代码;从一开始计划的自己准备数据,训练 …

  10. 深度学习中“Transformer”怎么翻译为中文? - 知乎

    Transformer按在机器翻译中原意可以翻译为变形器或变换器。 但随着Transformer的普及,它已经成为一类以 自注意力 为主要部件的特定模型,其原本在机器翻译中的内涵变得不再重要,翻 …