mally的技术笔记mally的技术笔记
AIGC相关
关于作者
AIGC相关
关于作者
  • AIGC相关
  • 长文

    • 长文
    • MoE 梳理
    • Tokenization 分词
    • VERL 框架看 GRPO 过程
  • 细碎大模型知识

    • 细碎大模型知识
    • clip-higher 为什么有效
    • F1 分数是什么
    • 温度 temperature 是什么
    • 分词和嵌入的关系
    • SwiGLU 激活函数
    • 拒绝采样微调是什么
    • 策略熵和交叉熵
    • GRPO 流程
    • DPO 公式推导
  • 论文阅读

    • 论文阅读
    • Demons in the Detail: On Implementing Load Balancing Loss for Training Specialized Mixture-of-Expert
    • Scaling Relationship on Learning Mathematical Reasoning with Large Language Models
    • switch transfomer 论文
    • RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning
    • Mixture of Experts Explained
    • Demons in the Detail: On Implementing Load Balancing Loss for Training Specialized Mixture-of-Expert

      • Demons in the Detail: On Implementing Load Balancing Loss for Training Specialized Mixture-of-Expert
      • 背景知识

分词和嵌入的关系

前言

2025-04-04 11:41:32 Friday

参考博客:

  • 通俗易懂讲解 word2vec
  • 从 NNLM 到 word2vec
  • NNLM 详细的代码实现

分词和嵌入的关系

  • 分词和嵌入是上下游关系: 分词决定如何拆解文本,嵌入决定如何用数字表示拆解后的单元
  • 现代模型(如 BERT)是端到端的: 分词和嵌入通常被封装在同一个框架中,用户只需输入原始文本
  • 流程示例:原始文本 → Tokenization → [token_id1, token_id2, ...] → Embedding 查找 → [embedding1, embedding2, ...]
Prev
温度 temperature 是什么
Next
SwiGLU 激活函数