smolvla

发表于 2025-08-17 更新于 2025-12-29 分类于 paper

主要是代码理解和修改

概念理解

基础

smolvla的核心训练范式始终是模仿学习。
推理的时候，smolvla是只用当前的信息推理，完全没有用之前的，但async inference有融合一点点以前的action
1. 不显式引入历史状态或动作序列
2. 但是Action Chunking是有一点的
3. 然后sa有一点：
We employ a causal attention mask for the SA layers, ensuring that each action token can only attend to past tokens within the chunk, preventing future action dependencies. Empirically, we find that interleaving CA and SA layers provides higher success rates and faster inference time.我们为 SA 层采用因果注意力掩码，确保每个作令牌只能关注块内过去的令牌，从而防止未来的作依赖。根据经验，我们发现交错 CA 和 SA 层提供了更高的成功率和更快的推理时间。

翻译一下：SA层仅允许每个动作Token关注同一序列中的历史Token，无法访问其他样本或未来Token。

self-atten和cross-atten

看得稀里糊涂的

假设一个batch是一个车间的工人（假设64个），输入零件，输出组装的东西。工人利用vlm得到高级特征token，比如螺丝和螺母搭好算一个。 cross-attention：对比生成的半成品和图纸 self-attention：确保当前动作和历史动作连贯。仅关注自身序列的历史

state在整个结构里面处在什么位置 SmolVLA 由一个紧凑的预训练视觉语言模型组成，丢弃最后的 L − N 层（剪刀图标）。其余层嵌入了三个输入：（i）语言指令，（ii）RGB图像，以及（iii）机器人感觉运动状态。它们合并的标记为交替交叉注意力（金色）和自我注意力（浅黄色）块的动作专家提供信息，这些块通过流匹配进行训练，以输出 n 个低级动作块，在 . . . ， at+n。SmolVLA 在公共社区数据集上进行预训练，并在低成本机器人上进行评估。

train

除了基础参数外，我需要加的
1. 训练的时候用/不用深度图，需要在输入特征里面
2. 训练的时候用哪一种language方法
  1. "":baseline
  2. mtask_relative
  3. mtask_grid_xxcm
  4. add_task_to_state好像得单独一个

主函数

def train(cfg: TrainPipelineConfig):

validate

对policy_path

从 CLI（命令行参数）里获取 --policy 参数对应的路径。会再解析命令行里的 policy 相关覆盖参数（cli_overrides）。用 PreTrainedConfig.from_pretrained(...) 加载 policy 的配置（只加载配置，不加载权重）。记录 self.policy.pretrained_path = policy_path。

也就是当train的cfg有policy的时候，cfg.policy=PreTrainedConfig.from_pretrained(policy_path...)创建了一个类，包含的通常是超参数、路径、模型结构信息等，然后 self.policy.pretrained_path = policy_path。

此时还没有加载模型的配置，那模型的输入特征是在这里决定的吗？

--policy.path=models/forsmolvla/smolvla_base这个是训练的时候的设置，所以只是加载预训练的smolvla_base的输入设置

我看了这个smolvla_base的input feature规定state是6维，所以我如果想fine-tune的话，得改这个base的设置🤔

dataset

dataset = make_dataset(cfg)

应该就是提取cfg里面dataset的部分吧？感觉训练的时候关于datset的处理（用不用深度/文本处理应该写在dataset里面，而不是写在train.py里面）

这个要改就得改lerobotdataset的处理，希望可以自定义一个配置类，先这么些

lerobotdataset类的init新增

# 下面是为了train的自定义内容
language_tip_mode: str="", # 当空的时候就等于baseline
add_location_to_state: bool = False,   # 控制是将location加到state里面
exclude_features: list[str] = None,    # 控制需要过滤的 key，最终的训练（主要是为了过滤掉depth）
obj_detector=None,                     # 可选的目标检测器，为了state加的

把 FilteredBatchLoader.add_location_to_state 移到 lerobotDataset里面：_add_location_to_state函数（dataset是无辜的要怪就怪模型结构），调用加在geitem函数里面
filter加载getitem函数的最后，return 之前
make_dataset传入参数
train清理之前的config，传入参数到make_dataset里边
正向流程
1. 整理train cfg的模板，增加，同样config/train.py里面也要修改
  1
  2
  language_tip_mode: str="", # 当空的时候就等于baseline
  add_location_to_state: bool = False, # 控制是将location加到state里面
2. train里面dataste=make_dataset(cfg)
3. 调用lerobotdataset初始化
4. getitem得到一帧对应的color，depth，state，force，action等
5. 返回一帧的color，state，action
测试：
1. 能不能正常train baseline
2. 能不能正常train language_mode 看task就行
3. 能不能train state（显然不行）看state

policy

用cfg.policy（就是validate的时候cfg.policy=PreTrainedConfig.from_pretrained(policy_path...)创建的类）和dataset.meta创建policy
1
2
3
4
policy = make_policy(
cfg=cfg.policy,
ds_meta=dataset.meta,
)
make_policy用meta干什么，meta也要修改，但不能在lerobotdataset里面，而是make_policy的时候。这个policy是我最后要得到的policy吧。meta就规定了input feature和output feature
1. 过滤depth和force这两个feature
2. 当且仅当state要求改的时候才改
policy = policy_cls.from_pretrained(**kwargs)
1. smolvla里面没有代码，应该调用的是Pretrainedpolicy这个基类的from_pretrained
2. 能保证传入的kwargs是正确的。然后instance = cls(config, **kwargs)是生成SmolVLAPolicy实例的，为什么这里的cls里面已经没有10那个信息了？
  1. cls 实际上是 SmolVLAPolicy 类的初始化，初始化里面有一个加载空flowmatching模型的，就是cls.model=VLAFlowMatching(config)。然后VLAFlowMatching的初始化里面有self.state_proj = nn.Linear( self.config.max_state_dim, self.vlm_with_expert.config.text_config.hidden_size )。
  2. 所以instance的结果里面只有两个包含state的内容
    1. SmolVLAPolicy( (normalize_inputs): Normalize( (buffer_observation_state): ParameterDict( (mean): Parameter containing: [torch.FloatTensor of size 6] (std): Parameter containing: [torch.FloatTensor of size 6] ) )这个是预训练模型的前6维的权重，后面还需要用
    2. (state_proj): Linear(in_features=32, out_features=960, bias=True)这个是投影到32维
from_pretrained里面policy = cls._load_as_safetensor(instance, model_file, config.device, strict)
1. cls还是 SmolVLAPolicy，就是调用_load_as_safetensor这个class method
2. 用的是smolvlapolicy里面的_load_as_safetensor
  1. safetensors.torch.load_model(model, model_file, strict=strict, device=map_location)把权重加载到模型实例里
  2. return load_smolvla( model, model_file, device=map_location, checkpoint_keys_mapping="model._orig_mod.//model.", )调用特定的 loader 做额外处理
load_smolvla函数，我需要在这里确保state的权重能1.前6位正常加，7-10位初始化一下
1. 有没有办法识别input feature此时是6还是10？目前这个模型传到这里只剩下cls两个关于state的部分了，所以从外部引入
2. 给7-10维重置，变成用 Xavier 均匀初始化覆盖,bias 清零

train

policy.train()运行的是SmolVLMWithExpertModel的train，设置冻结哪一块
开始按步数训练 train_tracker, output_dict = update_policy(policy)

update_policy函数

训练逻辑

loss, output_dict = policy.forward(batch)
grad_scaler.scale(loss).backward()
grad_scaler.unscale_(optimizer)
torch.nn.utils.clip_grad_norm_(policy.parameters(), ...)
grad_scaler.step(optimizer)
optimizer.zero_grad()

问题可能发生在，state更新参数的时候7-10维变化比较大

normalize归一化没有匹配维度
1. modeling_smolvla里面SmolVLAPolicy的init有self.normalize_inputs = Normalize(config.input_features, config.normalization_mapping, dataset_stats)
2. state前6维的mean，std是从dataset_stats里来的，dataset_stats是从SmolVLAPolicy的init传入的
3. 之前make_policy传入的kwargs["dataset_stats"] = meta_for_policy.stats，相当于ds_meta.stats
4. ds_meta是ds_meta=dataset.meta，所以还是本地传入的，看到episode_stats.jsonl文件里面有类似min，max，std的，get
  1. 怎么写入save_episode有一个write_episode_stats函数
  2. 怎么读直接从meta里面读的，这个我好像改不了
  3. 怎么计算：ep_stats = compute_episode_stats(episode_buffer, self.features)
  4. 形式： "observation.state": {"min": [-47.14912414550781, -96.49805450439453, 9.134847640991211, -1.6986300945281982, 2.4175825119018555, 0.6323396563529968], "max": [8.552631378173828, 44.06614685058594, 99.51667785644531, 42.136985778808594, 52.91819381713867, 56.36856460571289], "mean": [-13.58438491821289, -31.481496810913086, 56.781070709228516, 22.7191219329834, 25.275249481201172, 15.44166374206543], "std": [19.134763717651367, 52.86572265625, 35.76657485961914, 15.830253601074219, 18.950584411621094, 18.50875473022461], "count": [181]},也就是一个episode里面所有state每个维度的统计。
  5. 然后变成全局的：aggregate_feature_stats
  6. 修改过程，使得可以在算出来
    5. 在正式normalize之前，需要确保能传入datset["observation.state"]以计算
    6. batch = self.normalize_inputs(batch)这里用的是Normalize的forward，正好传入了batch
      1. 一个batch里面有什么？若干个epsiode？
      2. 怎么normalize的forward里面的mean和std又变成全局的了，全局还不好算？
      3. normalize类用create_stats_buffers这个函数把所有episode的mean和std算到一个全局的里面

VLAFlowMatching

init

self.vlm_with_expert = SmolVLMWithExpertModel(...)构建带专家头的多模态主干，这个对象里包含：

视觉编码器（如 SigLIP）+ 语言嵌入层；

一个 Transformer（“VLM”主体）；

动作“专家（Expert）”分支以及处理器（processor / tokenizer）。

此时的self.config.vlm_model_name="models/forsmolvla/HuggingFaceTB/SmolVLM2-500M-Video-Instruct"

所以vlm_with_expert加载的就是冻结的vlm？

self.vlm_with_expert = SmolVLMWithExpertModel(
            model_id=self.config.vlm_model_name,
            freeze_vision_encoder=self.config.freeze_vision_encoder,
            train_expert_only=self.config.train_expert_only,
            load_vlm_weights=self.config.load_vlm_weights,
            attention_mode=self.config.attention_mode,
            num_expert_layers=self.config.num_expert_layers,
            num_vlm_layers=self.config.num_vlm_layers,
            self_attn_every_n_layers=self.config.self_attn_every_n_layers,
            expert_width_multiplier=self.config.expert_width_multiplier,
      )

这个代码初始化了一个什么？

self.state_proj这个是把原来的32维的state投影到文本隐藏维（text_config.hidden_size），这个维度是从 self.vlm_with_expert里面来的
action_in_proj / action_out_proj：将动作维映射到专家隐藏维 D_exp，便于送入专家分支；将专家输出再投回动作维，得到对目标速度场的预测
set_requires_grad，如果config.train_state_proj是true的话，就会设置state_proj里面的所有参数require_grad为true，所以这里应该是true
一些关于图像的token，不关注了
一个prefix_length，默认是 prefix_length: int = -1

embed_prefix

输入state
目的：把图像、（可选的）图像特殊 token、语言 token、状态拼成一段“前缀序列”，并生成对应的 pad mask 与跨段注意力屏蔽标记。
图像嵌入
语言嵌入

状态嵌入

# 状态嵌入，要改肯定改这里，如果要改的话还要加一个，self.config里面有吗？
        # 可以用self.add_location_to_state（或者改成train_add_location_to_state）
        # 投影到self.vlm_with_expert.config.text_config.hidden_size对应的维数，把状态维度投影到 和语言/图像 token 相同的 hidden_size
        state_emb = self.state_proj(state)
        # 如果只有2维？就加个维。这里也应该肯定是2d的吧
        print("prefix_embed这里是1d的",state_emb.ndim == 2)
        state_emb = state_emb[:, None, :] if state_emb.ndim == 2 else state_emb
        # 追加到总的embs,embs从（image_end_token，lang_emb）变成（image_end_token，lang_emb，state_emb）
        embs.append(state_emb)
        # bsize就是batchsize
        bsize = state_emb.shape[0]
        device = state_emb.device
        # states_seq_len就是状态token的个数
        states_seq_len = state_emb.shape[1]
        # 这段token没有padding，形状是((B, states_seq_len))
        state_mask = torch.ones(bsize, states_seq_len, dtype=torch.bool, device=device)
        pad_masks.append(state_mask)

        # Set attention masks so that image and language inputs do not attend to state or actions
        att_masks += [1] * (states_seq_len)

pad_mask和att_mask

pad_masks（padding mask）

作用：标记哪些 token 是“真实有效的”，哪些是 padding（补齐长度）。

取值：布尔值 True/1 = 有效，False/0 = padding。

形状：(B, L_total)，对应整个序列每个位置。

att_masks：attention 域掩码

作用：告诉 make_att_2d_masks 不同 token 属于哪个“域（domain）”，从而控制谁可以 attend 谁。

这个函数最后，pad_masks是表示哪个token是有效的（state这里应该都是有效），att_masks的话，图和task是0，state是1

embed_suffix

把动作序列与时间 t 融合，作为“后缀序列”，只包含动作端的 token。跟state倒是没什么关系 att_masks 为长度 T_act 的 1 序列。配合前缀里的 0/1，通常表示“后缀的动作 token 属于另一个注意力域”，从而避免图像/文本去看动作；也可允许状态/动作之间的相互可见性（具体由 make_att_2d_masks 决定）。

为什么action也要是1？大概懂了点，要分为条件输入和决策输入，emm主要是我不知道还能放在哪儿，理论上来说这个位置信息肯定是放在0比较好的

forward

目标：学习一个速度场 v_θ(x_t, t)，去逼近真速度 u_t = ε - x_0 的等价形式（此实现里是 ε - actions），属于 flow matching/噪声驱动的动作建模思想。

SmolVLMWithExpertModel

init

self.vlm和self.procesor的区别
1. self.vlm是AutoModelForImageTextToText.from_pretrained( model_id)，g会加载一个视觉-语言-文本（VLM）大模型
2. self.processor = AutoProcessor.from_pretrained(model_id)看起来都是from_pretrained(model_id)
3. self.vlm是模型权重 + 前向推理逻辑，类似 transformers 里常见的 AutoModelForCausalLM。这里是 Image+Text → Text 的多模态大模型（视觉-语言模型，里面应该包含
  1. model
    1. 是整个 VLM 的主体 backbone，直接调用 self.vlm.model(...) 会自动执行 vision_model + connector，给你一个对齐到 text hidden_size 的 embedding
    2. .vision_model视觉编码器（把图片转成 embedding）纯粹的encoder，只负责「把图像转成 patch embedding」
      1. 和VLAFlowMatching里面的prefix_embed的区别是：embed_prefix 不自己做图像编码，它只是一个「拼接器」
      2. img_emb = self.vlm_with_expert.embed_image(img)这里调用的就是self.vlm_with_experts.vlm.model
    3. .text_model：文本编码器/解码器
      1. 同理，embed_prefix里面对state和language的处理也类似，关注state：
    4. .connector：模态对齐层（把 vision hidden state 映射到 text hidden space）
  2. forward
  3. generate
4. self.processor是输入预处理器，负责把原始数据（图像、文字字符串）转成 self.vlm 能接受的张量
  1. 对图像：resize、归一化、转 tensor
  2. 对文本：tokenize → token_id → attention_mask
self.vlm.model.text_model.layers减少到前num_vlm_layers（16）层
构建更窄的 expert 部分lm_expert
1. lm_expert_config = copy.deepcopy(config.text_config)为什么只用text_config？因为专家模型只管 text 部分（不管 vision），vision也被拼接到text里面了。先得到一个大概的config结构，和self.vlm.config.text_config是一样的大小。
2. 更窄
  1. 原来mlp里面的结构是这样的：hidden_size → intermediate_size → hidden_size，也就是先把先把 hidden 向量投影到一个更宽的空间（intermediate_size），再投影回 hidden_size，这样模型有更强的表达能力。
  2. hudden_size （每个 token embedding 的维度，Transformer 层的输入/输出维度）
  3. intermediate_size FFN 里间层宽度，挺复杂的不用管这个经验公式
  4. num_hidden_layers 堆多少层 Transformer，因为 Expert 要“对应”VLM 的层结构，方便做跨注意力对齐。这样一层 Expert 对应一层 VLM，更容易设计 cross-attn。如果额外设置了一个num_expert_layers，vlm跟expert不是一层层对应，但是expert_layer要是16的因数，为了方便稀疏交互
3. self.lm_expert = AutoModel.from_config(lm_expert_config)结构和 VLM.text_model 一样，但更小、更窄
4. 大小确定了，值是需要自己训练的，也就是expert需要单独训练。
atten_mode
1. 因为 cross attention 模式下，Expert 不直接用自己的 K/V，而是用大 VLM 的 K/V 表示，改值，所以需要维度也匹配一下，不然vlm的值拿不过来：当该层做 cross attention 时 → Expert 的输入是 VLM 传下来的特征（比如 hidden_size=1024），必须经过这个替换过的 Linear，投影到 Expert 自己的宽度（比如 hidden_size=512）。。vlm不是冻结的吗，也有kv？
2. 不是每一层 Expert 都用 cross attention，每 xx 层保留一次纯自注意力，其他层就把 K/V 换成来自 VLM 的（投影过的）K/V，也就是cross attention和self-attention
专家不自己负责词嵌入，统一用 VLM 的词嵌入或上游传入的 inputs_embeds。self.lm_expert.embed_tokens = None
set_requires_grad
1. 如果self.freeze_vision_encoder设置为true：整个vlm冻结，expert可以训练，只更新expert的权重
2. train_expert_only=True
self.vlm,self.vlm.model,self.vlm.model.vision_encoder

forward

batch_size
对每一层要么self-atten要么cross-atten，记录结果att_outputs, past_key_values

att_outputs,past_key_values=self_or_cross-attention(
   model_layers,     # 当前层的子模型层 (vlm 层 + expert 层) 是可训练的部分，包含全部需要更新的权重。
inputs_embeds,    # 该层的输入 hidden states [vlm_embeds, expert_embeds]
layer_idx,        # 当前层编号
position_ids,     # 每个 token 的位置 id (padding 通常是 0 或特殊处理)
attention_mask,   # 注意力 mask，控制哪些 token 能被看到
batch_size,       # 批大小 (B）
head_dim,         # 每个 head 的维度 (D)
use_cache,        # 是否使用 KV cache (推理时加速)
fill_kv_cache,    # 是否往 cache 里填新的 K/V (True=训练; False=推理复用旧KV)
past_key_values   # 存储历史 KV 的字典
)

att_outputs 和 past_key_values 在整个模型中的位置

这两个是中间结果，在模型 forward 的流水线上扮演不同角色：

att_outputs

这是这一层（vlm + expert）的 attention 输出 hidden states。

会作为下一层的输入，一路传到最后一层 → 接 decoder head / classifier head。

所以它处于「主干计算图」中，梯度会往回传。

相当于 transformer 层的 hidden_states。

past_key_values

保存每一层的 KV (key, value) 张量。

在训练时可以不用（因为我们每次都全量计算），

在推理时（自回归生成），用它来避免重复计算旧 token 的 KV。

它处于「缓存/优化分支」，通常不会参与梯度计算。

只存储 forward 的中间结果，不会影响训练更新

训练流程

train
smolvlapolicy
1. init dataset_stats和config.input_features里面的state维度要对应，改一下dataset_stats
  1. policy = make_policy(ds_meta)这个ds_meta就是dataset_stats吗？加上
2. forward此时传入的batch的state是10维
vlaflowmatching
1. self.vlm_with_expert = SmolVLMWithExpertModel
2. self.state_proj = nn.Linear( self.config.max_state_dim, self.vlm_with_expert.config.text_config.hidden_size )
3. (, suffix_out), = self.vlm_with_expert.forward( attention_mask=att_2d_masks, position_ids=position_ids, past_key_values=None, inputs_embeds=[prefix_embs, suffix_embs], use_cache=False, fill_kv_cache=False, )
smolvlmwithexpert
1. init
2. forward，传入的
  1. inputs_embeds：外部准备好一个 [batch, seq_len, hidden_dim] 的张量，它都会进入 forward 流程
  2. position_ids：这只影响 RoPE（旋转位置编码），它决定每个 token 在序列里的位置。和你要训练的 state 的值域/维度没有直接关系，只是告诉注意力计算“第 i 个 token 的位置是多少”。

dataloader

之前写在train.py里面的，for key in batch:之后，为了保存数据到本地

states = batch["observation.state"].detach().cpu()
if states.dim() == 3:   # e.g. [B, 1, 10] → squeeze掉
    states = states.squeeze(1)
episode_indices = batch["episode_index"].detach().cpu().tolist()
frame_indices = batch["frame_index"].detach().cpu().tolist()
states_list = states.numpy().tolist()

with open("modified_states.jsonl", "a") as f:  # 追加写入
    for ep, fr, st in zip(episode_indices, frame_indices, states_list):
        record = {
            "episode_index": int(ep),
            "frame_index": int(fr),
            "state": st
        }
        f.write(json.dumps(record, ensure_ascii=False) + "\n")

evaluate

要新增的功能
1. 服务器端推理次数统计：只要在policy_server端增加log就行，init里面搞个计数器
2. 能测试baseline，修改task和修改state
  1. task各种形式
  2. state要proj和normalize

config

基本上处理都可以从pretrained_name_or_path里面看出来吧，只要在配置的yaml文件里面写清楚model的path就行，然后服务器根据名字选择出 mtask,mstate和baseline

baseline
mtask_
1. relative
2. grid_2cm
3. grid_5cm
mstate_
1. relative
2. 1m

policy_server

根据config得到控制
推理之前_predict_action_chunk里面处理state和task
推理state的时候是否还需要修改normalize？
1. prepare_batch函数里面看到了，来改吧
2. 之前forward函数里面有batch = self.normalize_inputs(batch,adding_state_stat)
3. 需要确保self.add_location_to_state有对应的值
  1. self.add_location_to_state=config.add_location_to_state
  2. cfg是SmolVLAConfig，也就是模型初始化的时候要有add_location_to_state这个设置
4. self.add_state_dim加载正确
推理的时候去掉side_depth这个多余的feature

robot_clinet

注释掉validate_robot_cameras_for_policy(lerobot_features, policy_image_features)，因为本地不用这个

8.29重新整理代码，今晚收集第二个物体+整理代码

git remote add upstream https://github.com/huggingface/lerobot.git 之前更新的时候不小心丢掉了

camera:realsense camera更改比较多，主要是新增保存双通道的深度图
scripts/train.py
configs/train.py 增加了3个命令行参数 # 自定义 # 当空的时候就等于baseline
language_tip_mode: str = "" # 改成模式，有 pure和grid # 控制是将location加到state里面 add_location_to_state: str = "" freeze_except_7_10: bool= False

factory.py 里面make_dataset

对smovla整体的拆解

smolvla_base这个模型里面都是什么？

# 验证方法
from lerobot.policies.smolvla.modeling_smolvla import SmolVLAPolicy

policy = SmolVLAPolicy.from_pretrained("lerobot/smolvla_base")

# 1. 查看所有参数
for name, param in policy.named_parameters():
    print(f"{name}: {param.shape}, 可训练: {param.requires_grad}")

# 2. 按模块统计参数量
def count_parameters(module):
    return sum(p.numel() for p in module.parameters())

print(f"VLM+Expert总参数: {count_parameters(policy.model.vlm_with_expert):,}")
print(f"State投影: {count_parameters(policy.model.state_proj):,}")
print(f"Action输入投影: {count_parameters(policy.model.action_in_proj):,}")
print(f"Action输出投影: {count_parameters(policy.model.action_out_proj):,}")
print(f"Action时间MLP: {count_parameters(policy.model.action_time_mlp_in) + count_parameters(policy.model.action_time_mlp_out):,}")

# 3. 查看哪些参数被冻结
vlm_params = count_parameters(policy.model.vlm_with_expert)
trainable_params = sum(p.numel() for p in policy.parameters() if p.requires_grad)
print(f"\n总参数: {count_parameters(policy):,}")
print(f"可训练参数: {trainable_params:,}")

执行这个代码以后得到的输出是

Loading  HuggingFaceTB/SmolVLM2-500M-Video-Instruct weights ...
`torch_dtype` is deprecated! Use `dtype` instead!
Reducing the number of VLM layers to 16 ...
model.vlm_with_expert.vlm.model.vision_model.embeddings.patch_embedding.weight: torch.Size([768, 3, 16, 16]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.embeddings.patch_embedding.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.embeddings.position_embedding.weight: torch.Size([1024, 768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.0.self_attn.k_proj.weight: torch.Size([768, 768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.0.self_attn.k_proj.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.0.self_attn.v_proj.weight: torch.Size([768, 768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.0.self_attn.v_proj.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.0.self_attn.q_proj.weight: torch.Size([768, 768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.0.self_attn.q_proj.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.0.self_attn.out_proj.weight: torch.Size([768, 768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.0.self_attn.out_proj.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.0.layer_norm1.weight: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.0.layer_norm1.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.0.mlp.fc1.weight: torch.Size([3072, 768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.0.mlp.fc1.bias: torch.Size([3072]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.0.mlp.fc2.weight: torch.Size([768, 3072]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.0.mlp.fc2.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.0.layer_norm2.weight: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.0.layer_norm2.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.1.self_attn.k_proj.weight: torch.Size([768, 768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.1.self_attn.k_proj.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.1.self_attn.v_proj.weight: torch.Size([768, 768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.1.self_attn.v_proj.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.1.self_attn.q_proj.weight: torch.Size([768, 768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.1.self_attn.q_proj.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.1.self_attn.out_proj.weight: torch.Size([768, 768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.1.self_attn.out_proj.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.1.layer_norm1.weight: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.1.layer_norm1.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.1.mlp.fc1.weight: torch.Size([3072, 768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.1.mlp.fc1.bias: torch.Size([3072]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.1.mlp.fc2.weight: torch.Size([768, 3072]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.1.mlp.fc2.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.1.layer_norm2.weight: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.1.layer_norm2.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.2.self_attn.k_proj.weight: torch.Size([768, 768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.2.self_attn.k_proj.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.2.self_attn.v_proj.weight: torch.Size([768, 768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.2.self_attn.v_proj.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.2.self_attn.q_proj.weight: torch.Size([768, 768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.2.self_attn.q_proj.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.2.self_attn.out_proj.weight: torch.Size([768, 768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.2.self_attn.out_proj.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.2.layer_norm1.weight: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.2.layer_norm1.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.2.mlp.fc1.weight: torch.Size([3072, 768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.2.mlp.fc1.bias: torch.Size([3072]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.2.mlp.fc2.weight: torch.Size([768, 3072]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.2.mlp.fc2.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.2.layer_norm2.weight: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.2.layer_norm2.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.3.self_attn.k_proj.weight: torch.Size([768, 768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.3.self_attn.k_proj.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.3.self_attn.v_proj.weight: torch.Size([768, 768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.3.self_attn.v_proj.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.3.self_attn.q_proj.weight: torch.Size([768, 768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.3.self_attn.q_proj.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.3.self_attn.out_proj.weight: torch.Size([768, 768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.3.self_attn.out_proj.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.3.layer_norm1.weight: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.3.layer_norm1.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.3.mlp.fc1.weight: torch.Size([3072, 768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.3.mlp.fc1.bias: torch.Size([3072]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.3.mlp.fc2.weight: torch.Size([768, 3072]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.3.mlp.fc2.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.3.layer_norm2.weight: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.3.layer_norm2.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.4.self_attn.k_proj.weight: torch.Size([768, 768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.4.self_attn.k_proj.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.4.self_attn.v_proj.weight: torch.Size([768, 768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.4.self_attn.v_proj.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.4.self_attn.q_proj.weight: torch.Size([768, 768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.4.self_attn.q_proj.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.4.self_attn.out_proj.weight: torch.Size([768, 768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.4.self_attn.out_proj.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.4.layer_norm1.weight: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.4.layer_norm1.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.4.mlp.fc1.weight: torch.Size([3072, 768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.4.mlp.fc1.bias: torch.Size([3072]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.4.mlp.fc2.weight: torch.Size([768, 3072]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.4.mlp.fc2.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.4.layer_norm2.weight: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.4.layer_norm2.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.5.self_attn.k_proj.weight: torch.Size([768, 768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.5.self_attn.k_proj.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.5.self_attn.v_proj.weight: torch.Size([768, 768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.5.self_attn.v_proj.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.5.self_attn.q_proj.weight: torch.Size([768, 768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.5.self_attn.q_proj.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.5.self_attn.out_proj.weight: torch.Size([768, 768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.5.self_attn.out_proj.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.5.layer_norm1.weight: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.5.layer_norm1.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.5.mlp.fc1.weight: torch.Size([3072, 768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.5.mlp.fc1.bias: torch.Size([3072]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.5.mlp.fc2.weight: torch.Size([768, 3072]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.5.mlp.fc2.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.5.layer_norm2.weight: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.5.layer_norm2.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.6.self_attn.k_proj.weight: torch.Size([768, 768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.6.self_attn.k_proj.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.6.self_attn.v_proj.weight: torch.Size([768, 768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.6.self_attn.v_proj.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.6.self_attn.q_proj.weight: torch.Size([768, 768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.6.self_attn.q_proj.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.6.self_attn.out_proj.weight: torch.Size([768, 768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.6.self_attn.out_proj.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.6.layer_norm1.weight: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.6.layer_norm1.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.6.mlp.fc1.weight: torch.Size([3072, 768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.6.mlp.fc1.bias: torch.Size([3072]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.6.mlp.fc2.weight: torch.Size([768, 3072]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.6.mlp.fc2.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.6.layer_norm2.weight: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.6.layer_norm2.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.7.self_attn.k_proj.weight: torch.Size([768, 768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.7.self_attn.k_proj.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.7.self_attn.v_proj.weight: torch.Size([768, 768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.7.self_attn.v_proj.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.7.self_attn.q_proj.weight: torch.Size([768, 768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.7.self_attn.q_proj.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.7.self_attn.out_proj.weight: torch.Size([768, 768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.7.self_attn.out_proj.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.7.layer_norm1.weight: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.7.layer_norm1.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.7.mlp.fc1.weight: torch.Size([3072, 768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.7.mlp.fc1.bias: torch.Size([3072]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.7.mlp.fc2.weight: torch.Size([768, 3072]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.7.mlp.fc2.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.7.layer_norm2.weight: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.7.layer_norm2.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.8.self_attn.k_proj.weight: torch.Size([768, 768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.8.self_attn.k_proj.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.8.self_attn.v_proj.weight: torch.Size([768, 768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.8.self_attn.v_proj.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.8.self_attn.q_proj.weight: torch.Size([768, 768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.8.self_attn.q_proj.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.8.self_attn.out_proj.weight: torch.Size([768, 768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.8.self_attn.out_proj.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.8.layer_norm1.weight: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.8.layer_norm1.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.8.mlp.fc1.weight: torch.Size([3072, 768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.8.mlp.fc1.bias: torch.Size([3072]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.8.mlp.fc2.weight: torch.Size([768, 3072]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.8.mlp.fc2.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.8.layer_norm2.weight: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.8.layer_norm2.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.9.self_attn.k_proj.weight: torch.Size([768, 768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.9.self_attn.k_proj.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.9.self_attn.v_proj.weight: torch.Size([768, 768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.9.self_attn.v_proj.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.9.self_attn.q_proj.weight: torch.Size([768, 768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.9.self_attn.q_proj.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.9.self_attn.out_proj.weight: torch.Size([768, 768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.9.self_attn.out_proj.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.9.layer_norm1.weight: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.9.layer_norm1.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.9.mlp.fc1.weight: torch.Size([3072, 768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.9.mlp.fc1.bias: torch.Size([3072]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.9.mlp.fc2.weight: torch.Size([768, 3072]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.9.mlp.fc2.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.9.layer_norm2.weight: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.9.layer_norm2.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.10.self_attn.k_proj.weight: torch.Size([768, 768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.10.self_attn.k_proj.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.10.self_attn.v_proj.weight: torch.Size([768, 768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.10.self_attn.v_proj.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.10.self_attn.q_proj.weight: torch.Size([768, 768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.10.self_attn.q_proj.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.10.self_attn.out_proj.weight: torch.Size([768, 768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.10.self_attn.out_proj.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.10.layer_norm1.weight: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.10.layer_norm1.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.10.mlp.fc1.weight: torch.Size([3072, 768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.10.mlp.fc1.bias: torch.Size([3072]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.10.mlp.fc2.weight: torch.Size([768, 3072]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.10.mlp.fc2.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.10.layer_norm2.weight: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.10.layer_norm2.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.11.self_attn.k_proj.weight: torch.Size([768, 768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.11.self_attn.k_proj.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.11.self_attn.v_proj.weight: torch.Size([768, 768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.11.self_attn.v_proj.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.11.self_attn.q_proj.weight: torch.Size([768, 768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.11.self_attn.q_proj.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.11.self_attn.out_proj.weight: torch.Size([768, 768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.11.self_attn.out_proj.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.11.layer_norm1.weight: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.11.layer_norm1.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.11.mlp.fc1.weight: torch.Size([3072, 768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.11.mlp.fc1.bias: torch.Size([3072]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.11.mlp.fc2.weight: torch.Size([768, 3072]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.11.mlp.fc2.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.11.layer_norm2.weight: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.encoder.layers.11.layer_norm2.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.post_layernorm.weight: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.vision_model.post_layernorm.bias: torch.Size([768]), 可训练: False
model.vlm_with_expert.vlm.model.connector.modality_projection.proj.weight: torch.Size([960, 12288]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.embed_tokens.weight: torch.Size([49280, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.0.self_attn.q_proj.weight: torch.Size([960, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.0.self_attn.k_proj.weight: torch.Size([320, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.0.self_attn.v_proj.weight: torch.Size([320, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.0.self_attn.o_proj.weight: torch.Size([960, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.0.mlp.gate_proj.weight: torch.Size([2560, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.0.mlp.up_proj.weight: torch.Size([2560, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.0.mlp.down_proj.weight: torch.Size([960, 2560]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.0.input_layernorm.weight: torch.Size([960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.0.post_attention_layernorm.weight: torch.Size([960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.1.self_attn.q_proj.weight: torch.Size([960, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.1.self_attn.k_proj.weight: torch.Size([320, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.1.self_attn.v_proj.weight: torch.Size([320, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.1.self_attn.o_proj.weight: torch.Size([960, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.1.mlp.gate_proj.weight: torch.Size([2560, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.1.mlp.up_proj.weight: torch.Size([2560, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.1.mlp.down_proj.weight: torch.Size([960, 2560]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.1.input_layernorm.weight: torch.Size([960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.1.post_attention_layernorm.weight: torch.Size([960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.2.self_attn.q_proj.weight: torch.Size([960, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.2.self_attn.k_proj.weight: torch.Size([320, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.2.self_attn.v_proj.weight: torch.Size([320, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.2.self_attn.o_proj.weight: torch.Size([960, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.2.mlp.gate_proj.weight: torch.Size([2560, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.2.mlp.up_proj.weight: torch.Size([2560, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.2.mlp.down_proj.weight: torch.Size([960, 2560]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.2.input_layernorm.weight: torch.Size([960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.2.post_attention_layernorm.weight: torch.Size([960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.3.self_attn.q_proj.weight: torch.Size([960, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.3.self_attn.k_proj.weight: torch.Size([320, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.3.self_attn.v_proj.weight: torch.Size([320, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.3.self_attn.o_proj.weight: torch.Size([960, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.3.mlp.gate_proj.weight: torch.Size([2560, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.3.mlp.up_proj.weight: torch.Size([2560, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.3.mlp.down_proj.weight: torch.Size([960, 2560]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.3.input_layernorm.weight: torch.Size([960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.3.post_attention_layernorm.weight: torch.Size([960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.4.self_attn.q_proj.weight: torch.Size([960, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.4.self_attn.k_proj.weight: torch.Size([320, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.4.self_attn.v_proj.weight: torch.Size([320, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.4.self_attn.o_proj.weight: torch.Size([960, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.4.mlp.gate_proj.weight: torch.Size([2560, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.4.mlp.up_proj.weight: torch.Size([2560, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.4.mlp.down_proj.weight: torch.Size([960, 2560]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.4.input_layernorm.weight: torch.Size([960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.4.post_attention_layernorm.weight: torch.Size([960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.5.self_attn.q_proj.weight: torch.Size([960, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.5.self_attn.k_proj.weight: torch.Size([320, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.5.self_attn.v_proj.weight: torch.Size([320, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.5.self_attn.o_proj.weight: torch.Size([960, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.5.mlp.gate_proj.weight: torch.Size([2560, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.5.mlp.up_proj.weight: torch.Size([2560, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.5.mlp.down_proj.weight: torch.Size([960, 2560]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.5.input_layernorm.weight: torch.Size([960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.5.post_attention_layernorm.weight: torch.Size([960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.6.self_attn.q_proj.weight: torch.Size([960, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.6.self_attn.k_proj.weight: torch.Size([320, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.6.self_attn.v_proj.weight: torch.Size([320, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.6.self_attn.o_proj.weight: torch.Size([960, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.6.mlp.gate_proj.weight: torch.Size([2560, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.6.mlp.up_proj.weight: torch.Size([2560, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.6.mlp.down_proj.weight: torch.Size([960, 2560]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.6.input_layernorm.weight: torch.Size([960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.6.post_attention_layernorm.weight: torch.Size([960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.7.self_attn.q_proj.weight: torch.Size([960, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.7.self_attn.k_proj.weight: torch.Size([320, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.7.self_attn.v_proj.weight: torch.Size([320, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.7.self_attn.o_proj.weight: torch.Size([960, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.7.mlp.gate_proj.weight: torch.Size([2560, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.7.mlp.up_proj.weight: torch.Size([2560, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.7.mlp.down_proj.weight: torch.Size([960, 2560]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.7.input_layernorm.weight: torch.Size([960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.7.post_attention_layernorm.weight: torch.Size([960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.8.self_attn.q_proj.weight: torch.Size([960, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.8.self_attn.k_proj.weight: torch.Size([320, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.8.self_attn.v_proj.weight: torch.Size([320, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.8.self_attn.o_proj.weight: torch.Size([960, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.8.mlp.gate_proj.weight: torch.Size([2560, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.8.mlp.up_proj.weight: torch.Size([2560, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.8.mlp.down_proj.weight: torch.Size([960, 2560]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.8.input_layernorm.weight: torch.Size([960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.8.post_attention_layernorm.weight: torch.Size([960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.9.self_attn.q_proj.weight: torch.Size([960, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.9.self_attn.k_proj.weight: torch.Size([320, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.9.self_attn.v_proj.weight: torch.Size([320, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.9.self_attn.o_proj.weight: torch.Size([960, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.9.mlp.gate_proj.weight: torch.Size([2560, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.9.mlp.up_proj.weight: torch.Size([2560, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.9.mlp.down_proj.weight: torch.Size([960, 2560]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.9.input_layernorm.weight: torch.Size([960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.9.post_attention_layernorm.weight: torch.Size([960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.10.self_attn.q_proj.weight: torch.Size([960, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.10.self_attn.k_proj.weight: torch.Size([320, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.10.self_attn.v_proj.weight: torch.Size([320, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.10.self_attn.o_proj.weight: torch.Size([960, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.10.mlp.gate_proj.weight: torch.Size([2560, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.10.mlp.up_proj.weight: torch.Size([2560, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.10.mlp.down_proj.weight: torch.Size([960, 2560]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.10.input_layernorm.weight: torch.Size([960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.10.post_attention_layernorm.weight: torch.Size([960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.11.self_attn.q_proj.weight: torch.Size([960, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.11.self_attn.k_proj.weight: torch.Size([320, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.11.self_attn.v_proj.weight: torch.Size([320, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.11.self_attn.o_proj.weight: torch.Size([960, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.11.mlp.gate_proj.weight: torch.Size([2560, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.11.mlp.up_proj.weight: torch.Size([2560, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.11.mlp.down_proj.weight: torch.Size([960, 2560]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.11.input_layernorm.weight: torch.Size([960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.11.post_attention_layernorm.weight: torch.Size([960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.12.self_attn.q_proj.weight: torch.Size([960, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.12.self_attn.k_proj.weight: torch.Size([320, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.12.self_attn.v_proj.weight: torch.Size([320, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.12.self_attn.o_proj.weight: torch.Size([960, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.12.mlp.gate_proj.weight: torch.Size([2560, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.12.mlp.up_proj.weight: torch.Size([2560, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.12.mlp.down_proj.weight: torch.Size([960, 2560]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.12.input_layernorm.weight: torch.Size([960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.12.post_attention_layernorm.weight: torch.Size([960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.13.self_attn.q_proj.weight: torch.Size([960, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.13.self_attn.k_proj.weight: torch.Size([320, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.13.self_attn.v_proj.weight: torch.Size([320, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.13.self_attn.o_proj.weight: torch.Size([960, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.13.mlp.gate_proj.weight: torch.Size([2560, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.13.mlp.up_proj.weight: torch.Size([2560, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.13.mlp.down_proj.weight: torch.Size([960, 2560]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.13.input_layernorm.weight: torch.Size([960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.13.post_attention_layernorm.weight: torch.Size([960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.14.self_attn.q_proj.weight: torch.Size([960, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.14.self_attn.k_proj.weight: torch.Size([320, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.14.self_attn.v_proj.weight: torch.Size([320, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.14.self_attn.o_proj.weight: torch.Size([960, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.14.mlp.gate_proj.weight: torch.Size([2560, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.14.mlp.up_proj.weight: torch.Size([2560, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.14.mlp.down_proj.weight: torch.Size([960, 2560]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.14.input_layernorm.weight: torch.Size([960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.14.post_attention_layernorm.weight: torch.Size([960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.15.self_attn.q_proj.weight: torch.Size([960, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.15.self_attn.k_proj.weight: torch.Size([320, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.15.self_attn.v_proj.weight: torch.Size([320, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.15.self_attn.o_proj.weight: torch.Size([960, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.15.mlp.gate_proj.weight: torch.Size([2560, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.15.mlp.up_proj.weight: torch.Size([2560, 960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.15.mlp.down_proj.weight: torch.Size([960, 2560]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.15.input_layernorm.weight: torch.Size([960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.layers.15.post_attention_layernorm.weight: torch.Size([960]), 可训练: False
model.vlm_with_expert.vlm.model.text_model.norm.weight: torch.Size([960]), 可训练: False
model.vlm_with_expert.vlm.lm_head.weight: torch.Size([49280, 960]), 可训练: False
model.vlm_with_expert.lm_expert.layers.0.self_attn.q_proj.weight: torch.Size([960, 720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.0.self_attn.k_proj.weight: torch.Size([320, 720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.0.self_attn.v_proj.weight: torch.Size([320, 720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.0.self_attn.o_proj.weight: torch.Size([720, 960]), 可训练: True
model.vlm_with_expert.lm_expert.layers.0.mlp.gate_proj.weight: torch.Size([2048, 720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.0.mlp.up_proj.weight: torch.Size([2048, 720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.0.mlp.down_proj.weight: torch.Size([720, 2048]), 可训练: True
model.vlm_with_expert.lm_expert.layers.0.input_layernorm.weight: torch.Size([720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.0.post_attention_layernorm.weight: torch.Size([720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.1.self_attn.q_proj.weight: torch.Size([960, 720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.1.self_attn.k_proj.weight: torch.Size([320, 320]), 可训练: True
model.vlm_with_expert.lm_expert.layers.1.self_attn.v_proj.weight: torch.Size([320, 320]), 可训练: True
model.vlm_with_expert.lm_expert.layers.1.self_attn.o_proj.weight: torch.Size([720, 960]), 可训练: True
model.vlm_with_expert.lm_expert.layers.1.mlp.gate_proj.weight: torch.Size([2048, 720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.1.mlp.up_proj.weight: torch.Size([2048, 720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.1.mlp.down_proj.weight: torch.Size([720, 2048]), 可训练: True
model.vlm_with_expert.lm_expert.layers.1.input_layernorm.weight: torch.Size([720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.1.post_attention_layernorm.weight: torch.Size([720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.2.self_attn.q_proj.weight: torch.Size([960, 720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.2.self_attn.k_proj.weight: torch.Size([320, 720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.2.self_attn.v_proj.weight: torch.Size([320, 720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.2.self_attn.o_proj.weight: torch.Size([720, 960]), 可训练: True
model.vlm_with_expert.lm_expert.layers.2.mlp.gate_proj.weight: torch.Size([2048, 720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.2.mlp.up_proj.weight: torch.Size([2048, 720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.2.mlp.down_proj.weight: torch.Size([720, 2048]), 可训练: True
model.vlm_with_expert.lm_expert.layers.2.input_layernorm.weight: torch.Size([720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.2.post_attention_layernorm.weight: torch.Size([720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.3.self_attn.q_proj.weight: torch.Size([960, 720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.3.self_attn.k_proj.weight: torch.Size([320, 320]), 可训练: True
model.vlm_with_expert.lm_expert.layers.3.self_attn.v_proj.weight: torch.Size([320, 320]), 可训练: True
model.vlm_with_expert.lm_expert.layers.3.self_attn.o_proj.weight: torch.Size([720, 960]), 可训练: True
model.vlm_with_expert.lm_expert.layers.3.mlp.gate_proj.weight: torch.Size([2048, 720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.3.mlp.up_proj.weight: torch.Size([2048, 720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.3.mlp.down_proj.weight: torch.Size([720, 2048]), 可训练: True
model.vlm_with_expert.lm_expert.layers.3.input_layernorm.weight: torch.Size([720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.3.post_attention_layernorm.weight: torch.Size([720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.4.self_attn.q_proj.weight: torch.Size([960, 720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.4.self_attn.k_proj.weight: torch.Size([320, 720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.4.self_attn.v_proj.weight: torch.Size([320, 720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.4.self_attn.o_proj.weight: torch.Size([720, 960]), 可训练: True
model.vlm_with_expert.lm_expert.layers.4.mlp.gate_proj.weight: torch.Size([2048, 720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.4.mlp.up_proj.weight: torch.Size([2048, 720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.4.mlp.down_proj.weight: torch.Size([720, 2048]), 可训练: True
model.vlm_with_expert.lm_expert.layers.4.input_layernorm.weight: torch.Size([720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.4.post_attention_layernorm.weight: torch.Size([720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.5.self_attn.q_proj.weight: torch.Size([960, 720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.5.self_attn.k_proj.weight: torch.Size([320, 320]), 可训练: True
model.vlm_with_expert.lm_expert.layers.5.self_attn.v_proj.weight: torch.Size([320, 320]), 可训练: True
model.vlm_with_expert.lm_expert.layers.5.self_attn.o_proj.weight: torch.Size([720, 960]), 可训练: True
model.vlm_with_expert.lm_expert.layers.5.mlp.gate_proj.weight: torch.Size([2048, 720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.5.mlp.up_proj.weight: torch.Size([2048, 720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.5.mlp.down_proj.weight: torch.Size([720, 2048]), 可训练: True
model.vlm_with_expert.lm_expert.layers.5.input_layernorm.weight: torch.Size([720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.5.post_attention_layernorm.weight: torch.Size([720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.6.self_attn.q_proj.weight: torch.Size([960, 720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.6.self_attn.k_proj.weight: torch.Size([320, 720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.6.self_attn.v_proj.weight: torch.Size([320, 720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.6.self_attn.o_proj.weight: torch.Size([720, 960]), 可训练: True
model.vlm_with_expert.lm_expert.layers.6.mlp.gate_proj.weight: torch.Size([2048, 720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.6.mlp.up_proj.weight: torch.Size([2048, 720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.6.mlp.down_proj.weight: torch.Size([720, 2048]), 可训练: True
model.vlm_with_expert.lm_expert.layers.6.input_layernorm.weight: torch.Size([720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.6.post_attention_layernorm.weight: torch.Size([720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.7.self_attn.q_proj.weight: torch.Size([960, 720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.7.self_attn.k_proj.weight: torch.Size([320, 320]), 可训练: True
model.vlm_with_expert.lm_expert.layers.7.self_attn.v_proj.weight: torch.Size([320, 320]), 可训练: True
model.vlm_with_expert.lm_expert.layers.7.self_attn.o_proj.weight: torch.Size([720, 960]), 可训练: True
model.vlm_with_expert.lm_expert.layers.7.mlp.gate_proj.weight: torch.Size([2048, 720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.7.mlp.up_proj.weight: torch.Size([2048, 720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.7.mlp.down_proj.weight: torch.Size([720, 2048]), 可训练: True
model.vlm_with_expert.lm_expert.layers.7.input_layernorm.weight: torch.Size([720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.7.post_attention_layernorm.weight: torch.Size([720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.8.self_attn.q_proj.weight: torch.Size([960, 720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.8.self_attn.k_proj.weight: torch.Size([320, 720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.8.self_attn.v_proj.weight: torch.Size([320, 720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.8.self_attn.o_proj.weight: torch.Size([720, 960]), 可训练: True
model.vlm_with_expert.lm_expert.layers.8.mlp.gate_proj.weight: torch.Size([2048, 720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.8.mlp.up_proj.weight: torch.Size([2048, 720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.8.mlp.down_proj.weight: torch.Size([720, 2048]), 可训练: True
model.vlm_with_expert.lm_expert.layers.8.input_layernorm.weight: torch.Size([720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.8.post_attention_layernorm.weight: torch.Size([720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.9.self_attn.q_proj.weight: torch.Size([960, 720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.9.self_attn.k_proj.weight: torch.Size([320, 320]), 可训练: True
model.vlm_with_expert.lm_expert.layers.9.self_attn.v_proj.weight: torch.Size([320, 320]), 可训练: True
model.vlm_with_expert.lm_expert.layers.9.self_attn.o_proj.weight: torch.Size([720, 960]), 可训练: True
model.vlm_with_expert.lm_expert.layers.9.mlp.gate_proj.weight: torch.Size([2048, 720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.9.mlp.up_proj.weight: torch.Size([2048, 720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.9.mlp.down_proj.weight: torch.Size([720, 2048]), 可训练: True
model.vlm_with_expert.lm_expert.layers.9.input_layernorm.weight: torch.Size([720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.9.post_attention_layernorm.weight: torch.Size([720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.10.self_attn.q_proj.weight: torch.Size([960, 720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.10.self_attn.k_proj.weight: torch.Size([320, 720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.10.self_attn.v_proj.weight: torch.Size([320, 720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.10.self_attn.o_proj.weight: torch.Size([720, 960]), 可训练: True
model.vlm_with_expert.lm_expert.layers.10.mlp.gate_proj.weight: torch.Size([2048, 720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.10.mlp.up_proj.weight: torch.Size([2048, 720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.10.mlp.down_proj.weight: torch.Size([720, 2048]), 可训练: True
model.vlm_with_expert.lm_expert.layers.10.input_layernorm.weight: torch.Size([720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.10.post_attention_layernorm.weight: torch.Size([720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.11.self_attn.q_proj.weight: torch.Size([960, 720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.11.self_attn.k_proj.weight: torch.Size([320, 320]), 可训练: True
model.vlm_with_expert.lm_expert.layers.11.self_attn.v_proj.weight: torch.Size([320, 320]), 可训练: True
model.vlm_with_expert.lm_expert.layers.11.self_attn.o_proj.weight: torch.Size([720, 960]), 可训练: True
model.vlm_with_expert.lm_expert.layers.11.mlp.gate_proj.weight: torch.Size([2048, 720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.11.mlp.up_proj.weight: torch.Size([2048, 720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.11.mlp.down_proj.weight: torch.Size([720, 2048]), 可训练: True
model.vlm_with_expert.lm_expert.layers.11.input_layernorm.weight: torch.Size([720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.11.post_attention_layernorm.weight: torch.Size([720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.12.self_attn.q_proj.weight: torch.Size([960, 720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.12.self_attn.k_proj.weight: torch.Size([320, 720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.12.self_attn.v_proj.weight: torch.Size([320, 720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.12.self_attn.o_proj.weight: torch.Size([720, 960]), 可训练: True
model.vlm_with_expert.lm_expert.layers.12.mlp.gate_proj.weight: torch.Size([2048, 720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.12.mlp.up_proj.weight: torch.Size([2048, 720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.12.mlp.down_proj.weight: torch.Size([720, 2048]), 可训练: True
model.vlm_with_expert.lm_expert.layers.12.input_layernorm.weight: torch.Size([720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.12.post_attention_layernorm.weight: torch.Size([720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.13.self_attn.q_proj.weight: torch.Size([960, 720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.13.self_attn.k_proj.weight: torch.Size([320, 320]), 可训练: True
model.vlm_with_expert.lm_expert.layers.13.self_attn.v_proj.weight: torch.Size([320, 320]), 可训练: True
model.vlm_with_expert.lm_expert.layers.13.self_attn.o_proj.weight: torch.Size([720, 960]), 可训练: True
model.vlm_with_expert.lm_expert.layers.13.mlp.gate_proj.weight: torch.Size([2048, 720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.13.mlp.up_proj.weight: torch.Size([2048, 720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.13.mlp.down_proj.weight: torch.Size([720, 2048]), 可训练: True
model.vlm_with_expert.lm_expert.layers.13.input_layernorm.weight: torch.Size([720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.13.post_attention_layernorm.weight: torch.Size([720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.14.self_attn.q_proj.weight: torch.Size([960, 720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.14.self_attn.k_proj.weight: torch.Size([320, 720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.14.self_attn.v_proj.weight: torch.Size([320, 720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.14.self_attn.o_proj.weight: torch.Size([720, 960]), 可训练: True
model.vlm_with_expert.lm_expert.layers.14.mlp.gate_proj.weight: torch.Size([2048, 720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.14.mlp.up_proj.weight: torch.Size([2048, 720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.14.mlp.down_proj.weight: torch.Size([720, 2048]), 可训练: True
model.vlm_with_expert.lm_expert.layers.14.input_layernorm.weight: torch.Size([720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.14.post_attention_layernorm.weight: torch.Size([720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.15.self_attn.q_proj.weight: torch.Size([960, 720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.15.self_attn.k_proj.weight: torch.Size([320, 320]), 可训练: True
model.vlm_with_expert.lm_expert.layers.15.self_attn.v_proj.weight: torch.Size([320, 320]), 可训练: True
model.vlm_with_expert.lm_expert.layers.15.self_attn.o_proj.weight: torch.Size([720, 960]), 可训练: True
model.vlm_with_expert.lm_expert.layers.15.mlp.gate_proj.weight: torch.Size([2048, 720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.15.mlp.up_proj.weight: torch.Size([2048, 720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.15.mlp.down_proj.weight: torch.Size([720, 2048]), 可训练: True
model.vlm_with_expert.lm_expert.layers.15.input_layernorm.weight: torch.Size([720]), 可训练: True
model.vlm_with_expert.lm_expert.layers.15.post_attention_layernorm.weight: torch.Size([720]), 可训练: True
model.vlm_with_expert.lm_expert.norm.weight: torch.Size([720]), 可训练: True
model.state_proj.weight: torch.Size([960, 32]), 可训练: True
model.state_proj.bias: torch.Size([960]), 可训练: True
model.action_in_proj.weight: torch.Size([720, 32]), 可训练: True
model.action_in_proj.bias: torch.Size([720]), 可训练: True
model.action_out_proj.weight: torch.Size([32, 720]), 可训练: True
model.action_out_proj.bias: torch.Size([32]), 可训练: True
model.action_time_mlp_in.weight: torch.Size([720, 1440]), 可训练: True
model.action_time_mlp_in.bias: torch.Size([720]), 可训练: True
model.action_time_mlp_out.weight: torch.Size([720, 720]), 可训练: True
model.action_time_mlp_out.bias: torch.Size([720]), 可训练: True
VLM+Expert总参数: 448,411,024
State投影: 31,680
Action输入投影: 23,760
Action输出投影: 23,072
Action时间MLP: 1,556,640

总参数: 450,046,176
可训练参数: 99,880,992

看到这些打印出来的参数名，可以分类

SmolVLAPolicy └── model ├── vlm_with_expert │ ├── vlm ← 完整 VLM（冻结） │ │ ├── vision_model (ViT) │ │ ├── text_model (LLM) │ │ └── connector (vision → text) │ └── lm_expert ← 可训练的小语言专家 │ ├── state_proj ← 状态输入投影（通常可训练） ├── action_in_proj ← action token 投影 ├── action_out_proj ← action head ├── action_time_mlp_* ← 时间 / step embedding

主要看可以训练的部分 1. lm_expert - 也是 16 层 Transformer - 但 hidden size = 720（比主 LLM 的 960 小 - 是一个 插在 VLM 后面的“专家语言模型” - lm_expert 负责“为动作而思考”

结合代码，smolvla的框架是 ### 1️⃣ 输入处理

图像 → prepare_images → embed_prefix → VLM embedding (token_vlm)
状态 → prepare_state → state_proj → state_token
动作 → prepare_action → action_in_proj → action_token

注意：state_proj 和 action_in_proj 都是线性层，把原始状态/动作映射到 LM 专家输入维度。

语言指令 → lang_tokens → VLM embedding

2️⃣ LM Expert 输入

lm_expert_input = [token_vlm (VLM embedding), state_token, action_token] 注意力 mask 和位置编码会控制哪些 token 可以互相 attend。

LM expert 的输出通过 action_out_proj → 预测动作 v_t。

3️⃣ Loss python 复制代码 loss = F.mse_loss(noisy_actions - actions, v_t, reduction="none") 只有 LM expert、state_proj、action_in_proj、action_out_proj 会更新

VLM frozen 不更新

只有 LM expert、state_proj、action_in_proj、action_out_proj 会更新

我现在清楚了，重点是修改state相关的输入，因为action。写我的攻略

怎样确定下来我需要改state相关的输入的你的问题背景：

微调数据集：不同相机位置的图像 + 末端位姿在相机坐标系下的值
LM expert 预训练模型：使用的 state/action 分布 与微调数据差异大（原本可能是关节角等）
目标：让微调数据能被预训练模型理解，并生成对应动作
state 分布差异大
- 微调数据的 state 经过 FK + 相机变换，与原预训练模型的 state 分布完全不同
- LM expert 已经熟悉原始 state_proj 输出的分布
- 少量微调数据无法直接训练 LM expert 学习新分布
action 不需要修改
- 你微调的目标是输出在相机坐标系下的 action
- LM expert 已经生成合理动作，只需要输入的 state 对应原特征空间即可
- 如果对 action 投影，会改变 LM expert 的输出目标，微调难度增加

代码怎样修改

class VLAFlowMacthing里面增加

在init中新增 state_adapter：

self.state_adapter = StateAdapter( input_dim=self.vlm_with_expert.config.text_config.hidden_size, hidden_dim=self.vlm_with_expert.config.text_config.hidden_size * 2, output_dim=self.vlm_with_expert.config.text_config.hidden_size )

在 embed_prefix 中使用：

state_emb = self.state_proj(state) # 原始线性投影 state_emb = self.state_adapter(state_emb) # 新增 adapter state_emb = state_emb[:, None, :]

3️⃣ state_adapter 输入、输出和模型结构

class StateAdapter(nn.Module): def __init__(self, input_dim, hidden_dim, output_dim): super().__init__() self.mlp = nn.Sequential( nn.Linear(input_dim, hidden_dim), nn.SiLU(), nn.Linear(hidden_dim, output_dim), ) def forward(self, x): return self.mlp(x)

输入维度：state_proj 输出维度
隐藏层维度：state_proj 输出维度 * 2（经验值，可调）
输出维度：与 LM expert hidden size 相同
激活函数：SiLU（GELU/ReLU 也可）

4️⃣ 微调方案

4.1 冻结预训练 LM expert

for param in model.vlm_with_expert.parameters(): param.requires_grad = False

只训练 state_adapter
如果数据量稍大，可以微调 LM expert 最后几层

4.2 优化器

optimizer = torch.optim.AdamW(model.state_adapter.parameters(), lr=1e-3)

小学习率即可
可以添加 weight decay

4.3 训练流程

for batch in dataloader: state, action = batch['state'], batch['action'] pred_action = model.embed_prefix(state, action) loss = loss_fn(pred_action, action) loss.backward() optimizer.step() optimizer.zero_grad()

loss 可用原 smolvla_base 的 action loss
注意 state 是微调数据的相机坐标系状态

4.4 训练建议

数据少时：
- 冻结 LM expert
- 仅训练 adapter
- 可以用少量 epoch 收敛
如果数据量中等：
- 冻结前几层 LM expert
- 微调最后几层或 cross attention

- 冻结：VLM + LM expert + state_proj + action_proj
- 只训练：state_adapter
- 目标：把新 state 分布对齐到 LM expert 熟悉的特征空间
阶段 2（可选）
- 继续冻结 VLM（vision + text backbone）
- 解冻：LM expert（或只解冻后几层）+ state_proj + action_proj
- 小学习率联合微调
- 目标：让 expert 真正适配“相机坐标系动作语义”

这是一个标准的 Adapter → Finetune 的 curriculum learning。

首先处理低参数量的分布对齐问题然后再默认的方式微调