Hongin Kim commited on Jan 5

Commit

cf69e7a

1 Parent(s): f634d75

Initial model release

Files changed (20) hide show

.gitattributes +1 -0
README.md +319 -1
added_tokens.json +28 -0
chat_template.jinja +120 -0
config.json +68 -0
generation_config.json +13 -0
merges.txt +0 -0
model-00001-of-00004.safetensors +3 -0
model-00002-of-00004.safetensors +3 -0
model-00003-of-00004.safetensors +3 -0
model-00004-of-00004.safetensors +3 -0
model.safetensors.index.json +758 -0
preprocessor_config.json +39 -0
special_tokens_map.json +31 -0
test_sampled_test_current_only_v3.json +0 -0
tokenizer.json +3 -0
tokenizer_config.json +241 -0
trainer_state.json +90 -0
video_preprocessor_config.json +41 -0
vocab.json +0 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

README.md CHANGED Viewed

@@ -1,3 +1,321 @@
 ---
 license: apache-2.0
----

 ---
 license: apache-2.0
+language:
+- en
+base_model:
+- snuh/mvl-rrg-1.0
+tags:
+- radiology report generation
+- medical vision
+- clinical
+- benchmark
+- healthcare
+---
+🧠 **Temporal & Multi-CXR Chest X-ray Report Generation Model by HARI and MVL of Seoul National University Hospital**
+Welcome to the official repository of the **Temporal & Multi-CXR Chest X-ray Report Generation Model** developed by the **Healthcare AI Research Institute (HARI)** and **Medical Vision Lab(MVL)** at **Seoul National University Hospital (SNUH)**.
+This model generates chest X-ray (CXR) reports and is designed to leverage not only single-image inputs, but also **multi-view CXRs (PA/AP/Lateral) and temporal pairs (current + prior)**. When available, it can additionally incorporate textual clinical context such as prior reports, indication, and time interval.
+It is trained with instruction data tailored to different input configurations (current only / current + prior / current + prior + prior report), and applies **report style constraints (structure, sentence count, temporal expressions, etc.) to reduce linguistic variation and encourage the model to focus more on clinically meaningful findings and temporal changes.**
+## 🚀 Model Overview
+* **Model Name**: `snuh/mvl-rrg-1.0`
+* **Architecture**: Large Multimodal Model (LMM)
+* **Fine-tuning Objective**: Radiology report generation
+* **Primary Language**: English
+* **Domain**: Chest X-ray
+* **Performance**: Achieves state-of-the-art performance on standard report generation benchmarks
+* **Key Applications**:
+  * Multi-view CXR inputs (PA/AP/Lateral)
+  * Temporal pairs CXR inputs (current + prior)
+  * Style-controlled report generation to reduce linguistic variance
+## 📊 Training Data & Benchmark
+This model was fine-tuned using a curated corpus of medical report generation data derived from **publicly available, de-identified sources**, including **MIMIC-CXR** and **MIMIC-CXR reports**. The training data focuses on radiology report generation from chest X-ray images.
+* **Training Data Characteristics**:
+  - Focused on generating radiology reports from chest X-ray images.
+  - Utilizes chest X-ray images and corresponding radiology reports from the MIMIC-CXR dataset.
+  - Incorporates longitudinal imaging data with two or more time points, enabling the model to understand sequential changes in patient conditions.
+  - Designed to reflect realistic radiological interpretation and documentation workflows.
+  - The current dataset consists of 80,136 training samples and 665 test samples, ensuring robust model training and evaluation.
+  - Samples in which the radiology report referenced a prior examination but no corresponding prior data could be mapped were excluded from the dataset.
+###  Evaluation Scope and Benchmark Results
+The reported benchmark results focus on **current-only report generation**, where each report is generated using a single, self-contained imaging context without explicit temporal inputs.
+In medical imaging, this setting differs fundamentally from **temporal (longitudinal) report generation**, which requires reasoning over disease progression, treatment response, or follow-up changes. Temporal information can substantially alter clinical interpretation, even when surface-level imaging findings appear similar.
+Accordingly, we distinguish between the following evaluation regimes:
+- **Current-only evaluation**
+  Single-image, single-context report generation.
+  All reported benchmark results are based on this setting.
+| Model       | ROUGE-L | BLEU-1 | BLEU-4 | RadGraph F1 | RadCliQ (↓) |
+|:------------|--------:|-------:|-------:|------------:|------------:|
+| Libra       | 25.6    | 33.0   | 9.1    | 24.5        | 0.92        |
+| MAIRA-2     | 29.9    | 44.7   | 14.9   | 34.7        | 1.27        |
+| mvl-rrg-1.0 | 34.1    | 44.6   | 18.6   | 34.9        | 1.23        |
+- **Temporal evaluation (ongoing)**
+  Time-aware report generation that incorporates prior imaging studies and longitudinal clinical changes.
+| Model       | Temporal RadGraph F1 |
+|:------------|---------------------:|
+| Libra       | 54.8                 |
+| MAIRA-2     | 52.5                 |
+| mvl-rrg-1.0 | 79.9                 |
+> ⚠️ These benchmarks are provided for research purposes only and do not imply clinical safety or efficacy.
+## 🔐 Privacy & Ethical Compliance
+We strictly adhere to ethical AI development and privacy protection:
+* ✅ The model was trained exclusively on **publicly available and de-identified data**.
+* 🔒 It does **not include any real patient data or personally identifiable information (PII)**.
+* ⚖️ Designed for **safe, responsible, and research-oriented** use in healthcare AI.
+> ⚠️ This model is intended for **research and educational purposes only** and should **not** be used to make clinical decisions.
+## 🏥 About HARI and MVL of Seoul National University Hospital
+HARI – Healthcare AI Research Institute
+The **Healthcare AI Research Institute (HARI)** is a pioneering research group within **Seoul National University Hospital**, driving innovation in medical AI.
+MVL - Medical Vison Lab
+The **Medical Vison Lab (MVL)** is a pioneering research group within **Seoul National University Hospital**, driving innovation in medical AI.
+* To develop AI technology-based applications that will aid doctors in fast and accurate diagnostic decisions helping patients have a comfortable life and eventually improve their life quality.
+### 🌍 Vision & Mission
+* **Vision**: Shaping a sustainable and healthy future through pioneering AI research.
+* **Mission**:
+  * Develop clinically useful, trustworthy AI technologies.
+  * Foster cross-disciplinary collaboration in medicine and AI.
+  * Lead global healthcare AI commercialization and policy frameworks.
+  * Educate the next generation of AI-powered medical professionals.
+## 🤝 Collaborate with Us
+We welcome collaboration with:
+* AI research institutions and medical universities
+* Healthcare startups and technology partners
+* Policymakers shaping AI regulation in medicine
+* HARI
+📧 **Contact**: [hhoon@snu.ac.kr](mailto:hhoon@snu.ac.kr)
+🌐 **Website**: [Seoul National University Hospital](https://www.snuh.org/)
+* MVL
+📧 **Contact**: [yg@snuh.org](mailto:yg@snuh.org)
+🌐 **Website**: [Medical Vison Lab](https://sites.google.com/view/MedicalVisionLab)
+## 🤗 Model Usage Example
+```python
+from transformers import Qwen3VLForConditionalGeneration, AutoProcessor
+import torch
+from pathlib import Path
+import os
+from PIL import Image
+# Load processor and model
+model_name = "Qwen3VL_SNUH"
+model = Qwen3VLForConditionalGeneration.from_pretrained(
+    model_name,
+    torch_dtype=torch.bfloat16,
+    device_map="auto"
+)
+processor = AutoProcessor.from_pretrained(model_name)
+# Image paths
+current_frontal_image_path = "/**/current_frontal_image.png"
+current_lateral_image_path = "/**/current_lateral_image.png"
+prior_frontal_image_path = "/**/prior_frontal_image.png"
+# Validate image paths exist
+if current_frontal_image_path and not Path(current_frontal_image_path).exists():
+    raise FileNotFoundError(f"Current frontal image file not found: {current_frontal_image_path}")
+if current_lateral_image_path and not Path(current_lateral_image_path).exists():
+    raise FileNotFoundError(f"Current lateral image file not found: {current_lateral_image_path}")
+if prior_frontal_image_path and not Path(prior_frontal_image_path).exists():
+    raise FileNotFoundError(f"Prior frontal image file not found: {prior_frontal_image_path}")
+# Clinical context
+prior_findings = "N/A"
+prior_impression = "Developed pleural effusion, both\nInterval increased nodular opacity at LMLF"
+indication = "F with chest pain // ?pna"
+technique = "CHEST (PA AND LAT)"
+comparison = "__."
+time_interval = "1 month"
+# Style attributes
+findings_structure_type = "narrative_paragraph"
+findings_temporal_comparison = "absent"
+findings_sentence_count = 6
+impression_structure_type = "narrative_paragraph"
+impression_temporal_comparison = "absent"
+impression_sentence_count = 1
+# Instruction
+inputs_list = ["- Current frontal image: <image>"]
+if current_lateral_image_path:
+    inputs_list.append("- Current lateral image: <image>")
+else:
+    inputs_list.append("- Current lateral image: N/A")
+if prior_frontal_image_path:
+    inputs_list.append("- Prior frontal image: <image>")
+else:
+    inputs_list.append("- Prior frontal image: N/A")
+inputs_list.extend([
+    f"- Prior findings: {prior_findings}",
+    f"- Prior impression: {prior_impression}"
+])
+inputs_text = "\n".join(inputs_list)
+instruction = f"""You are an expert radiology assistant for chest X-ray (CXR) interpretation.
+Inputs:
+{inputs_text}
+Clinical context:
+- INDICATION: {indication}
+- TECHNIQUE: {technique}
+- COMPARISON: {comparison}
+- TIME INTERVAL: {time_interval}
+  (Time elapsed between the prior study date and the current study date)
+Instructions:
+1. Generate a chest X-ray report based on the current study.
+2. Write a Findings section describing radiographic observations using standard clinical language.
+3. Write an Impression section summarizing the key findings or overall assessment.
+4. When applicable, include conditions related to CheXbert classes
+   (e.g., cardiomegaly, lung opacity, pleural effusion, pneumothorax, pneumonia,
+   support devices, or no acute abnormality).
+5. If no significant abnormality is present, clearly state this.
+6. Follow the provided style attributes exactly, applying them independently
+   to the Findings and Impression sections:
+   - Structure type controls the organizational pattern of the text.
+   - Temporal comparison controls whether and how prior studies are referenced.
+   - Sentence count controls the amount of text (small / medium / large).
+Output format:
+Return only a single JSON object with the following fields:
+{{
+  "findings": "<free-text radiology findings>",
+  "impression": "<free-text radiology impression>"
+}}
+Style attributes:
+- findings_structure_type: {findings_structure_type}
+- findings_temporal_comparison: {findings_temporal_comparison}
+- findings_sentence_count: {findings_sentence_count}
+- impression_structure_type: {impression_structure_type}
+- impression_temporal_comparison: {impression_temporal_comparison}
+- impression_sentence_count: {impression_sentence_count}"""
+content = []
+# Current frontal image (always required)
+current_frontal_image = Image.open(current_frontal_image_path)
+content.append({
+    "type": "images",
+    "image": current_frontal_image,
+})
+# Current lateral image (optional)
+if current_lateral_image_path:
+    current_lateral_image = Image.open(current_lateral_image_path)
+    content.append({
+        "type": "images",
+        "image": current_lateral_image,
+    })
+# Prior frontal image (optional)
+if prior_frontal_image_path:
+    prior_frontal_image = Image.open(prior_frontal_image_path)
+    content.append({
+        "type": "images",
+        "image": prior_frontal_image,
+    })
+# Instruction
+content.append({
+    "type": "text",
+    "text": instruction,
+})
+messages = [
+    {
+        "role": "user",
+        "content": content,
+    }
+]
+inputs = processor.apply_chat_template(
+    messages,
+    tokenize=True,
+    add_generation_prompt=True,
+    return_tensors="pt",
+    return_dict=True,
+)
+inputs = {k: v.to(model.device) for k, v in inputs.items()}
+with torch.no_grad():
+    generated_ids = model.generate(
+        **inputs,
+        max_new_tokens=512
+    )
+prompt_len = inputs["input_ids"].shape[-1]
+generated_ids_trimmed = generated_ids[:, prompt_len:]
+response = processor.batch_decode(
+    generated_ids_trimmed,
+    skip_special_tokens=True,
+    clean_up_tokenization_spaces=False,
+)[0]
+#result
+print(response)
+````
+## 📄 License
+**Apache 2.0 License** – Free for research and commercial use with attribution.
+## 📢 Citation
+If you use this model in your work, please cite:
+```
+@misc{mvl-rrg-1.0,
+    title  = {mvl-rrg-1.0},
+    url    = {https://huggingface.co/snuh/mvl-rrg-1.0},
+    author = {Healthcare AI Research Institute(HARI) and Medical Vison Lab (MVL) of Seoul National University Hospital(SNUH)},
+    month  = {January},
+    year   = {2026}
+}
+```
+## 🚀 Together, we are shaping the future of AI-driven healthcare.

added_tokens.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "</think>": 151668,
+  "</tool_call>": 151658,
+  "</tool_response>": 151666,
+  "<think>": 151667,
+  "<tool_call>": 151657,
+  "<tool_response>": 151665,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

chat_template.jinja ADDED Viewed

	@@ -0,0 +1,120 @@

+{%- if tools %}
+    {{- '<|im_start|>system\n' }}
+    {%- if messages[0].role == 'system' %}
+        {%- if messages[0].content is string %}
+            {{- messages[0].content }}
+        {%- else %}
+            {%- for content in messages[0].content %}
+                {%- if 'text' in content %}
+                    {{- content.text }}
+                {%- endif %}
+            {%- endfor %}
+        {%- endif %}
+        {{- '\n\n' }}
+    {%- endif %}
+    {{- "# Tools\n\nYou may call one or more functions to assist with the user query.\n\nYou are provided with function signatures within <tools></tools> XML tags:\n<tools>" }}
+    {%- for tool in tools %}
+        {{- "\n" }}
+        {{- tool | tojson }}
+    {%- endfor %}
+    {{- "\n</tools>\n\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\n<tool_call>\n{\"name\": <function-name>, \"arguments\": <args-json-object>}\n</tool_call><|im_end|>\n" }}
+{%- else %}
+    {%- if messages[0].role == 'system' %}
+        {{- '<|im_start|>system\n' }}
+        {%- if messages[0].content is string %}
+            {{- messages[0].content }}
+        {%- else %}
+            {%- for content in messages[0].content %}
+                {%- if 'text' in content %}
+                    {{- content.text }}
+                {%- endif %}
+            {%- endfor %}
+        {%- endif %}
+        {{- '<|im_end|>\n' }}
+    {%- endif %}
+{%- endif %}
+{%- set image_count = namespace(value=0) %}
+{%- set video_count = namespace(value=0) %}
+{%- for message in messages %}
+    {%- if message.role == "user" %}
+        {{- '<|im_start|>' + message.role + '\n' }}
+        {%- if message.content is string %}
+            {{- message.content }}
+        {%- else %}
+            {%- for content in message.content %}
+                {%- if content.type == 'image' or 'image' in content or 'image_url' in content %}
+                    {%- set image_count.value = image_count.value + 1 %}
+                    {%- if add_vision_id %}Picture {{ image_count.value }}: {% endif -%}
+                    <|vision_start|><|image_pad|><|vision_end|>
+                {%- elif content.type == 'video' or 'video' in content %}
+                    {%- set video_count.value = video_count.value + 1 %}
+                    {%- if add_vision_id %}Video {{ video_count.value }}: {% endif -%}
+                    <|vision_start|><|video_pad|><|vision_end|>
+                {%- elif 'text' in content %}
+                    {{- content.text }}
+                {%- endif %}
+            {%- endfor %}
+        {%- endif %}
+        {{- '<|im_end|>\n' }}
+    {%- elif message.role == "assistant" %}
+        {{- '<|im_start|>' + message.role + '\n' }}
+        {%- if message.content is string %}
+            {{- message.content }}
+        {%- else %}
+            {%- for content_item in message.content %}
+                {%- if 'text' in content_item %}
+                    {{- content_item.text }}
+                {%- endif %}
+            {%- endfor %}
+        {%- endif %}
+        {%- if message.tool_calls %}
+            {%- for tool_call in message.tool_calls %}
+                {%- if (loop.first and message.content) or (not loop.first) %}
+                    {{- '\n' }}
+                {%- endif %}
+                {%- if tool_call.function %}
+                    {%- set tool_call = tool_call.function %}
+                {%- endif %}
+                {{- '<tool_call>\n{"name": "' }}
+                {{- tool_call.name }}
+                {{- '", "arguments": ' }}
+                {%- if tool_call.arguments is string %}
+                    {{- tool_call.arguments }}
+                {%- else %}
+                    {{- tool_call.arguments | tojson }}
+                {%- endif %}
+                {{- '}\n</tool_call>' }}
+            {%- endfor %}
+        {%- endif %}
+        {{- '<|im_end|>\n' }}
+    {%- elif message.role == "tool" %}
+        {%- if loop.first or (messages[loop.index0 - 1].role != "tool") %}
+            {{- '<|im_start|>user' }}
+        {%- endif %}
+        {{- '\n<tool_response>\n' }}
+        {%- if message.content is string %}
+            {{- message.content }}
+        {%- else %}
+            {%- for content in message.content %}
+                {%- if content.type == 'image' or 'image' in content or 'image_url' in content %}
+                    {%- set image_count.value = image_count.value + 1 %}
+                    {%- if add_vision_id %}Picture {{ image_count.value }}: {% endif -%}
+                    <|vision_start|><|image_pad|><|vision_end|>
+                {%- elif content.type == 'video' or 'video' in content %}
+                    {%- set video_count.value = video_count.value + 1 %}
+                    {%- if add_vision_id %}Video {{ video_count.value }}: {% endif -%}
+                    <|vision_start|><|video_pad|><|vision_end|>
+                {%- elif 'text' in content %}
+                    {{- content.text }}
+                {%- endif %}
+            {%- endfor %}
+        {%- endif %}
+        {{- '\n</tool_response>' }}
+        {%- if loop.last or (messages[loop.index0 + 1].role != "tool") %}
+            {{- '<|im_end|>\n' }}
+        {%- endif %}
+    {%- endif %}
+{%- endfor %}
+{%- if add_generation_prompt %}
+    {{- '<|im_start|>assistant\n' }}
+{%- endif %}

config.json ADDED Viewed

	@@ -0,0 +1,68 @@

+{
+  "architectures": [
+    "Qwen3VLForConditionalGeneration"
+  ],
+  "dtype": "bfloat16",
+  "eos_token_id": 151645,
+  "hidden_size": 4096,
+  "image_token_id": 151655,
+  "model_type": "qwen3_vl",
+  "pad_token_id": 151643,
+  "text_config": {
+    "attention_bias": false,
+    "attention_dropout": 0.0,
+    "bos_token_id": 151643,
+    "dtype": "float32",
+    "eos_token_id": 151645,
+    "head_dim": 128,
+    "hidden_act": "silu",
+    "hidden_size": 4096,
+    "initializer_range": 0.02,
+    "intermediate_size": 12288,
+    "max_position_embeddings": 262144,
+    "model_type": "qwen3_vl_text",
+    "num_attention_heads": 32,
+    "num_hidden_layers": 36,
+    "num_key_value_heads": 8,
+    "rms_norm_eps": 1e-06,
+    "rope_scaling": {
+      "mrope_interleaved": true,
+      "mrope_section": [
+        24,
+        20,
+        20
+      ],
+      "rope_type": "default"
+    },
+    "rope_theta": 5000000,
+    "use_cache": false,
+    "vocab_size": 151936
+  },
+  "tie_word_embeddings": false,
+  "transformers_version": "4.57.1",
+  "use_cache": false,
+  "video_token_id": 151656,
+  "vision_config": {
+    "deepstack_visual_indexes": [
+      8,
+      16,
+      24
+    ],
+    "depth": 27,
+    "dtype": "float32",
+    "hidden_act": "gelu_pytorch_tanh",
+    "hidden_size": 1152,
+    "in_channels": 3,
+    "initializer_range": 0.02,
+    "intermediate_size": 4304,
+    "model_type": "qwen3_vl",
+    "num_heads": 16,
+    "num_position_embeddings": 2304,
+    "out_hidden_size": 4096,
+    "patch_size": 16,
+    "spatial_merge_size": 2,
+    "temporal_patch_size": 2
+  },
+  "vision_end_token_id": 151653,
+  "vision_start_token_id": 151652
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+  "do_sample": true,
+  "eos_token_id": [
+    151645,
+    151645,
+    151643
+  ],
+  "pad_token_id": 151643,
+  "temperature": 0.7,
+  "top_k": 20,
+  "top_p": 0.8,
+  "transformers_version": "4.57.1"
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model-00001-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3f838d6e87b53cb190fd13db92a0dc0b78ec67e49a51d2abd5379628669d3c19
+size 4998056552

model-00002-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:876ac66da678f1af52707a62f29d748e449ebe19039cab7bef91bc6be4582e59
+size 4915962464

model-00003-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0c984e340f021c2039c618eaa99ef3c3055af8d701a3c05de5239876530f0bb9
+size 4915962496

model-00004-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d0ce918660f7b32e0dc6ae02d7958b60e53d85ceaa50e781be41a8dea48fd89a
+size 2704357976

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,758 @@

+{
+  "metadata": {
+    "total_parameters": 770288,
+    "total_size": 17534247392
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00004-of-00004.safetensors",
+    "model.language_model.embed_tokens.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.0.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.0.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.0.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.0.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.0.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.0.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.0.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.0.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.0.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.0.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.0.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.1.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.1.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.1.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.1.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.1.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.1.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.1.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.1.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.1.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.1.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.1.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.10.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.10.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.10.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.10.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.10.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.10.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.10.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.10.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.10.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.10.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.10.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.11.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.11.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.11.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.11.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.11.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.11.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.11.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.11.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.11.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.11.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.11.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.12.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.12.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.12.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.12.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.12.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.12.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.12.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.12.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.12.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.12.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.12.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.13.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.13.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.13.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.13.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.13.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.13.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.13.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.13.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.13.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.13.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.13.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.14.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.14.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.14.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.14.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.14.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.14.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.14.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.14.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.14.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.14.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.14.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.15.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.15.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.15.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.15.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.15.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.15.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.15.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.15.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.15.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.15.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.15.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.16.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.16.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.16.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.16.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.16.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.16.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.16.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.16.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.16.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.16.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.16.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.17.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.17.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.17.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.17.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.17.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.17.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.17.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.17.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.17.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.17.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.17.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.18.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.18.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.18.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.18.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.18.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.18.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.18.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.18.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.18.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.18.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.18.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.19.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.19.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.19.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.19.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.19.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.19.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.19.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.19.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.19.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.19.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.19.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.2.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.2.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.2.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.2.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.2.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.2.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.2.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.2.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.2.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.2.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.2.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.20.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.20.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.20.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.20.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.20.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.20.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.20.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.20.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.20.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.20.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.20.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.21.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.21.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.21.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.21.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.21.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.21.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.21.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.21.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.21.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.21.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.21.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.22.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.22.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.22.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.22.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.22.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.22.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.22.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.22.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.22.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.22.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.22.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.23.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.23.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.23.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.23.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.23.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.23.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.23.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.23.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.23.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.23.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.23.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.24.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.24.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.24.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.24.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.24.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.24.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.24.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.24.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.24.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.24.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.24.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.25.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.25.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.25.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.25.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.25.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.25.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.25.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.25.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.25.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.25.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.25.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.26.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.26.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.26.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.26.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.26.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.26.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.26.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.26.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.26.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.26.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.26.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.27.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.27.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.27.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.27.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.27.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.27.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.27.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.27.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.27.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.27.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.27.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.28.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.28.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.28.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.28.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.28.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.28.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.28.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.28.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.28.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.28.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.28.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.29.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.29.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.29.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.29.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.29.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.29.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.29.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.29.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.29.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.29.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.29.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.3.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.3.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.3.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.3.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.3.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.3.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.3.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.3.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.3.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.3.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.3.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.30.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.30.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.30.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.30.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.30.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.30.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.30.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.30.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.30.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.30.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.30.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.31.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.31.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.31.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.31.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.31.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.31.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.31.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.31.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.31.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.31.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.31.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.32.input_layernorm.weight": "model-00004-of-00004.safetensors",
+    "model.language_model.layers.32.mlp.down_proj.weight": "model-00004-of-00004.safetensors",
+    "model.language_model.layers.32.mlp.gate_proj.weight": "model-00004-of-00004.safetensors",
+    "model.language_model.layers.32.mlp.up_proj.weight": "model-00004-of-00004.safetensors",
+    "model.language_model.layers.32.post_attention_layernorm.weight": "model-00004-of-00004.safetensors",
+    "model.language_model.layers.32.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.32.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.32.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.32.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.32.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.32.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.language_model.layers.33.input_layernorm.weight": "model-00004-of-00004.safetensors",
+    "model.language_model.layers.33.mlp.down_proj.weight": "model-00004-of-00004.safetensors",
+    "model.language_model.layers.33.mlp.gate_proj.weight": "model-00004-of-00004.safetensors",
+    "model.language_model.layers.33.mlp.up_proj.weight": "model-00004-of-00004.safetensors",
+    "model.language_model.layers.33.post_attention_layernorm.weight": "model-00004-of-00004.safetensors",
+    "model.language_model.layers.33.self_attn.k_norm.weight": "model-00004-of-00004.safetensors",
+    "model.language_model.layers.33.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "model.language_model.layers.33.self_attn.o_proj.weight": "model-00004-of-00004.safetensors",
+    "model.language_model.layers.33.self_attn.q_norm.weight": "model-00004-of-00004.safetensors",
+    "model.language_model.layers.33.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "model.language_model.layers.33.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "model.language_model.layers.34.input_layernorm.weight": "model-00004-of-00004.safetensors",
+    "model.language_model.layers.34.mlp.down_proj.weight": "model-00004-of-00004.safetensors",
+    "model.language_model.layers.34.mlp.gate_proj.weight": "model-00004-of-00004.safetensors",
+    "model.language_model.layers.34.mlp.up_proj.weight": "model-00004-of-00004.safetensors",
+    "model.language_model.layers.34.post_attention_layernorm.weight": "model-00004-of-00004.safetensors",
+    "model.language_model.layers.34.self_attn.k_norm.weight": "model-00004-of-00004.safetensors",
+    "model.language_model.layers.34.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "model.language_model.layers.34.self_attn.o_proj.weight": "model-00004-of-00004.safetensors",
+    "model.language_model.layers.34.self_attn.q_norm.weight": "model-00004-of-00004.safetensors",
+    "model.language_model.layers.34.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "model.language_model.layers.34.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "model.language_model.layers.35.input_layernorm.weight": "model-00004-of-00004.safetensors",
+    "model.language_model.layers.35.mlp.down_proj.weight": "model-00004-of-00004.safetensors",
+    "model.language_model.layers.35.mlp.gate_proj.weight": "model-00004-of-00004.safetensors",
+    "model.language_model.layers.35.mlp.up_proj.weight": "model-00004-of-00004.safetensors",
+    "model.language_model.layers.35.post_attention_layernorm.weight": "model-00004-of-00004.safetensors",
+    "model.language_model.layers.35.self_attn.k_norm.weight": "model-00004-of-00004.safetensors",
+    "model.language_model.layers.35.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "model.language_model.layers.35.self_attn.o_proj.weight": "model-00004-of-00004.safetensors",
+    "model.language_model.layers.35.self_attn.q_norm.weight": "model-00004-of-00004.safetensors",
+    "model.language_model.layers.35.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "model.language_model.layers.35.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "model.language_model.layers.4.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.4.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.4.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.4.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.4.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.4.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.4.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.4.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.4.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.4.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.4.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.5.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.5.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.5.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.5.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.5.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.5.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.5.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.5.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.5.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.5.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.5.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.6.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.6.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.6.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.6.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.6.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.6.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.6.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.6.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.6.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.6.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.6.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.language_model.layers.7.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.7.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.7.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.7.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.7.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.7.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.7.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.7.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.7.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.7.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.7.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.8.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.8.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.8.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.8.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.8.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.8.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.8.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.8.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.8.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.8.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.8.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.9.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.9.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.9.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.9.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.9.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.9.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.9.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.9.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.9.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.9.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.layers.9.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.language_model.norm.weight": "model-00004-of-00004.safetensors",
+    "model.visual.blocks.0.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.0.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.0.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.0.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.0.mlp.linear_fc1.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.0.mlp.linear_fc1.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.0.mlp.linear_fc2.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.0.mlp.linear_fc2.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.0.norm1.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.0.norm1.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.0.norm2.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.0.norm2.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.1.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.1.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.1.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.1.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.1.mlp.linear_fc1.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.1.mlp.linear_fc1.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.1.mlp.linear_fc2.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.1.mlp.linear_fc2.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.1.norm1.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.1.norm1.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.1.norm2.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.1.norm2.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.10.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.10.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.10.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.10.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.10.mlp.linear_fc1.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.10.mlp.linear_fc1.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.10.mlp.linear_fc2.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.10.mlp.linear_fc2.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.10.norm1.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.10.norm1.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.10.norm2.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.10.norm2.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.11.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.11.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.11.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.11.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.11.mlp.linear_fc1.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.11.mlp.linear_fc1.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.11.mlp.linear_fc2.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.11.mlp.linear_fc2.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.11.norm1.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.11.norm1.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.11.norm2.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.11.norm2.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.12.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.12.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.12.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.12.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.12.mlp.linear_fc1.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.12.mlp.linear_fc1.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.12.mlp.linear_fc2.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.12.mlp.linear_fc2.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.12.norm1.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.12.norm1.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.12.norm2.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.12.norm2.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.13.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.13.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.13.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.13.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.13.mlp.linear_fc1.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.13.mlp.linear_fc1.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.13.mlp.linear_fc2.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.13.mlp.linear_fc2.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.13.norm1.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.13.norm1.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.13.norm2.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.13.norm2.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.14.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.14.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.14.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.14.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.14.mlp.linear_fc1.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.14.mlp.linear_fc1.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.14.mlp.linear_fc2.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.14.mlp.linear_fc2.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.14.norm1.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.14.norm1.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.14.norm2.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.14.norm2.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.15.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.15.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.15.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.15.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.15.mlp.linear_fc1.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.15.mlp.linear_fc1.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.15.mlp.linear_fc2.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.15.mlp.linear_fc2.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.15.norm1.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.15.norm1.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.15.norm2.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.15.norm2.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.16.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.16.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.16.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.16.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.16.mlp.linear_fc1.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.16.mlp.linear_fc1.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.16.mlp.linear_fc2.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.16.mlp.linear_fc2.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.16.norm1.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.16.norm1.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.16.norm2.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.16.norm2.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.17.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.17.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.17.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.17.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.17.mlp.linear_fc1.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.17.mlp.linear_fc1.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.17.mlp.linear_fc2.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.17.mlp.linear_fc2.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.17.norm1.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.17.norm1.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.17.norm2.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.17.norm2.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.18.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.18.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.18.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.18.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.18.mlp.linear_fc1.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.18.mlp.linear_fc1.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.18.mlp.linear_fc2.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.18.mlp.linear_fc2.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.18.norm1.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.18.norm1.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.18.norm2.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.18.norm2.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.19.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.19.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.19.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.19.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.19.mlp.linear_fc1.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.19.mlp.linear_fc1.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.19.mlp.linear_fc2.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.19.mlp.linear_fc2.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.19.norm1.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.19.norm1.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.19.norm2.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.19.norm2.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.2.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.2.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.2.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.2.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.2.mlp.linear_fc1.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.2.mlp.linear_fc1.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.2.mlp.linear_fc2.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.2.mlp.linear_fc2.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.2.norm1.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.2.norm1.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.2.norm2.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.2.norm2.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.20.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.20.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.20.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.20.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.20.mlp.linear_fc1.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.20.mlp.linear_fc1.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.20.mlp.linear_fc2.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.20.mlp.linear_fc2.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.20.norm1.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.20.norm1.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.20.norm2.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.20.norm2.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.21.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.21.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.21.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.21.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.21.mlp.linear_fc1.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.21.mlp.linear_fc1.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.21.mlp.linear_fc2.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.21.mlp.linear_fc2.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.21.norm1.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.21.norm1.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.21.norm2.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.21.norm2.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.22.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.22.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.22.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.22.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.22.mlp.linear_fc1.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.22.mlp.linear_fc1.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.22.mlp.linear_fc2.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.22.mlp.linear_fc2.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.22.norm1.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.22.norm1.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.22.norm2.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.22.norm2.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.23.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.23.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.23.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.23.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.23.mlp.linear_fc1.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.23.mlp.linear_fc1.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.23.mlp.linear_fc2.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.23.mlp.linear_fc2.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.23.norm1.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.23.norm1.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.23.norm2.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.23.norm2.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.24.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.24.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.24.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.24.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.24.mlp.linear_fc1.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.24.mlp.linear_fc1.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.24.mlp.linear_fc2.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.24.mlp.linear_fc2.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.24.norm1.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.24.norm1.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.24.norm2.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.24.norm2.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.25.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.25.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.25.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.25.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.25.mlp.linear_fc1.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.25.mlp.linear_fc1.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.25.mlp.linear_fc2.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.25.mlp.linear_fc2.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.25.norm1.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.25.norm1.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.25.norm2.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.25.norm2.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.26.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.26.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.26.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.26.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.26.mlp.linear_fc1.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.26.mlp.linear_fc1.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.26.mlp.linear_fc2.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.26.mlp.linear_fc2.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.26.norm1.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.26.norm1.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.26.norm2.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.26.norm2.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.3.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.3.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.3.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.3.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.3.mlp.linear_fc1.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.3.mlp.linear_fc1.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.3.mlp.linear_fc2.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.3.mlp.linear_fc2.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.3.norm1.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.3.norm1.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.3.norm2.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.3.norm2.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.4.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.4.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.4.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.4.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.4.mlp.linear_fc1.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.4.mlp.linear_fc1.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.4.mlp.linear_fc2.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.4.mlp.linear_fc2.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.4.norm1.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.4.norm1.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.4.norm2.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.4.norm2.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.5.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.5.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.5.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.5.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.5.mlp.linear_fc1.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.5.mlp.linear_fc1.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.5.mlp.linear_fc2.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.5.mlp.linear_fc2.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.5.norm1.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.5.norm1.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.5.norm2.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.5.norm2.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.6.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.6.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.6.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.6.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.6.mlp.linear_fc1.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.6.mlp.linear_fc1.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.6.mlp.linear_fc2.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.6.mlp.linear_fc2.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.6.norm1.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.6.norm1.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.6.norm2.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.6.norm2.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.7.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.7.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.7.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.7.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.7.mlp.linear_fc1.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.7.mlp.linear_fc1.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.7.mlp.linear_fc2.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.7.mlp.linear_fc2.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.7.norm1.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.7.norm1.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.7.norm2.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.7.norm2.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.8.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.8.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.8.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.8.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.8.mlp.linear_fc1.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.8.mlp.linear_fc1.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.8.mlp.linear_fc2.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.8.mlp.linear_fc2.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.8.norm1.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.8.norm1.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.8.norm2.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.8.norm2.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.9.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.9.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.9.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.9.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.9.mlp.linear_fc1.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.9.mlp.linear_fc1.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.9.mlp.linear_fc2.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.9.mlp.linear_fc2.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.9.norm1.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.9.norm1.weight": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.9.norm2.bias": "model-00001-of-00004.safetensors",
+    "model.visual.blocks.9.norm2.weight": "model-00001-of-00004.safetensors",
+    "model.visual.deepstack_merger_list.0.linear_fc1.bias": "model-00001-of-00004.safetensors",
+    "model.visual.deepstack_merger_list.0.linear_fc1.weight": "model-00001-of-00004.safetensors",
+    "model.visual.deepstack_merger_list.0.linear_fc2.bias": "model-00001-of-00004.safetensors",
+    "model.visual.deepstack_merger_list.0.linear_fc2.weight": "model-00001-of-00004.safetensors",
+    "model.visual.deepstack_merger_list.0.norm.bias": "model-00001-of-00004.safetensors",
+    "model.visual.deepstack_merger_list.0.norm.weight": "model-00001-of-00004.safetensors",
+    "model.visual.deepstack_merger_list.1.linear_fc1.bias": "model-00001-of-00004.safetensors",
+    "model.visual.deepstack_merger_list.1.linear_fc1.weight": "model-00001-of-00004.safetensors",
+    "model.visual.deepstack_merger_list.1.linear_fc2.bias": "model-00001-of-00004.safetensors",
+    "model.visual.deepstack_merger_list.1.linear_fc2.weight": "model-00001-of-00004.safetensors",
+    "model.visual.deepstack_merger_list.1.norm.bias": "model-00001-of-00004.safetensors",
+    "model.visual.deepstack_merger_list.1.norm.weight": "model-00001-of-00004.safetensors",
+    "model.visual.deepstack_merger_list.2.linear_fc1.bias": "model-00001-of-00004.safetensors",
+    "model.visual.deepstack_merger_list.2.linear_fc1.weight": "model-00001-of-00004.safetensors",
+    "model.visual.deepstack_merger_list.2.linear_fc2.bias": "model-00001-of-00004.safetensors",
+    "model.visual.deepstack_merger_list.2.linear_fc2.weight": "model-00001-of-00004.safetensors",
+    "model.visual.deepstack_merger_list.2.norm.bias": "model-00001-of-00004.safetensors",
+    "model.visual.deepstack_merger_list.2.norm.weight": "model-00001-of-00004.safetensors",
+    "model.visual.merger.linear_fc1.bias": "model-00001-of-00004.safetensors",
+    "model.visual.merger.linear_fc1.weight": "model-00001-of-00004.safetensors",
+    "model.visual.merger.linear_fc2.bias": "model-00001-of-00004.safetensors",
+    "model.visual.merger.linear_fc2.weight": "model-00001-of-00004.safetensors",
+    "model.visual.merger.norm.bias": "model-00001-of-00004.safetensors",
+    "model.visual.merger.norm.weight": "model-00001-of-00004.safetensors",
+    "model.visual.patch_embed.proj.bias": "model-00001-of-00004.safetensors",
+    "model.visual.patch_embed.proj.weight": "model-00001-of-00004.safetensors",
+    "model.visual.pos_embed.weight": "model-00001-of-00004.safetensors"
+  }
+}

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+  "crop_size": null,
+  "data_format": "channels_first",
+  "default_to_square": true,
+  "device": null,
+  "disable_grouping": null,
+  "do_center_crop": null,
+  "do_convert_rgb": true,
+  "do_normalize": true,
+  "do_pad": null,
+  "do_rescale": true,
+  "do_resize": true,
+  "image_mean": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "image_processor_type": "Qwen2VLImageProcessorFast",
+  "image_std": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "input_data_format": null,
+  "max_pixels": null,
+  "merge_size": 2,
+  "min_pixels": null,
+  "pad_size": null,
+  "patch_size": 16,
+  "processor_class": "Qwen3VLProcessor",
+  "resample": 3,
+  "rescale_factor": 0.00392156862745098,
+  "return_tensors": null,
+  "size": {
+    "longest_edge": 1048576,
+    "shortest_edge": 65536
+  },
+  "temporal_patch_size": 2
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

test_sampled_test_current_only_v3.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aeb13307a71acd8fe81861d94ad54ab689df773318809eed3cbe794b4492dae4
+size 11422654

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,241 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151665": {
+      "content": "<tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151666": {
+      "content": "</tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151667": {
+      "content": "<think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151668": {
+      "content": "</think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "bos_token": null,
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "model_max_length": 262144,
+  "pad_token": "<|endoftext|>",
+  "padding_side": "right",
+  "processor_class": "Qwen3VLProcessor",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,90 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.6103143118706134,
+  "eval_steps": 500,
+  "global_step": 4000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.07628928898382667,
+      "grad_norm": 0.5989449513220185,
+      "learning_rate": 9.91963546413407e-07,
+      "loss": 0.0011,
+      "step": 500
+    },
+    {
+      "epoch": 0.15257857796765334,
+      "grad_norm": 2.2494316516142128,
+      "learning_rate": 9.556986186241005e-07,
+      "loss": 0.0025,
+      "step": 1000
+    },
+    {
+      "epoch": 0.22886786695148,
+      "grad_norm": 1.3834491105845461,
+      "learning_rate": 8.923061414833051e-07,
+      "loss": 0.0026,
+      "step": 1500
+    },
+    {
+      "epoch": 0.3051571559353067,
+      "grad_norm": 0.746887091616834,
+      "learning_rate": 8.055598428055626e-07,
+      "loss": 0.0027,
+      "step": 2000
+    },
+    {
+      "epoch": 0.3814464449191334,
+      "grad_norm": 0.51240860954977,
+      "learning_rate": 7.006236936942846e-07,
+      "loss": 0.0027,
+      "step": 2500
+    },
+    {
+      "epoch": 0.45773573390296,
+      "grad_norm": 1.607427242816828,
+      "learning_rate": 5.837444994884173e-07,
+      "loss": 0.0024,
+      "step": 3000
+    },
+    {
+      "epoch": 0.5340250228867867,
+      "grad_norm": 0.69004695816096,
+      "learning_rate": 4.618800300371542e-07,
+      "loss": 0.0019,
+      "step": 3500
+    },
+    {
+      "epoch": 0.6103143118706134,
+      "grad_norm": 0.2966374379750323,
+      "learning_rate": 3.4228482655287307e-07,
+      "loss": 0.0016,
+      "step": 4000
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 6554,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 1000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1906049107886080.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}

video_preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,41 @@

+{
+  "crop_size": null,
+  "data_format": "channels_first",
+  "default_to_square": true,
+  "device": null,
+  "do_center_crop": null,
+  "do_convert_rgb": true,
+  "do_normalize": true,
+  "do_rescale": true,
+  "do_resize": true,
+  "do_sample_frames": true,
+  "fps": 2,
+  "image_mean": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "image_std": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "input_data_format": null,
+  "max_frames": 768,
+  "merge_size": 2,
+  "min_frames": 4,
+  "num_frames": null,
+  "pad_size": null,
+  "patch_size": 16,
+  "processor_class": "Qwen3VLProcessor",
+  "resample": 3,
+  "rescale_factor": 0.00392156862745098,
+  "return_metadata": false,
+  "size": {
+    "longest_edge": 1048576,
+    "shortest_edge": 4096
+  },
+  "temporal_patch_size": 2,
+  "video_metadata": null,
+  "video_processor_type": "Qwen3VLVideoProcessor"
+}

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff