1.Llama3超级课堂实践笔记(3)XTuner 微调 Llama3 理解多模态@InternStudio
2.[LLaVA系列]📒CLIP/LLaVA/LLaVA1.5/VILA笔记: 核心点解析
Llama3超级课堂实践笔记(3)XTuner 微调 Llama3 理解多模态@InternStudio
在前文介绍的笔笔记基础上,Llama 3 的记源理解能力通过XTuner和LLaVA进行微调,以提升多模态理解性能。码线具体步骤如下:首先,源码从XTuner团队预训练的笔笔记Image Projector开始,下载Visual Encoder权重。记源megacli源码包
在InternStudio环境中,码线创建新开发机并配置环境,源码包括安装必要的笔笔记库和版本。
接着,记源下载和链接LLama3模型、码线Visual Encoder模型以及Image Projector的源码权重文件。
微调使用XTuner的笔笔记train命令,通过重复数据集进行,记源耗时约分钟,码线edittext源码在线loss表现良好。
微调后,将原始和微调后的PTH模型转换为HF格式,以便于后续使用。
通过对比,原始模型对的理解仅限于基本描述,而微调后的系统ui源码模型在回答关于内容的更具体问题时表现提升明显。
尝试了中文版Llama3的微调,虽然模型权重已转换,但中文回答效果并未如预期,与Web Demo中的中文支持有所差异。
[LLaVA系列]📒CLIP/LLaVA/LLaVA1.5/VILA笔记: 核心点解析
本文记录了CLIP和LLaVA系列模型的核心点,为后续复习提供便利。
CLIP模型为双塔结构,物流 门户 源码包含文本编码器和图像编码器,旨在预测图像与文本之间的匹配程度。其采用ResNet或ViT作为backbone,实验显示ViT表现更佳。
CLIP模型使用对称损失函数计算相似度矩阵。该函数从行和列方向计算loss,然后取平均值。erlang源码剖析
在CLIP实践认知部分,通过代码验证理解过程,首先安装CLIP,参考官方文档。
LLaVA模型将CLIP与LLM(如Vicuna、LLaMA)结合,利用Vision Encoder将转换为特征映射,然后接上投影层,实现图像和文本特征对齐。生成描述文本。
在LLaVA中,Vision Encoder使用CLIP-ViT-L/,并选择在Transformer层前或后提取图像表示。
LLaVA的两阶段训练和1.5版本对模型架构进行改进,效果显著提升。1.6版本则在推理、OCR和知识理解方面增强,参数量增至B,性能提升明显。
TinyLLaVA以3B模型规模挑战7B模型,实验表明其整体效果优于LLaVA-1.5-7B。
VILA是NVIDIA的模型,性能指标优于LLaVA-1.5,但略逊于LLaVA 1.6。
LLaVA系列和VILA模型支持TensorRT-LLM部署,相关信息可查阅文档。
总结,本文概述了CLIP和LLaVA模型结构,以及它们在LLaVA中的应用和改进。持续关注相关进展。