1.Mutual Mean-Teaching:为无监督学习提供更鲁棒的论文论文伪标签
2.论文笔记: ICLR 2022 | POLYLOSS: A POLYNOMIAL EXPANSION PERSPECTIVE OF CLASSIFICATION LOSS FUNCTIONS
3.最前沿:用模仿学习来学习增强学习
4.ICLR'22 |「无图」的图神经网络
5.(2024 ICLR)ModernTCN:A Modern Pure Convolution Structure for General Time Series Analysis
6.论文解读《OmniControl: Control Any Joint at Any Time for Human Motion Generation》ICLR 2024
Mutual Mean-Teaching:为无监督学习提供更鲁棒的伪标签
本文介绍一篇发表于ICLR-的论文,标题为《Mutual Mean-Teaching: Pseudo Label Refinery for Unsupervised Domain Adaptation on Person Re-identification》。源码论文旨在解决开放集无监督领域自适应问题,出版该问题的论文论文挑战在于目标域类别数量未知且通常与源域类别不重复。论文通过在多个行人重识别任务上验证其有效性,源码显著提高了精度,出版notes源码安装超过最先进技术%-%。论文论文这是源码ICLR收录的首篇行人重识别任务相关论文,代码和模型已公开。出版
论文重点讨论了无监督领域自适应在行人重识别任务中的论文论文现有技术方案,主要分为基于聚类的源码伪标签法、领域转换法、出版基于图像或特征相似度的论文论文伪标签法。基于聚类的源码伪标签法被证实较为有效,拥有先进的出版精度,因此论文主要围绕此方法展开。
现有方案存在无法避免的伪标签噪声问题,这会影响网络最终的性能。为解决该问题,论文提出了“同步平均教学”框架,利用“软”标签对伪标签进行在线优化。通过离线优化的“硬”伪标签与在线优化的“软”伪标签进行联合训练,利用“平均模型”参数进行监督,提供更为可信和稳定的“软”标签。
论文提出了“相互平均教学”(MMT)框架,利用“硬”伪标签与“软”伪标签联合训练,通过“平均模型”参数的累积平均值,实现网络参数的解耦和互补性增强。框架利用同行网络的输出减轻伪标签中的噪声,并优化彼此,提高了网络的鲁棒性。
论文详细介绍了“相互平均教学”框架的实现方式,包括基于“硬”伪标签的“软”分类损失和基于“硬”伪标签的“软”三元损失。通过设计合理的损失函数,论文有效地解决了传统三元损失函数无法支持“软”标签训练的问题,提高了无监督领域自适应在行人重识别任务中的精度。
在行人重识别任务中,论文在四个任务上验证了“相互平均教学”框架的有效性,精度均显著提升,媲美有监督学习的性能。论文中对不同的iSeeNotes源码伪类别数进行了验证,发现无需设定特定数目,均可获得最优结果。开源代码包含了基于DBSCAN的实验脚本,进一步提升性能。
论文进一步优化了“相互平均教学”框架,在ECCV Workshop的Visual Domain Adaptation Challenge中获得第二名。论文总结了基于聚类的无监督领域自适应方法中伪标签噪声问题的解决策略,通过“同步平均教学”框架和设计合理的损失函数,显著提高了行人重识别任务的精度。
论文笔记: ICLR | POLYLOSS: A POLYNOMIAL EXPANSION PERSPECTIVE OF CLASSIFICATION LOSS FUNCTIONS
本文探讨了PolyLoss算法,提出了一种简单而强大的分类损失函数设计方法。PolyLoss算法通过将常用的分类损失函数(如交叉熵损失和焦点损失)分解为多项式函数的线性组合,使得损失函数设计更加灵活,能够根据特定任务和数据集进行定制。该算法基于泰勒展开,允许用户轻松调整不同多项式基的重要性,同时自然包含交叉熵和焦点损失。
实验结果显示,PolyLoss在多种任务上表现出显著提升,尤其是在2D图像分类、实例分割、对象检测和3D对象检测任务中。相较于基线模型,PolyLoss实现了更好的性能。通过引入一个额外的超参数和添加一行代码,Poly-1公式能够实现对交叉熵损失和焦点损失的改进。研究人员发现,通过调整多项式系数,尤其是调整第一个多项式系数(Poly-1公式),能够显著提升模型性能,且无需大量代码变动和超参数调整。
总之,PolyLoss为理解和改进常用的分类损失函数提供了一个新视角,通过多项式展开的方法,使得损失函数设计更加灵活,能够更好地适应不同任务和数据集的需求,从而提高模型性能。
最前沿:用模仿学习来学习增强学习
国庆假期愉快!在这个特别的日子里,Flood带你探索AI领域的quickedit 源码最新研究动态,分享一篇来自ICLR的论文《Learning to Reinforcement Learning by Imitation》。想要深入了解,可前往openreview.net查看原文。
论文聚焦于Meta Learning,特别是Meta Reinforcement Learning,它的核心是通过模仿学习来加速增强学习的学习过程。简单来说,就是希望学习一个学习算法,让它能快速适应新任务,就像我们人类能快速学会新游戏一样。Meta Reinforcement Learning的目标是解决强化学习中的样本效率问题,即如何让AI快速掌握新任务。
Meta Reinforcement Learning的核心在于学习一个通用的先验知识,即Meta Knowledge,这类似于人类对游戏的已有认知。然而,直接训练神经网络在新任务中可能效果不佳,就像我们可能玩过多种炉石传说卡组,但对新卡组如机械克苏恩牧可能毫无头绪。因此,更先进的方法是让神经网络学习分析环境并自我适应,即“授人以渔”而非“授人以鱼”。
ICLR的论文挑战了这样一个问题:如何让Meta Reinforcement Learning的训练过程也变得更高效?论文提出了使用模仿学习来加速这个过程,即通过模仿专家的表现,训练神经网络达到相似的水平,从而缩短增强学习的学习路径。这种方法结合了MAML(Model-Agnostic Meta-Learning)的思路,虽然实验验证可能不够充分,但理念具有创新性。
总的来说,这篇论文展示了Meta Learning的巨大潜力,未来有可能带来许多突破。如果你对此感兴趣,欢迎关注我的公众号FloodSung的AI游乐场,那里我将第一时间分享最前沿的AI研究成果。公众号二维码在这里:
ICLR' |「无图」的图神经网络
Graph-Less Neural Networks: Teaching Old MLPs New Tricks Via Distillation
本文聚焦于ICLR 的论文《Graph-Less Neural Networks: 教老多层感知机新技巧》。这篇论文提出了一个关键科研问题:如何解决图神经网络(GNNs)推理时间过长,无法满足现实世界应用需求的问题。通过知识蒸馏(Knowledge Distillation, KD)方法,论文将GNN的onenote源码知识转换到多层感知机(MLPs)上,以期达到与GNN相匹敌的性能。文章的模型设计简洁且高效,通过大量实验验证了模型的有效性。
背景
图神经网络最近在图机器学习领域炙手可热,尤其在节点分类任务上表现出色。然而,对于大规模工业应用,多层感知机依然占据主导地位。GNNs的图依赖性是导致推理时间过长的主要原因,这限制了其在快速推理或延迟敏感的应用中的部署。论文指出,邻居节点获取是GNNs高延迟的主要来源。常见的推理加速方法,如剪枝和量化,虽能在一定程度上提升GNN性能,但受限于GNN本质的图依赖性,其提升空间有限。
动机
本文提出问题:能否架起GNN与MLP之间的桥梁,利用MLP的低延迟和无图依赖性,同时达到与GNN相匹敌的性能?即,构建一个模型,既有MLP的低延迟和无图依赖性,又能在节点分类任务中与GNN表现媲美,以解决GNN高延迟问题。
方法
论文提出Graph-less Neural Network (GLNN)模型,采用知识蒸馏方法,将复杂GNN的知识转移给简化后的MLP,训练后的MLP即为最终的GLNN。GLNN在训练时享有图拓扑结构的好处,但在推理阶段无图依赖性,实现了低延迟与高效部署。知识蒸馏通过教师GNN生成软目标,与真实标签结合训练学生MLP,优化参数以达到与GNN相似的预测和泛化能力。
实验
实验部分证明了GLNN的有效性。对比MLPs和GNNs,GLNN在不同数据集上的性能显著提升,尤其在大规模数据集上。通过增加MLP层数,GLNN性能接近GNNs。stereorectify源码在归纳设置下,GLNN性能同样优于MLPs,尽管与GNNs存在差距,但通过调整MLP层数,差距可被缓解。实验还显示,GLNN在推理时间上远超剪枝和量化方法,且优于GNN-to-GNN和GA-MLPs方法。
结论
本文研究了结合GNN和MLP优点的可能性,提出了GLNN模型,实现了快速且准确的图机器学习部署。通过知识蒸馏,GLNN在不同数据集上均表现出色,比MLPs性能更优,比GNNs更为高效。实验证明,GLNN可以成为满足延迟约束条件的图机器学习模型的理想选择。
( ICLR)ModernTCN:A Modern Pure Convolution Structure for General Time Series Analysis
这篇论文在ICLR上探讨了TCN在一般时间序列分析中的应用,其在Rebuttal后的评分为,已被接受为ICLR Spotlight。本文提出了一种现代的纯卷积结构,ModernTCN模型,其设计简洁,代码实现已附于文中。
作者观察到,虽然基于TCN/CNN的模型在时间序列领域表现不佳,但现代CNN(如ConvNeXt、SLaK)在视觉领域表现出色。因此,研究卷积在时间序列分析中的潜力。改进TCN的关键在于提升感受野大小和更好地利用卷积捕捉变量间依赖性。
首先,作者注意到SCINet和MICN等基于TCN的模型感受野较小,而采用较大卷积核的ModernTCN模型则能显著提升感受野大小。
其次,作者强调变量间依赖性的建模。尽管PatchTST等方法采用通道独立策略,忽略变量间关系,获得较好结果,但作者认为这忽视了变量间关系的重要性。因此,现代卷积结构需精心设计以捕捉变量间关系。
为从CV领域获取灵感,作者引入深度分离卷积和完全等效的ConvFFN,模仿Transformer的自注意力和FFN结构。尽管这类结构在某些情况下表现不佳,但作者设计了新的模块,将变量间依赖性建模与时间、通道关系解耦。
针对时间序列特性的改动包括变量无关的embedding方法,采用分patch技术独立处理每个变量。作者使用有stride的卷积实现embedding,并设计了包含深度可分离卷积、两个组卷积(分别用于通道和变量间关系建模)的block,以及残差连接的ModernTCN block结构。
实验结果显示,ModernTCN模型在多种时间序列任务中展现出高效、快速且性能优异的表现。代码实现简洁,易于理解,为时间序列预测任务提供了一种有力的解决方案。
总的来说,论文提出了一种创新的现代纯卷积结构,通过解耦时间、通道和变量关系,实现了时间序列分析的有效建模。实验验证了该模型在实际应用中的强大能力,代码实现也提供了易于复制和优化的起点。
论文解读《OmniControl: Control Any Joint at Any Time for Human Motion Generation》ICLR
本文主要聚焦于提升基于diffusion模型的文本到动作生成任务的性能,特别是增强空间感知能力。现有的方法在多样性和真实性方面表现出色,但缺乏空间感知,即生成的动作无法精确地与用户期望的关节位置相匹配。空间感知能力对于实现与复杂环境交互的自主AI至关重要。为解决这一问题,本文提出了一种创新方法——OmniControl,旨在通过关键帧关节位置作为控制信号,使模型具备空间感知能力。
OmniControl方法的核心在于引入关键帧关节位置作为条件,与文本提示相结合,生成既符合文本描述又遵循空间控制的human motion。为了实现这一目标,作者在MDM模型的基础上增加了Realism Guidance和Spatial Guidance模块,显著提升了生成动作的自然度和精确性。
对于MDM模型,作者提出了一种更为灵活的关节控制策略。通过在diffusion过程中应用掩码,确保指定关节在扩散过程中保持固定,从而控制生成动作的特定关节位置。然而,这种方法可能使生成的动作显得不自然,因为注入的关节轨迹可能与训练数据分布不符。
为解决这一问题,OmniControl方法引入了一种软性约束机制。作者通过在diffusion过程中计算生成关节位置与控制信号位置的损失,并根据损失进行梯度更新,实现了对生成关节位置的控制。这种策略通过调整diffusion步骤中的更新次数K,优化了控制效果,使得模型在保持自然动作生成的同时,又能精准控制特定关节。
为增强模型生成动作的自然度,OmniControl还借鉴了ControlNet的思路,引入了Realism Guidance模块。该模块在梯度更新时加入对非控制关节的调整,使得整体模型生成的动作更接近纯文本生成的自然度,从而提高生成动作的自然性和精确性。
实验结果显示,OmniControl方法显著提升了动作生成的自然度和精确性,尤其是在空间控制方面表现出色。尽管还不能实现完全精确的轨迹控制,但这一成果为未来在更复杂场景中实现精准动作控制提供了重要启示。
文章的结论部分还指出,在训练MDM模型时使用全局表征而非相对表征,模型不收敛且结果较差。然而,通过引入InterGen的全局表征,可以发现与常用相对表征之间的性能差距并不显著,这为未来研究提供了进一步探索空间。
综上,OmniControl方法为文本到动作生成任务引入了空间控制能力,通过巧妙的模型结构和训练策略,显著提升了动作生成的自然度和精确性。尽管当前方法在完全精确轨迹控制方面仍有改进空间,但该研究为自主AI在复杂环境中的动作控制提供了重要进展。
论文研读 | Anomaly-Transformer:基于关联差异的时间序列异常检测方法
在年的ICLR会议上,清华大学的研究团队发表了一篇创新论文,名为"Anomaly-Transformer:基于关联差异的时间序列异常检测方法"。该研究旨在解决无监督时序异常检测中的挑战,通过提出一种新颖的模型来识别服务器监测、地空探索等领域的异常情况。
论文的核心思想是,时间序列中的异常点通常与整个序列的关联较弱,而集中在邻近的时间点。作者引入了关联差异(Association Discrepancy)这一概念,通过Anomaly Transformer模型,结合全局序列关联(series-association)和局部先验关联(prior-association)。序列关联通过Transformer的自注意力机制捕捉整个序列的动态特性,而先验关联则关注异常点的邻近点特征,以减少相邻集中的偏差。
Anomaly Transformer通过Anomaly-Attention机制,更新了原始注意力机制,同时处理先验和序列关联。它在多层结构中堆叠Anomaly-Attention块和前馈层,以适应深层次特征的学习。模型通过重构误差和一个特别设计的极小极大策略来优化,最大化正常与异常点之间的关联差异,从而增强异常检测的可识别性。
实验部分,研究人员在包括服务检测、地空探索等多个领域的五个数据集上验证了Anomaly Transformer的优越性能。通过可视化,文章展示了模型在不同异常类别上的高区分性,以及异常点在先验关联中的弱关联特性。论文结论强调了将经验转化为量化方法对于异常检测的实用价值,以及模型在泛化性和可移植性方面的潜在影响。
DiffusionModel-基于SDE的score based model原理与推导
宋飏博士在 ICLR 的一篇论文中,对扩散模型(如NCSN和DDPM)的工作进行了深入解读,从随机微分方程(SDE)的角度进行了统一。SDE视角下的扩散模型不仅提升了样本质量,还支持精确的对数似然计算和可控的逆问题样本生成,因此荣获了 ICLR 的杰出论文奖。
前向过程:扩散模型的运作可以看作逐步向信号添加高斯噪声,直到原始信号被噪声淹没。NCSN和DDPM的离散公式基于Itô SDE,其前向模型用以下SDE定义:
\frac{ d\mathbf{ x}_t}{ dt} = \mu(\mathbf{ x}_t, t) + \sigma(\mathbf{ x}_t, t) \frac{ dW_t}{ dt}
SDE中的$\mu$和$\sigma$是人为设计的,NCSN和DDPM分别对应不同的设计,它们都用于样本生成。
反向过程则对应着一个reverse SDE,用于解析地生成原始数据分布。通过score matching,我们可以估计出关键的score函数,然后训练一个随时间变化的模型来求解reverse SDE。
训练过程采用连续加权的Fisher divergence,通过denoising score matching或sliced score matching优化模型,得到的score-based model可以生成接近原数据分布的新样本。
在采样过程中,宋飏博士提出了结合SDE求解器和MCMC采样的方法,如Predictor-Corrector samplers,这使得模型的性能得到了显著提升。他还展示了将SDE转化为probability flow ODE,以实现更精确的似然计算。
扩散模型和score-based模型的交汇发展始于年的diffusion probabilistic model,后来DDPM揭示了两者之间的内在联系,使得算法路径得以统一。宋飏博士的研究不仅推动了生成模型的发展,还展示了它们在数学上的统一性。
ICLR | BEIT论文解读:将MLM无监督预训练应用到CV领域
BEIT: BERT Pre-Training of Image Transformers (ICLR ) is a work from Microsoft Research that introduces a novel approach to unsupervised pre-training in the Computer Vision (CV) domain. This article explores the key aspects of BEIT, focusing on its application of the Masked Language Modeling (MLM) technique from BERT to CV problems. The goal is to provide an intuitive understanding of how BEIT adapts MLM for image pre-training, which is a critical step in achieving state-of-the-art results in various CV tasks.
BEIT builds upon the principles of Vision Transformers (ViTs), a popular class of models that have gained significant attention in the CV community. The core idea of BEIT is to leverage the MLM framework, which is a cornerstone of BERT, to perform pre-training on images by converting them into token sequences. In this process, BEIT masks some of the image tokens and then predicts the masked tokens, effectively enabling unsupervised learning in the CV context.
The application of MLM to images poses several challenges, primarily how to convert images into discrete tokens. BEIT addresses this by employing a technique called dVAE (Discrete Variational Autoencoder) for image tokenization. This method differs from traditional approaches that might focus on pixel-level regression, potentially leading to an overemphasis on fine-grained details at the expense of global structure understanding. By using dVAE, BEIT achieves a balance between detail and context, making it more suitable for unsupervised pre-training in CV tasks.
At the heart of BEIT is the Vision Transformer component, which uses a ViT backbone to encode image patches into a sequence of tokens. This allows BEIT to generate token predictions for masked patches, effectively performing a form of MLM on images. The overall architecture of BEIT is designed to facilitate the learning of representations that are both informative and discriminative, without the need for labeled data during pre-training.
In comparison to previous works, such as iGPT and ViT, BEIT emphasizes the use of unsupervised learning techniques for image representation. While earlier research in Vision Transformers focused on adapting the Transformer architecture to CV problems, BEIT highlights the importance of leveraging unsupervised learning methods like MLM for enhancing model performance. By directly incorporating the MLM approach used in NLP into CV, BEIT showcases a significant advancement in unsupervised pre-training for image recognition tasks.
The experimental results from BEIT demonstrate that unsupervised pre-training achieves superior performance compared to previous CV Transformer models, including iGPT and ViT. Moreover, BEIT outperforms other unsupervised learning methods, such as MoCo, which is another popular approach in contrastive learning. This showcases the effectiveness of BEIT in improving the accuracy of image classification and highlights the potential of unsupervised learning in CV.
In conclusion, BEIT: BERT Pre-Training of Image Transformers represents a pivotal step in the integration of NLP techniques into CV, particularly in the realm of unsupervised pre-training. By addressing the challenges of image tokenization and leveraging the power of MLM, BEIT offers a promising approach for enhancing the performance of computer vision models. This work not only contributes to the advancement of CV research but also opens up new avenues for leveraging NLP advancements in the broader field of AI.
ICLRCoCon: 一种自监督的可控文本生成方法
ICLR探索文本生成新领域:CoCon——自监督下的可控文本生成技术 在年的国际计算机视觉与模式识别大会(ICLR)上,一篇引人瞩目的论文《CoCon: A Self-Supervised Approach for Controlled Text Generation》崭露头角。研究人员们借鉴了CTRL和PPLM的创新理念,提出了一个名为CoCon的革命性模块,旨在通过自监督的方式,实现对文本生成的精确控制。 CoCon的核心在于其独特的设计,它巧妙地嵌入到Transformer的编码器结构中,与传统的Transformer编码器结构保持一致。在生成文本时,控制部分(c)和目标句子(s)被巧妙地分割,其中c的长度为,而s被划分为和两个部分。作者们通过精心设计的流程,首先分别编码c和s,然后利用CoCon模块的自我注意力机制,将c的Key和Value整合到s的Key和Value中,同时保留s的Query不变。这个过程生成的隐变量,包含了c的信息,然后被用于指导Transformer的解码阶段,生成出满足控制要求的文本。 尽管CoCon的解码策略可能会让人初看有些费解,但其背后的逻辑是:通过将c和s的信息融合,模型既能保证生成的内容包含c的控制信息,又能确保与s的流畅衔接。作者提出的Cycle loss是论文的一大亮点,它通过让模型在不同提示下生成文本,旨在训练模型生成既能包含c信息又与前文无缝连接的句子,这在实践中能有效应对多样性的文本衔接需求。 此外,训练过程中,作者采用了四种精心设计的损失函数,包括重构loss、Null Content Loss、Cycle loss和Adversarial loss,它们各自针对不同的目标进行优化。实验结果显示,CoCon在控制文本的sentiment和topic方面表现出色,尤其在GPT-2生成的语料上,显示出更强的控制力。 尽管目前CoCon的开源代码还未公开,但作者们对于技术的探索并未止步。可以预见的是,随着ICLR的深入讨论,CoCon的代码和更多细节将逐步揭开面纱,为文本生成领域带来新的突破。对于对该领域感兴趣的朋友,不妨关注我的公众号天宏NLP,第一时间获取最新的科研动态与解析。