- 一个专注侃侃计算机视觉方向的自媒体账户。计算机视觉、图像处理、机器学习、深度学习、C/C++、Python、诗和远方等。二维码自定义二维码网站自定义网站或网址
NeurIPS 2022 | UniAD,一个模型解决所有类别的异常检测!代码已开源
异常检测已经取得了非常突出的进展。考虑到异常的多样性,通常的异常检测方案是首先拟合出正常样本的分布,之后检测该分布之外的离群点作为异常。算法篇 - 那些年我们卷过的卷积
本篇文章将回顾那些年的一些经典卷积神经网络,并提炼要点且从以下几方面来进行阐述。从NeurIPS 2022看域泛化:大规模实验分析和模型平均
Domain generalization(DG: 域泛化)一直以来都是各大顶会的热门研究方向。纯工程经验:谈谈目标检测中正负样本的问题
本篇不讲任何正负样本定义的方法,以及各种采样的方法,只从实际训练角度思考正负样本背后的本质问题。NeurIPS 2022 | OrdinalCLIP: 基于序数提示学习的语言引导有序回归
近年来, 大规模视觉语言预训练模型在计算机视觉领域 "大放异彩". 此类模型拥有强大的表征能力, 编码的特征具有很强的泛化能力和鲁棒性.多模态Prompt Tuning,你到底行不行?
将prompt tuning应用到生成式多模态预训练模型当中,具体就是实现在此前我们提出的OFA上。即插即用 HorNet|递归门控卷积
本文提出的gnConv可以看作是即插即用模块,通过通道划分特征和特征间相乘的方式提出了一个较为新颖的结构。NeurIPS 2022 | P2P: 基于预训练图像模型的点到像素提示学习方法
训练大模型最近在NLP和Vision领域都发展迅速,成为了深度学习领域的热门研究课题。PanoFormer: 首个360°全景定制的单目深度估计Transformer
单目全景深度估计(monocular omnidirectional depth estimation, MODE)是三维场景理解中的一个子领域首个将视觉、语言和音频分类任务进行统一的半监督分类学习基准
当使用监督学习(Supervised Learning)对大量高质量的标记数据(Labeled Data)进行训练时,神经网络模型会产生有竞争力的结果。Vision Transformer在CV任务中的速度如何保证
本文主要讲inference time的效率问题,简单说就是如何让模型更快,同时性能不掉太多甚至反升。目标检测四大开源神器Detectron2/mmDetection/darknet/SimpleDet
去年Amusi 盘点过:目标检测三大开源神器:Detectron2/mmDetection/SimpleDet。大家反映内容很棒。