(资料图)
近日,武汉大学杜博、张良培教授团队首次提出面向遥感任务设计的大规模视觉基础模型。该模型在检测任务上的性能优于目前为止所有最先进的模型,并在多种遥感下游任务上表现出色。据悉,这是全世界范围内第一个参数量达到亿级规模的遥感视觉Transformer大模型。该模型在最近的2023年“中科星图杯”国际高分遥感图像解译大赛高分辨率SAR图像中近海养殖场分割赛道和阿里云天池地表建筑物识别长期赛中助力团队取得榜单第一。
大规模视觉基础模型在基于自然图像的视觉任务中取得了重大进展。得益于良好的可扩展性和表征能力,基于视觉Transformer的大规模视觉基础模型吸引了研究社区的广泛关注,并在多种视觉感知任务中广泛应用。然而,在遥感图像感知领域,大规模视觉模型的潜力尚未得到充分的探索。
为此,团队针对具有1亿参数的一般结构的ViT (Plain ViT),采用掩码图像建模算法在大规模遥感数据集上进行无监督预训练获得初始权重,接着通过引入不同的学习因子在键特征和值特征上获得可以同时进行缩放平移旋转变换的窗口,进而设计出符合遥感图像特点的旋转可变窗口注意力机制来代替Transformer中的原始完全注意力。新的注意力可以从生成的不同窗口中提取丰富的上下文信息来学习更好的目标表征,并显著降低计算成本和内存占用,能够有效应对遥感图像具有的大尺寸特性和遥感目标的朝向任意性。在多种遥感任务上的微调实验表明模型在精度、效率、可解释性等方面具有明显优势。
相关成果在线发表在IEEE Transactions on Geoscience and Remote Sensing (《IEEE地球科学与遥感汇刊》)。论文题目为“Advancing Plain Vision Transformer Towards Remote Sensing Foundation Model”(《将朴素视觉转换器推向遥感基础模型》)。武汉大学计算机学院2021级博士研究生王迪为论文第一作者。合著者还包括:计算机学院杜博教授,测绘遥感信息工程国家重点实验室张良培教授,悉尼大学博士张启明、徐宇飞,博士后研究员张敬,以及京东探索研究院院长陶大程。武汉大学计算机学院为第一署名单位。该工作得到国家自然科学基金、湖北省科技重大专项(新一代人工智能)等项目的支持。
融媒体记者:张昀 卫未
编辑:李叶紫 吕艳丽
更多精彩内容,请在各大应用市场下载“汉新闻”客户端。
-
天天新动态:杜博、张良培教授团队提出全球首个亿级遥感视觉Transformer大模型近日,武汉大学杜博、张良培教授团队首次提出面向遥感任务设计的大规模视觉基础模型。该模型在检测任务上的性能优于目前为止所有最先进的模型
-
当前看点!cf怎么退战队1、要登陆游戏,输入自己的账号密码进入游戏,进入到主页面中。2、进入游戏之后,看自己右上角上的那人头状按钮,那是战队系统,想要退战队要
-
环球百事通!延安宝塔山图片(延安宝塔山历史意义)1、宝塔山位于延安城中心,海拔1135 5米。2、宝塔山是革命圣地延安的标志和象征,是延安进行爱国主义、革命传统和延安精神教育的重要基地之一
-
头条焦点:黑龙江伊春市十个值得推荐的旅游景点黑龙江伊春市十个值得推荐的旅游景点,伊春市,黑龙江,伊春,黑龙江省,汤旺河,林木
-
环球播报:枸杞银耳_关于枸杞银耳简述1、枸杞银耳是一道传统名点。2、久负盛名的良药和席上珍品,秦陇风味的枸杞银耳用著名的宁夏枸杞和陇南白木耳,红白相映,香甘醇厚。文章到此
X 关闭
X 关闭