2020最佳AI论文,都在这里了

发布时间:2021-08-31    来源:beplay nbsp;   浏览:16086次
本文摘要:世界很乱,但AI依旧在进步。

beplay

世界很乱,但AI依旧在进步。——文|杜晨 编辑|Vicky Xiao由于全球新冠疫情仍未竣事,今年不少学术集会延期或取消,召开的也大多在线上举行。只管2020年发生了许多事情,研究者们仍然为人工智能技术的进步做出了大量重要的孝敬。

位于蒙特利尔的 AI 内容创作者 Louis Bouchard (他的 YouTube 账号叫 What's AI) 汇总了一份2020年最值得关注的 AI 论文名单(点击阅读原文,链接为 GitHub,需要工具)。除了在相关领域内的各项指标上缔造了新纪录,在应用层面带来了新的思路,这些论文也对偏见等 AI 道德方面的议题有所探讨。为了读者的利便,Bouchard 还很是贴心地为入选的每篇论文,都提供了视频、漫笔先容、论文链接和代码地址,资助大家更快速明白论文的焦点内容,还能最快速度上手用起来。

但首先,Bouchard 用一条视频汇总了这些论文的内容,还加上了包罗 Gary Marcus、李飞飞、Luis Lamb 等 AI 大牛在今年揭晓过的对 AI 的展望:以下是 Bouchard 整理的2020最佳AI论文列表,排名不分先后:YOLOv4: Optimal Speed and Accuracy of Object Detection简介:全称 You Only Look Once,YOLO 是一个超快速识别物体的盘算机视觉算法,在今年4月已经升级到了第四版,来自作者 Alexey Bochkovsky 等人。这篇论文最大的进步来自于研究者接纳的数据增强方法,叫做"Mosaic and Self-adversarial training"(马赛克和自我反抗训练),使得 YOLOv4 的实时物体识别速度依然惊人,而且这一次在识别准确率上也有了很是大的提升。YOLOv4 在许多需要物体识此外场景都能排上用场,对于那些需要实时、高精度识此外场景更是十分关键。

论文链接:https://arxiv.org/abs/2004.10934作者撰写的先容文章:https://bit.ly/3rM3ubJ代码:https://github.com/AlexeyAB/darknetDeepFaceDrawing: Deep Generation of Face Images from Sketches这篇论文提出的算法很有意思,正如上图所示,给它一张随笔肖像,它就能生成惟妙惟肖的“真”人头像——固然,肯定是假的,但看起来足以乱真。这个 AI 也有很大用处,好比警员办案查找疑犯,或者种种需要大量“真”人头像填充的设计用途。但同时值得提及的是,不合理的使用这项技术可能会引发道德问题。

好比,今年就有一些外洋媒体曾被爆出,一些评论员文章的作者其实都是假的,这些人有伪造的姓名、供职单元和教育履历,再配上一张头像,建立一个社交网络账号,疑惑性极强。论文链接:https://bit.ly/37Y54zaWhat's AI 漫笔先容:https://bit.ly/2JtvJdI代码:https://github.com/IGLICT/DeepFaceDrawing-JittorLearning to Simulate Dynamic Environments with GameGAN这项研究由英伟达多伦多AI实验室和日本游戏大厂万代南梦宫 *BANDAI NAMCO) 一同开发,技术来自前者,数据来自后者。

简朴来说,仅对简朴的游戏录像和玩家输入举行学习,GameGAN 就能够模拟出靠近真实游戏的情况,还不需要游戏引擎和底层代码。它的底层是在 AI 领域很有名的生成反抗网络 (GAN)。正是因为它的学习方式很简朴,任何游戏它都能模拟出来,除了吃豆人这样的2D游戏,连 DOOM 这种3D游戏都可以。

英伟达指出,这项技术有助于游戏开发者为已有的游戏开发全新的关卡。论文链接:https://arxiv.org/pdf/2005.12126.pdf英伟达论文先容:https://bit.ly/2WXLg8G代码:https://github.com/nv-tlabs/GameGAN_codePULSE: Self-Supervised Photo Upsampling via Latent Space Exploration of Generative Models在西欧影戏里,你一定见过特工们对着一个模糊的监控录像说“增强”,旁边的技术员一通操作就真的做到了……这曾经是个经典荧幕梗,但随着 AI 技术的进步,竟然还就真的实现了。PULSE 是一个所谓的“超级分辨率”算法,可以把一张最低16*16的照片增强到1080p的清晰度。固然,出来的照片肯定还是假的,究竟是盘算盘算出来的,但 PULSE 接纳了自我监视,用多张同一小我私家差别心情的高清照片举行压缩训练,效果是生成的高清假照片,其实和低清晰度照片的主人很是靠近。

论文链接:https://arxiv.org/abs/2003.03808论文先容:https://bit.ly/2WXkPzX代码:https://github.com/adamian98/pulseUnsupervised Translation of Programming Languages在两种编程语言之间互译,需要“源代码到源代码编译器”(transcompiler)。这类编译器通常依赖大量人工铺路搭桥,好比手写规则,很是耗时,而且效果不太好,翻译出来的语法也经常差池,需要进一步的人工编辑。正如标题,Facebook AI 开发的这个 AI 联合了机械翻译方面的一些最佳研究,接纳非监视学习技术,能够在 C++ 和 Python 两种编程语言的函数之间举行互译,而且能够明白差别语言的语法,能够泛化到 Java 等其它语言。

论文链接:https://arxiv.org/abs/2006.03511论文先容:https://medium.com/what-is-artificial-intelligence/this-ai-translates-code-from-a-programming-language-to-another-facebook-transcoder-explained-3017d052f4fd代码:https://bit.ly/3aSrZO5PIFuHD: Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human Digitization这篇论文我们写过:G7向导人大跳神曲?这个三维生成AI要被网友玩坏了。它提出了一种全新的基于神经网络的算法:只用一张人物全身正面照片,几分钟的盘算时间,就可以自动重建高分辨率细节富厚的3D模型。和已存在的类似技术相比,PIFuHD的优点是:1)对于泉源照片里并不存在的身体部位,好比背部,它可以”猜“出一个或许的,切合常理的效果。2)能够同时高精度还原照片中的人体模型和服装细节。

网友用这个算法举行了许多很搞笑的二次创作,好比把 G7 向导人复制成3D模型,强迫他们跳舞:论文链接:https://arxiv.org/pdf/2004.00452.pdf论文先容:阅读此文代码:https://github.com/facebookresearch/pifuhdHigh-Resolution Neural Face Swapping for Visual Effects已往几年,种种换脸工具我们都见过、玩过不少了。迪士尼也在研究这项技术,他们的研究员在这片论文里提出了一个算法,能够生成百万像素分辨率的换脸视频。换脸视频往往会泛起种种瑕疵让人一看就知道是假的,不外迪士尼在这一点上想要做到精美绝伦。

这项技术在影戏拍摄中很有用处。例如说,已往让大牌演员演打戏,往往都要用到武替,一般都是不露面或者快速闪过侧脸,只管让观众看不出来,但凡露面的,都需要大量的后期逐帧修改。现在有了这项技术,就可以直接把演员的脸嵌套到原始素材上,极大地降低后期制作成本,提高影戏制作的效率。论文链接:https://bit.ly/2WRMnH0论文先容:https://bit.ly/2X8i7rLGPT-3: Language Models are Few-Shot learnersGPT-3 我们已经写过许多次了,你可以通过此文相识这个史无前例版庞大的1750亿参数量的文本生成模型。

随着 GPT-3 的公布,开发机构 OpenAI 也提供了可挪用的 API 给开发者使用,而开发者用它做出了种种各样的神奇 demo。论文链接:https://arxiv.org/abs/2005.14165中文先容:阅读此文代码:https://github.com/openai/gpt-3Learning Joint Spatial-Temporal Transformations for Video Inpainting我们都知道抠图这件事,也就是从一张照片中把配景去掉,抠出主题的人和物。但如果你想要把前台的主题抠掉,保留一个完整的配景那就难了,究竟主题把配景盖住了。

这篇论文解决的就是抠配景的难题,而且还是在视频上做。研究者设计了一个空间-时间 Transformer 神经网络,同时对视频的所有帧举行填补,效果优于已知的类似技术。

论文链接:https://arxiv.org/abs/2007.10247论文简介:https://bit.ly/34VFbOrBeyond the Nav-Graph: Vision-and-Language Navigation in Continuous Environments操控机械人很容易,你只需要告诉它前进、退却、左转和右转。用自然语言对一个基于盘算机视觉的机械人举行导航控制,难度则在另一个级别上了。正因为此,已往几年里有一些在此方面实现了重大突破的论文,在各大学术集会上都拿了奖。

来自俄勒冈州立大学、佐治亚理工和 Facebook AI 实验室的研究员,配合开发了这样一个自然语言导航模型,能够让机械人在完全未知的三维场景下,仅通过”前面过门往左转“、”停在茶几旁边“诸如此类的自然语言下令来实现三维视觉导航。论文地址:https://arxiv.org/abs/2004.02857论文简介:https://bit.ly/3pMfPLd代码:https://github.com/jacobkrantz/VLN-CE以上就是我们从 Louis Bouchard 汇总的2020最佳AI论文里精选的十篇优秀论文。

你还可以点击”阅读原文“按钮继续翻阅其它入选论文,好比老照片翻新、修改照片人物年事、用盘算机视觉算法取代绿幕等等——都很值得一看。本文内容大部门来自 Bouchard 的汇总效果,硅星人仅提供部门中文翻译和一些增补解读。硅星人:(ID:guixingren123)从科技到文化,从深度到段子,硅星人为你讲述关于硅谷的一切。


本文关键词:beplay,Beplay官网,beplay手机客户端

本文来源:beplay-www.9995072.com