写给数据科学家：GitHub实践指南教程；交互式图像标注工具(像素级)；Kindle高亮笔记的导出工具；人脸分析库；前沿论文 | ShowMeAI资讯日报

站长

2024年04月09日 13:26 · 阅读数 56

写给数据科学家：GitHub实践指南教程；交互式图像标注工具(像素级)；Kindle高亮笔记的导出工具；人脸分析库；前沿论文 | ShowMeAI资讯日报

ShowMeAI日报系列全新升级！覆盖AI人工智能工具&框架 | 项目&代码 | 博文&分享 | 数据&资源 | 研究&论文等方向。点击查看 历史文章列表，在公众号内订阅话题 #ShowMeAI资讯日报，可接收每日最新推送。点击 专题合辑&电子月刊 快速浏览各专题全集。

工具&框架

🚧 『KindleClippings』kindle高亮笔记导出工具

github.com/robertmarti…

很多人很喜欢 kindle 中的文本高亮突出功能，很方便以后回看，但是这些内容的导出并不容易。 KindleClippings 是一个具备此功能的工具，它可以获取你在 Kindle 上的所有高亮部分，并将它们组织成纯文本文件，格式包括 txt、pdf 和 docx，如下图所示。

🚧 『FaceONNX』基于深度神经网络和 ONNX runtime 的人脸分析库

github.com/FaceONNX/Fa…

FaceONNX是一个基于ONNX runtime的人脸分析库。它包含了预训练的深度神经网络，可用于人脸检测和人脸特征点提取。具体功能包含：检测和特征点提取、性别和年龄分类、情绪和美度识别、嵌入与比较等。

🚧 『folding_tools』蛋白质折叠计算工具大全

github.com/sacdallago/…

蛋白质工程中的机器学习方法发展迅速，也产出了很多针对该场景和问题的AI工具，本工具库列表包含针对蛋白质折叠问题的工具（结合AlphaFold 2和蛋白质语言模型）。

🚧 『Intelligent Pixel Annotation Tool (IPAT)』web版交互式像素级图像标注工具

github.com/KunyangHan/…

IPAT(Intelligent Pixel Annotation Tool)是一个基于网页的交互式图像标注工具，目前提供两种引导标注方式，IOG-Click和IOG-Scribble。IOG-Click基于Inside-Outside-Guidance（IOG），我们通过点击小图片碎片来区分物体边界，IOG-Scribble是一个改进版，我们通过一个粗略的涂鸦来标注对象。具体的功能操作如下图所示。

博文&分享

👍 『给数据科学家的GitHub综合指南』Comprehensive Guide to GitHub for Data Scientists

towardsdatascience.com/comprehensi…

这是一篇写给数据科学家/分析师（或其他非工程开发为核心的人员）的实践指南教程，它介绍如何使用GitHub以及一些注意点。教程包括使用用户界面和命令行（终端）的组合指南。因为Git命令的命名规则在GitHub提供的各个平台上是一致的，所以教程适用 Github桌面、GitLab、Web UI、命令行等多个平台和模式。

数据&资源

🔥 『Vision Centric BEV Perception』以视觉为中心的BEV感知调研综述

github.com/4DVLab/Visi…

研究&论文

公众号回复关键字日报，免费获取整理好的论文合辑。

科研进展

2022.07.26 『计算机视觉』 Learning Visual Representation from Modality-Shared Contrastive Language-Image Pre-training

2022.07.26 『计算机视觉』 Compositional Human-Scene Interaction Synthesis with Semantic Control

2022.07.26 『计算机视觉』 Text-Guided Synthesis of Artistic Images with Retrieval-Augmented Diffusion Models

2022.07.25 『机器学习』 MAPIE: an open-source library for distribution-free uncertainty quantification

⚡ 论文：Learning Visual Representation from Modality-Shared Contrastive Language-Image Pre-training

论文时间：26 Jul 2022

所属领域：计算机视觉

对应任务：语言视觉任务

论文地址：arxiv.org/abs/2207.12…

代码实现：github.com/hxyou/mscli…

论文作者：Haoxuan You, Luowei Zhou, Bin Xiao, Noel Codella, Yu Cheng, Ruochen Xu, Shih-Fu Chang, Lu Yuan

论文简介：Large-scale multi-modal contrastive pre-training has demonstrated great utility to learn transferable features for a range of downstream tasks by mapping multiple modalities into a shared embedding space./大规模的多模态对比性预训练已显示出巨大的效用，通过将多种模态映射到一个共享的嵌入空间，为一系列下游任务学习可迁移使用的特征。

论文摘要：大规模的多模态对比预训练已经显示出巨大的效用，通过将多种模态映射到一个共享的嵌入空间中，为一系列的下游任务学习可迁移使用的特征。通常情况下，这对每一种模式都采用了单独的编码器。然而，最近的工作表明，transformer可以支持跨多种模式的学习，并允许知识共享。受此启发，我们研究了各种模式共享的对比性语言-图像预训练（MS-CLIP）框架。更具体地说，我们质疑在对比性预训练过程中，一个transformer模型有多少参数可以在不同的模式间共享，并严格检查架构设计的选择，将参数共享的比例沿光谱定位。在所研究的条件下，我们观察到视觉和语言信号的大部分统一编码器胜过所有其他分离更多参数的变化。此外，我们发现轻量级的特定模式并行模块进一步提高了性能。实验结果表明，所提出的MS-CLIP方法在ImageNet的零点分类（在YFCC-100M上预训练）中优于vanilla CLIP达13/%，同时支持减少参数。此外，我们的方法在24个下游视觉任务集合的线性探测中优于vanilla CLIP 1.6分。此外，我们发现共享参数导致来自不同模式的语义概念在嵌入空间中被更紧密地编码，促进了共同语义结构（例如，注意模式）从语言到视觉的迁移。代码可在 github.com/Hxyou/MSCLI… 获取。

⚡ 论文：Compositional Human-Scene Interaction Synthesis with Semantic Control

论文时间：26 Jul 2022

所属领域：计算机视觉

对应任务：Instance Segmentation，Semantic Segmentation，实例分割，语义分割

论文地址：arxiv.org/abs/2207.12…

代码实现：github.com/zkf1997/coi…

论文作者：Kaifeng Zhao, Shaofei Wang, Yan Zhang, Thabo Beeler, Siyu Tang

论文简介：Furthermore, inspired by the compositional nature of interactions that humans can simultaneously interact with multiple objects, we define interaction semantics as the composition of varying numbers of atomic action-object pairs./此外，受人类可以同时与多个对象进行互动的组成性质的启发，我们将互动语义定义为不同数量的原子动作-物体对的组成。

论文摘要：合成虚拟化身和他们的3D环境之间的自然互动对于许多应用来说是至关重要的，例如计算机游戏和AR/VR体验。我们的目标是合成人类与给定的3D场景的互动，该场景由高层次的语义规范控制，如行动类别和对象实例对，例如 "坐在椅子上"。将交互语义纳入生成框架的关键挑战是学习一种联合表示，以有效地捕捉异质信息，包括人体衔接、三维物体几何和交互的意图。为了应对这一挑战，我们设计了一个新颖的基于transformer的生成模型，在这个模型中，衔接的三维人体表面点和三维物体被联合编码在一个统一的潜在空间中，人和物体之间的交互语义通过位置编码被嵌入。此外，受人类可以同时与多个物体互动的组成性质的启发，我们将互动语义定义为不同数量的原子动作-物体对的组成。我们提出的生成模型可以自然地纳入不同数量的原子交互，这使得我们可以在不需要复合交互数据的情况下合成人类与场景的交互关系。我们用交互语义标签和场景实例分割来扩展PROX数据集，以评估我们的方法，并证明我们的方法可以生成具有语义控制的真实的人与场景的交互关系。我们的感知研究表明，我们合成的虚拟人可以自然地与3D场景互动，大大超过了现有的方法。我们把我们的方法命名为COINS，意思是带有语义控制的互动合成（COmpositional INteraction Synthesis）。代码和数据可在 github.com/zkf1997/COI… 获取。

⚡ 论文：Text-Guided Synthesis of Artistic Images with Retrieval-Augmented Diffusion Models

论文标题：Text-Guided Synthesis of Artistic Images with Retrieval-Augmented Diffusion Models

论文时间：26 Jul 2022

所属领域：计算机视觉

对应任务：Image Generation，Prompt Engineering，图像生成，提示生成

论文地址：arxiv.org/abs/2207.13…

代码实现：github.com/compvis/lat…

论文作者：Robin Rombach, Andreas Blattmann, Björn Ommer

论文简介：In RDMs, a set of nearest neighbors is retrieved from an external database during training for each training instance, and the diffusion model is conditioned on these informative samples./在RDMs中，每一个训练实例的训练过程中，都会从外部数据库中检索出一组最近的邻居，而扩散模型则以这些信息样本为条件。

论文摘要：最近，新的架构已经改进了生成性图像合成，从而在各种任务中实现了出色的视觉质量。特别值得注意的是人工智能-艺术领域，随着CLIP等强大的多模态模型的出现，该领域出现了前所未有的增长。通过结合语音和图像合成模型，所谓的提示工程''已经建立，其中精心选择和组成的句子被用来在合成的图像中实现某种视觉风格。在本说明中，我们提出了一种基于检索增强的扩散模型（RDMs）的替代方法。在RDMs中，在每个训练实例的训练过程中，从外部数据库中检索出一组最近的邻居，而扩散模型则以这些信息样本为条件。在推理（取样）过程中，我们用一个更专门的数据库取代检索数据库，例如，只包含特定视觉风格的图像。这提供了一种新颖的方式，在训练后提示一般的训练模型，从而指定一种特定的视觉风格。正如我们的实验所显示的，这种方法比在文本提示中指定视觉风格要好。我们将代码和模型权重开源于 github.com/CompVis/lat…

⚡ 论文：MAPIE: an open-source library for distribution-free uncertainty quantification

论文标题：MAPIE: an open-source library for distribution-free uncertainty quantification

论文时间：25 Jul 2022

所属领域：机器学习

对应任务：Multi-class Classification，多分类

论文地址：arxiv.org/abs/2207.12…

代码实现：github.com/scikit-lear…

论文作者：Vianney Taquet, Vincent Blot, Thomas Morzadec, Louis Lacombe, Nicolas Brunel

论文简介：Estimating uncertainties associated with the predictions of Machine Learning (ML) models is of crucial importance to assess their robustness and predictive power./估算与机器学习（ML）模型的预测相关的不确定性对于评估其稳健性和预测能力至关重要。

论文摘要：估计与机器学习（ML）模型的预测相关的不确定性对于评估其稳健性和预测能力至关重要。在这篇论文中，我们介绍了MAPIE（Model Agnostic Prediction Interval Estimator），这是一个开源的Python库，用于量化单输出回归和多类分类任务的ML模型的不确定性。MAPIE实现了共形预测方法，允许用户在边际覆盖率的强大理论保证下，在模型或基础数据分布的温和假设下，轻松计算不确定性。MAPIE托管在scikit-learn-contrib上，与scikit-learn完全 "兼容"。因此，它接受带有scikit-learn API的任何类型的回归器或分类器。该库的网址是：github.com/scikit-lear…

我们是 ShowMeAI，致力于传播AI优质内容，分享行业解决方案，用知识加速每一次技术成长！点击查看 历史文章列表，在公众号内订阅话题 #ShowMeAI资讯日报，可接收每日最新推送。点击 专题合辑&电子月刊 快速浏览各专题全集。

作者：韩信子@ShowMeAI
历史文章列表
专题合辑&电子月刊
欢迎回复，拜托点赞，留言推荐中有价值的文章、工具或建议，我们都会尽快回复哒~

转载自:https://juejin.cn/post/7131591526664110087