Multimodal Machine Learning:A Survey and Taxonomy 综述阅读笔记

2021年11月23日 阅读数:4
这篇文章主要向大家介绍Multimodal Machine Learning:A Survey and Taxonomy 综述阅读笔记,主要内容包括基础应用、实用技巧、原理机制等方面,希望对大家有所帮助。

该笔记基于:Multimodal Machine Learning:A Survey and Taxonomy算法

  • 该论文是一篇对多模态机器学习领域的总结和分类,且发表于2017年,算是至关新的综述了。老师在课上推荐阅读,我花了三天大致看了一边,其中有不少实际的方法或者技术对我来讲是全新的领域,也是将来学习的方向,可是对这个领域和其想解决的问题有了大体的了解。记录以下:

关键名词解释:

  1. Modality:A particular mode in which something exists or is experienced or expressed. 中文释义为模态或形态。一个事物存在(被体验/被表达)的一种特定的方式。如一只猫,能被看见,图像是模态;能被听见,声音是模态;能被触摸,它身上的皮毛纹理是一种模态;某些人能够经过气味辨别本身的猫,那么气味是模态。模态之间大都是异质性的(heterogeneity)。
  2. Multimodal:多模态,顾名思义,包含了多种模态。若是一个研究问题或者数据集包含了多个上述的模态时,也能够被称为multimodal。

目的&目标:

  1. 为了令人工智能进一步增强对咱们周边事物的理解,它须要具有解释多模态信号的能力。(由于咱们就身处在一个多模态的环境中,接收并处理着大量多模态信号)
  2. 多模态机器学习致力于搭建可以处理和链接多模态信息的模型。“Multimodal machine learning aims to build models that can process and relate information from multiple modalities”

面临的挑战(Challenges):

一个领域的挑战是对这个领域所研究的问题和解决方案的归纳,举个例子,好比机器视觉中有一个挑战是“遮挡”,这意味着,在面临一个实际计算机视觉问题时,你须要考虑遮挡对你的任务是否有影响,研究对象被遮挡了怎么解决,现有的解决方案是否能知足你的需求,你是否须要改进已有方案。如下是多模态ML所面临的挑战:
express

  1. 表征(Representation
  2. 翻译(Translation
  3. 对齐(Alignment
  4. 融合(Fusion
  5. 联合学习(Co-learning

下图是综述中给出的各应用涉及到的挑战数组

 

表征:

表征也能够理解为表示,即试图经过各模态的信息找到某种对多模态信息的统一表示。固然,在计算机领域,通常都会是一个向量,但维度、各维度的具体值可否具有好的性质就成了关键。那么什么是好的性质呢?这须要具体任务具体分析,一个简单的例子,若是作的是多模态信息检索(就是好比百度搜索“在捉老鼠的猫”,能获得一系列图片和视频),学习出的视频、图片、文本的表征(向量)的类似性很是重要,来自同一个体的不一样模态信息的表征(向量)间应具有更高的类似程度。网络

  1.  来自综述中的定义:“we use the term feature and representation interchangeably, with each referring to a vector or tensor representation of an entity, be it an image, audio sample, individual word, or a sentence. A multimodal representation is a representation of data using information from multiple such entities. 
  2. 表征是一个很是基础的任务,好的表征能极大的提升模型的表现。
  3. 表征任务的困难点:如何结合异质性的来源的数据,好比文字是符号性的,图片是一个RGB矩阵,视频是时序的RGB矩阵,声音须要采样成一个一位数组;如何处理不一样级别的噪音,缘由是不一样模态产生的噪声是不一样的;如何处理数据缺失的问题
  4. 好的表征应具有的性质:
    • 平滑 smoothness, 能够类比一下天然语言处理中语言模型的平滑
    • 时序和空间一致性 temporal and spatial coherence
    • 稀疏性 sparsity
    • 天然聚类 natural clustering(我不太肯定怎么翻译,暂时这样)
    • 在表征空间的类似性应可以反映出表征所对应的概念的类似性 similarity in the representation space should reflect the similarity of the corresponding concepts
    • 即便在某些模态数据缺失的状况下,这种多模态的表征依旧可以轻松得到  the representation should be easy to obtain even in the absence of some modalities
    • 应可以在给出被观察到的其余模态的数据后,填补出缺失的模态数据 ,it should be possible to fill-in missing modalities given the observed ones
  5. 两种主要的表征思路
    • Joint representations
    • Coordinated representations
  6. 表征技术一览表,其中[#]是综述中引用的论文编号

翻译:

  1.  实际上,也能够理解为映射(mapping)。MMML很大一部分研究专一于将一种模态数据翻译(映射)为另外一种模态数据。即,任务为给出一个实体的一个模态,须要生成该实体的另外一模态。例如给出一段人说话的脸部特写视频(无声音),生成人说话的声音信号。又好比,给定一张照片,生成对照片的描述。
  2. 技术分类
    • 基于例子的 example-based
    • 生成式的 generative
    • 简单的理解,测试阶段,example-based是须要字典的,而生成式是不须要字典的,它经过数据学习到两个模态潜在的映射关系。
  3. 翻译任务面临的困难点
    • 很是难于评估,由于这类任务没有标准答案,答案一般很是开放和主观。这其实也是机器翻译面临的问题。
  4. 为了解决评估困难,提出了VQA(Visual question-answering)任务。然而它也有问题,例如特定问题的歧义性,回答和问题偏置(ambiguity of certain questions and answers and question bias)。
  5. 技术和实际应用一览表:

对齐:

  1. 从两个甚至多个模态中寻找事物子成份之间的关系和联系。好比给定一张图片和图片的描述,找到图中的某个区域以及这个区域在描述中对应的表述。又好比给定一个美食制做视频和对应的菜谱,实现菜谱中的步骤描述与视频分段的对应。
  2. 对齐分为两类:显式对齐和隐式对齐。显式对齐即应用的主要任务就是对齐,而隐式对齐是指应用在完成主要任务时须要用到对齐的技术。
  3. 显式对齐的技术方法分类
    • 无监督方法 Unsupervised
    • (弱)监督方法 (Weakly)Supervised
  4. 隐式对齐的技术方法分类
    • 图模型 Graphical models
    • 神经网络 Neural networks ----- 综述中尤为提到attention机制
  5. 对齐任务的困难点
    • 不多有显式对齐标注的数据集
    • 很难建模不一样模态之间类似度计算
    • 存在多个可能的对齐方案而且不是一个模态的全部元素在另外一个模态中都存在对应
  6. 技术和实际应用一览表

融合:

融合是MMML最先的关注点之一。app

  1. 多模态融合指从多个模态信息中整合信息来完成分类或回归任务。“multimodal fusion is the concept of integrating information from multiple modalities with the goal of predicting an outcome measure: a class (e.g., happy vs. sad) through classification, or a continuous value (e.g., positivity of sentiment) through regression.”融合还有更宽泛的定义,而综述中的定义的融合,是指任务在最后预测并以预测输出值为目的时才进行多模态整合。在深度神经网络方法下,融合和表征两个任务是很难区分的。但在图模型以及基于核的方法中比较好区分。(我暂时也无法解释这一段,须要进一步研究)
  2. 融合的价值
    • 在观察同一个现象时引入多个模态,可能带来更健壮(robust)的预测
    • 接触多个模态的信息,可能让咱们捕捉到互补的信息(complementary information),尤为是这些信息在单模态下并不“可见”时
    • 一个多模态系统在缺失某一个模态时依旧能工做
  3. 多模态融合有两大类:无模型 model-agnostic / 基于模型 model-based
  4. model-agnostic:不直接依赖于某个特定的机器学习算法
    • 进一步分为early\late\hybrid fusion
    • early fusion,也称为feature-based,基于特征。一般是在各模态特征被抽取后就进行融合,一般只是简单的链接他们的表征,也就是joint representation,直接链接多个向量。并使用融合后的数据进行模型训练,相比以后两种在训练上更为简单。
    • late fusion,也称为decision-based,基于决策的。该方法在各个模态作出决策后才进行融合,得出最终的决策。常见的机制有平均(averaging)、投票(voting schemes)等等。这种方法中,各模态可使用不一样的模型来训练,带来更多的便利性。
    • hybrid fusion,一种尝试结合early fusion和late fusion优点的方法。
  5. model-based:显式的在构造中完成融合
    • Multiple Kernel learning(MKL),多核学习
    • Graphical models,图模型
    • Neural Networks,神经网络
    • 神经网络在近期成为解决融合问题很是流行的方案,然而图模型以及多核学习依旧被使用,尤为是在有限的训练数据和模型可解释性很是重要的状况下。
  6. 融合任务的困难点:
    • 信号可能并非时序对齐的(temporally aligned)。极可能是密集的连续信号和稀疏的事件(好比一大段视频只对应一个词,而后整个视频只对应稀少的几个词)。
    • it is difficult to build models that exploit supplementary and not only complementary information(翻译不出来,综述在最开始也提到过supplementary和complementary是两种模态间的关系)
    • 每个模态在不一样的时间点可能表现出不一样的形式和不一样等级的噪声
  7. 技术和实际应用一览表

联合学习:

  1. 联合学习的目的是经过利用资源丰富(好比数据量大)的模态的知识来辅助资源稀缺(好比较小数据)的模态创建模型。
  2. 联合学习时任务独立的(task independent)并能够用于提高融合、翻译和对齐任务中的模型。
  3. 联合学习中,辅助模态(helper modality)一般只参与模型的训练过程,并不参与模型的测试使用过程。即便用时,模型输入并不须要辅助模态的数据。
  4. 联合学习的分类是基于训练资源(数据)形式划分的,下图的文字部分解释得很清楚,并在分类后记录各分类涉及的技术。
    • parallel:Co-training\Transfer learning
    • non-parallel:Transfer learning\Concept grounding(概念接地)\Zero shot learning
    • hybrid:Bridging
  5. 技术和实际应用一览表


接下来可能会针对一两个我感兴趣的挑战和具体应用,阅读相应论文并尝试复现(虽然极可能失败或者须要学习大量的知识),若是你对MMML感兴趣,欢迎继续关注个人博客。机器学习

Plus Ultra学习