【ICML 2020联邦学习论文解读】SCAFFOLD: Stochastic Controlled Averaging for Federated Learning


论文解读:SCAFFOLD: Stochastic Controlled Averaging for Federated Learning

作者:Sai Praneeth Karimireddy 主页, Satyen Kale, Mehryar Mohri,Sashank J. Reddi, Sebastian U. Stich, Ananda Theertha Suresh

论文地址https://arxiv.org/abs/1910.06378

会议:ICML 2020

FL Seminaro(*≧▽≦)ツ Federated Learning One World Seminar

一、背景介绍

联邦学习是一种特殊的分布式学习,它有以下几个特点

  1. 客户端不稳定

  2. 数据在客户端上是Non-IID的

  3. 每轮只有部分客户端参加

  4. 负载不平衡

  5. 高昂的通信代价

通信代价是联邦学习一个主要的研究方向

影响通信代价的几个因素:

  • 参数$X = (x_1,x_2,..,x_m)$的维度m的大小
  • 梯度$g = (t_1,t_2,…,t_m)$的维度m的大小
  • 网络延迟
  • 带宽
  • 每次通信的客户端个数

减少通信代价的两种方式:

  • 提高server全局模型的收敛速度(减少通信次数)
  • 对参数或梯度进行数据压缩(减少单次传输代价)

目前研究联邦学习通信代价的论文有很多只是侧重于研究减少其中一个方面,如只减少通信次数,而不在乎单次传输的代价(本文也是这样设计的),然后博主以为要判断通信代价的高低,更加可信的指标是你达到收敛时的总通信数据量

总通信数据量 = 通信次数 * 单次传输的数据量

FedAvg联邦平均算法是FL领域一个开山鼻祖的算法,后续很多论文中提出的算法都是对它的一些小的改进。

FedAvg实际上就是通过增加本地更新的次数,来减少通信次数(每个客户端在本地多更新几次再进行一次和server的通信。FedAvg算法在IID数据和Non-IID数据下都是收敛的,然后FedAvg的收敛速度受限于数据集的分布,在Non-IID数据集中,FedAvg的收敛速度缓慢。

以下两篇论文就展示了这一点
Federated Learning with Non-IID Data

Measuring the Effects of Non-Identical Data Distribution for Federated Visual Classification

那有没有一种算法能够改进FedAvg的这个缺点,在Non-IID数据集上仍能有良好的效果呢?

二、本文工作

  • 本文提出了一种叫做SCAFFOLD的算法,简单来说就是增加了一个额外的参数control variate来修正FedAvg出现的client-drift。

  • 作者用严格的数学理论证明了该算法是收敛的。

  • 实验部分证明了这种算法是不受客户端数据异质性(数据分布)的影响,并且可以加快收敛速度,从而显著减少通信次数。

三、SCAFFOLD算法核心

3.1 FedAvg更新公式:

本地更新k次
$$y_i = y_i - \eta g_i(y_i) \tag1$$

与server进行一次通信
$$x = \frac{1}{S} \sum_{i \in S} y_i \tag 2$$

3.2 SCAFFOLD更新公式:

本地更新k次
$$\color{red} y_i = y_i - \eta (g_i(y_i) + c - c_i) \tag 3$$

与server进行一次通信
$$x = \frac{1}{S} \sum_{i \in S} y_i \tag 4$$

SCAFFOLD算法相比FedAvg只是加了一个修正项$c-c_i$,有了这个修正项可以有效的解决本地更新时的client-drift,让每个客户端在本地更新的时候“看到”其他客户端更新的信息,这里不是指真的看到,而是一种guess。

也就说我不再是每次只在自己的数据上训练,我还去猜测别人这一步可能在做什么。 有了这个猜测我就好像用所有的数据在本地训练模型一样。

对于这个算法,我不仅要更新参数,我还要更新我的这种猜测。

下面用两个Non-IID客户端损失函数的等高线图来模拟这个过程:

蓝色是客户端1的损失函数,红色是客户端2的损失函数,绿色是他们的平均损失函数

Optimum表示全局模型的最优点(收敛点),我们的目标是达到这个全局最优点

SGD更新过程:在本地更新一次就进行一次通信(路径与server理想的更新路径相近,但是通信代价大)

FedAvg更新过程:在本地更新k次才进行一次通信(由于Non-IID,路径与server理想的更新路径发生了偏移,即client-drift,导致收敛速度缓慢)

SCAFFOLD 偏移项

SCAFFOLD更新过程:在本地更新k次才进行一次通信(由于修正项的存在,每次本地更新都会被拉回到理想的更新路径附近,收敛速度较快)

更新参数$C$和$C_i$

SCAFFOLD算法伪代码

对比FedAvg算法伪代码

实验

Conclusion

创新点:

  • 本文研究了数据异质性对联邦优化算法的影响。证明了FedAvg可能会因不同client的梯度差异收敛速度受到严重影响,甚至可能比SGD慢。

  • 本文提出了一种针对Non-IID数据集的新算法SCAFFOLD,设计了一种更好的本地更新策略,利用control variates(guess)来克服client drift

  • 实验表明SCAFFOLD有着较快的收敛速度,且不受client数据分布的影响,能有效减少通信次数

不足之处:

  • 每次传给Server不仅要传模型的参数,还要传control variates(梯度和参数向量维度一样),这增加了单次通信的代价(2倍)

  • 要求每个client是stateful的,因此只适用于少量的客户端(thousands级别)

  • 本文用的是上一轮的梯度状态去猜测下一轮梯度应该往这个方向,这要求所有的loss function时smooth的

思考:

  • 更新$C_i$时,能不能只用最后一个梯度去更新?

  • 用总的通信量来评估你模型的优劣可能更有可信度。

  • $C_i$在第3轮被选中,但下次可能在第100轮才被选中,这时的$C_i$存的还是第3轮被选中时参数所在位置的梯度,那会有误差吧?


Author: SHWEI
Reprint policy: All articles in this blog are used except for special statements CC BY 4.0 reprint polocy. If reproduced, please indicate source SHWEI !
评论
 Previous
从训练和预测的角度来理解Transformer中Masked Self-Attention的原理 从训练和预测的角度来理解Transformer中Masked Self-Attention的原理
Transformer模型结构图在Transformer中Decoder会先经过一个masked self-attention层 使用Masked Self-Attention层可以解决下文提到的训练阶段和预测阶段Decoder可能遇到的所
2020-11-18
Next 
Python伪随机数random和seed详解 Python伪随机数random和seed详解
一、伪随机数random和seed初始化随机数生成器:random.seed(a=None) 如果 a 被省略或为 None ,则使用当前系统时间 每给定一个seed,它会生成一个序列,如序列X: 0.1,3.2,1.5,9.7…你每次r
2020-10-13
  TOC