FEDERATED LEARNING BASED ON DYNAMIC REGULARIZATION
1 INTRODUCTION
연합 학습(FL)은 여러 장치에 분산된 데이터를 활용하여 데이터 공유 없이 분산 방식으로 학습을 수행하는 개념이다. FL의 주요 특성으로는 불안정한 통신 링크, 대규모로 분산된 데이터, 이질적인 데이터, 그리고 장치 간 데이터 양의 불균형이 있다.
기본적인 연합 학습 문제는 장치 수준의 손실을 합하여 전역 손실을 최소화하는 것이다. FL에서는 통신 라운드 수와 라운드당 통신 비트 수가 중요하다. 모바일 및 IoT 장치는 대역폭이 제한적이며 무선 통신은 많은 전력을 소모하므로, 통신을 줄이는 방식이 필요하다. 분산 SGD는 가능하지만 통신 효율성이 낮다.
최근 연구들은 통신량을 줄이기 위해 최적화 부담을 장치로 옮기는 것을 제안했다. 로컬 데이터를 기반으로 모델을 훈련하는 것은 의미 있지만, 전역 손실 최소화와 일치하지 않는 문제가 있다. 이전 연구들은 장치에서 적은 라운드의 SGD를 실행하거나 서버 측 업데이트를 안정화하여 이를 극복하려 했다.
- 동적 정규화. 이러한 문제들을 해결하기 위해, 우리는 FL 문제를 다시 살펴보고, 주로 통신 관점에서 접근하여 통신을 최소화하는 것을 목표로 한다. 따라서 장치 수준에서 상당히 더 많은 처리와 최적화를 허용한다. 이는 통신이 주요 에너지 소비원이라는 점에서 비롯된다(Yadav & Yadav, 2016; Latré et al., 2011). 이 접근 방식은 장치의 계산량을 증가시키는 반면, 기존 최신 방법들에 비해 통신 효율성을 크게 향상시켜 네 가지 FL 시나리오(불안정한 링크, 대규모 분산, 상당한 이질성, 불균형 데이터)에서 균일하게 성능을 개선한다. 구체적으로, 각 라운드에서 우리는 장치 목표를 동적으로 페널티 항을 추가하여 수정하며, 모델 매개변수가 수렴할 때 전역 경험적 손실의 정지점에 수렴하도록 한다. 구체적으로, 우리는 최소값이 전역 정지점과 일치하는 선형 및 이차 페널티 항을 추가한다. 우리는 제안된 FL 알고리즘의 분석을 제공하고, 로컬 장치 모델이 전역 경험적 손실의 로컬 최소 조건을 충족하는 모델로 수렴함을 보여주며, 수렴 속도는 통신 라운드 수 T에 따라 O(1/T)이다. 볼록 매끄러운 함수의 경우, m개의 장치와 라운드당 활성 장치 수 P에서, 균형 잡힌 데이터로 평균 손실에 대한 수렴 속도는 O(1/T * m/P)로, 최신 방법(SCAFFOLD O(1/T * m/P))보다 크게 개선된다. 비볼록 매끄러운 함수의 경우, 우리는 O(1/T * m/P) 속도를 확립했다.
우리는 MNIST, EMNIST, CIFAR-10, CIFAR-100, Shakespeare 데이터셋에서 실험을 통해 FL 시나리오를 반영하는 다양한 사례를 연구했다. 제안된 FedDyn 알고리즘은 경쟁 방법과 유사한 오버헤드를 가지지만, 더 빠른 수렴 속도로 통신량을 줄이며 목표 정확도를 달성한다. 또한, FedDyn은 구현이 간단하고 하이퍼파라미터 튜닝이 적다.
- 우리는 FL을 위한 새로운 동적 정규화 방법인 FedDyn을 제시한다. FedDyn의 핵심은 각 라운드에서 각 장치의 위험 목표를 동적으로 업데이트하여 장치 최적값이 전역 경험적 손실의 정지점과 점차적으로 일치하도록 하는 새로운 개념이다.
- 우리는 볼록 및 비볼록 설정에서 FedDyn의 수렴 결과를 증명하고, 목표 정확도를 달성하기 위해 필요한 통신 라운드에 대한 명확한 결과를 얻었다. 볼록 케이스에서 우리의 결과는 최신 연구들에 비해 크게 개선된다. 이론적으로 FedDyn은 이질성, 대규모 분산 데이터, 통신 링크의 품질에 영향을 받지 않는다.
- 벤치마크 예제에서 FedDyn은 다양한 장치 이질성과 장치 참여 선택에 걸쳐 대규모 텍스트 및 시각 데이터셋에서 경쟁 방법들에 비해 통신을 크게 절약한다.

여기서, 𝐿𝑘(𝜃)=𝐸(𝑥,𝑦)∼𝐷𝑘[ℓ𝑘(𝜃;(𝑥,𝑦))]는 k번째 장치의 경험적 손실이며, 𝜃는 우리의 신경망의 매개변수이다. 이 신경망의 구조는 장치와 서버 간에 동일하다고 가정한다. 우리는 𝜃∗로 전역 경험적 손실 함수의 로컬 최소값을 표시한다.