<aside> ๐Ÿ“ข Communication-Efficient Learning of Deep Networks from Decentralized Data

</aside>

Notation

Abstract

ํ˜„๋Œ€ mobile ๊ธฐ๊ธฐ๋Š” learning model์— ์ ํ•ฉํ•œ ๋งŽ์€ ๋ฐ์ดํ„ฐ์— ์ ‘๊ทผํ•  ์ˆ˜ ์žˆ๋‹ค. ํ•˜์ง€๋งŒ, ์ด๋Ÿฌํ•œ data๋Š” ์ข…์ข… privacy์— ๋ฏผ๊ฐํ•˜๊ณ  ์–‘์ด ๋„ˆ๋ฌด ๋ฐฉ๋Œ€ํ•˜์—ฌ ๊ธฐ์กด์˜ ๋ฐฉ์‹๊ณผ ๊ฐ™์ด data center์— ์ ‘๊ทผ[logging]ํ•˜์—ฌ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์€ ์–ด๋ ค์šธ ์ˆ˜ ์žˆ๋‹ค.

๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” ๊ฐ mobile device์— ์žˆ๋Š” training data๋ฅผ ์ด์šฉ, local์—์„œ ๊ณ„์‚ฐ๋œ update๋ฅผ ์ทจํ•ฉํ•ด ๊ณต์œ  ๋ชจ๋ธ์„ ํ•™์Šตํ•˜๋Š” decentralized approach์ธย Federated Learningย ์„ ์ œ์•ˆํ•œ๋‹ค.

๋…ผ๋ฌธ์€ ์‹คํ—˜์„ ํ†ตํ•ด ์ด๋Ÿฌํ•œ ์ ‘๊ทผ์ด unbalanced, non-IID data ๋ถ„ํฌ์— ๋Œ€ํ•ด robust[๊ฒฌ๊ณ ]ํ•จ์„ ๋ณด์˜€๋‹ค. ๋˜ํ•œ, ์ฃผ๋œ cost๋กœ ๋ฝ‘ํžˆ๋Š” communication costs์— ๋Œ€ํ•ด, ๊ธฐ์กด์˜ ๋™๊ธฐํ™”๋œ stochastic gradient descent(SGD) ๋ฐฉ์‹๋ณด๋‹ค ๋…ผ๋ฌธ์˜ ๋ฐฉ์‹์ด 10๋ฐฐ์—์„œ 100๋ฐฐ ์ •๋„ communication round[ํ†ต์‹  ๋ผ์šด๋“œ]๋ฅผ ๋œ ๊ฑฐ์นœ๋‹ค๋Š” ๊ฒƒ์„ ๋ณด์˜€๋‹ค.

Introduction

์ ์  ๋” ๋งŽ์€ ์‚ฌ๋žŒ๋“ค์—๊ฒŒ ํ•ธ๋“œํฐ๊ณผ ํƒœ๋ธ”๋ฆฟ์€ ์ฃผ์š”ํ•œ ๊ณ„์‚ฐ[computing] ์žฅ์น˜์ด๊ณ , ๊ทธ๋Ÿฌํ•œ ์žฅ์น˜ ์•ˆ์— ์žˆ๋Š” ์—ฌ๋Ÿฌ ์„ผ์„œ๋“ค(์นด๋ฉ”๋ผ, GPS ๋“ฑ)์€ ๋น„๊ณต๊ฐœ๋กœ ์ œ๊ณต๋˜๋Š” ๋งŽ์€ data์— ์ ‘๊ทผํ•  ์ˆ˜ ์žˆ๋‹ค.[์ž์ฃผ ํœด๋Œ€๋˜๋Š” ํŠน์„ฑ์œผ๋กœ ์ธํ•ด ์ „๋ก€ ์—†๋Š” ์–‘์˜ ๋ฐ์ดํ„ฐ์— ์•ก์„ธ์Šคํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.] ํ•ด๋‹น data๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•™์Šตํ•œ ๋ชจ๋ธ์€ ๋ณด๋‹ค ์ง€๋Šฅ์ ์ธ application์„ ์ž‘๋™์‹œ์ผœ ์‚ฌ์šฉ์„ฑ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฐ€๋Šฅ์„ฑ์„ ๊ฐ€์ง€๊ณ  ์žˆ์ง€๋งŒ, ์ค‘์•™ location์— ์ด๋ฅผ ์ €์žฅํ•˜๋Š” ๊ฒƒ์—๋Š” risk๊ฐ€ ์กด์žฌํ•œ๋‹ค.[private data]

์šฐ๋ฆฌ๋Š” ํ’๋ถ€ํ•œ data๋ฅผ ์ค‘์•™์— ์ €์žฅํ•˜์ง€ ์•Š๊ณ ๋„, ๊ณต์œ ๋œ ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ฌ ์ˆ˜ ์žˆ๋Š” ๊ธฐ์ˆ ์ธย Federated Learningย ๊ธฐ๋ฒ•์„ ์†Œ๊ฐœํ•œ๋‹ค. ์ด๋Ÿฌํ•œ ์ด๋ฆ„์ด ๋ถ™์€ ์ด์œ ๋Š” ์ค‘์•™ย serverย ์— ์˜ํ•ด ์กฐ์ ˆ๋˜๋Š” ์—ฌ๋Ÿฌ๋Œ€์˜ device(์—ฌ๊ธฐ์„œ๋Š”ย clientย ๋ผ๊ณ ๋„ ํ•œ๋‹ค)์˜ looseํ•œ federation์œผ๋กœ ํ•™์Šต task๊ฐ€ ์ง„ํ–‰๋˜๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.