Tot ce trebuie să ştiţi despre învăţarea federată U
na dintre provocările centrale ale învățării automate este necesitatea unor cantități mari de date. Colectarea seturilor de date de formare pentru modelele de învățare automată implică riscuri de confidențialitate, securitate și procesare pe care organizațiile ar prefera să le evite.
O tehnică ce poate ajuta la abordarea unora dintre aceste provocări este „învăţarea federată”. Distribuind instruirea modelelor pe dispozitivele utilizatorilor, învăţarea federată permite utilizarea învăţării automate, reducând în același timp nevoia de a colecta date de utilizator.
Învăţare automată bazată pe cloud
Antrenează modele de învăţare automată pe dispozitiv
Procesul tradiţional de dezvoltare a aplicaţiilor de învăţare automată este de a colecta un set mare de date, de a instrui un model pe date și de a rula modelul instruit pe un server cloud accesibil utilizatorului prin diferite aplicaţii, cum ar fi căutarea web, traducerea, generarea de text și procesarea imaginii.
Inferenţa pe dispozitiv este un upgrade major de protecţie a datelor pentru aplicaţiile de învăţare automată. Cu toate acestea, o provocare rămâne: dezvoltatorii continuă să aibă nevoie de date pentru a instrui modelele pe care le vor împinge pe dispozitivele utilizatorilor. Aceasta nu este o problemă dacă organizaţia care dezvoltă modelele deţine deja datele (de exemplu, o bancă deţine tranzacţiile sale) sau datele sunt cunoscute public (de ex. Wikipedia sau articole de știri).
De fiecare dată când aplicaţia dorește să utilizeze modelul de învăţare automată, trebuie să trimită datele utilizatorului către serverul în care se află modelul.
Dar dacă o companie dorește să instruiască modele de învăţare automată care conţin informaţii sensibile despre utilizatori, cum ar fi e-mailuri, jurnale de chat sau fotografii personale, atunci există multe provocări în colectarea datelor de instruire. Compania trebuie să se asigure că politica sa de colectare și păstrare respectă diferite reglementări privind protecţia datelor și este anonimizată pentru a elimina informaţiile de identificare personală (PII).
În multe cazuri, trimiterea de date către server este inevitabilă. Această paradigmă este inevitabilă pentru sistemele de recomandare a conţinutului, de exemplu, deoarece unele dintre datele și conţinutul necesare pentru învăţarea automată se află pe serverul cloud. Cu toate acestea, cu aplicaţii precum completarea automată a textului sau recunoașterea feţei, datele sunt locale pentru utilizator și dispozitiv. În aceste cazuri, ar fi de preferat ca datele să rămână pe dispozitivul utilizatorului în loc să fie trimise în cloud. Din fericire, progresele înregistrate în domeniul AI au făcut posibilă evitarea trimiterii datelor sensibile ale utilizatorilor către serverele de aplicaţii. Cunoscut și sub numele de TinyML, acesta este un domeniu activ de cercetare, ce încearcă să construiască modele de învăţare automată care să se potrivească cu smartphone-uri și alte dispozitive. Aceste modele permit inferenţa internă a dispozitivului. Companiile mari de tehnologie încearcă să introducă unele dintre aplicaţiile lor de învăţare automată pe dispozitivele utilizatorilor pentru a îmbunătăţi confidenţialitatea. Învăţarea automată pe dispozitiv are mai multe avantaje suplimentare. Aceste aplicaţii pot continua să funcţioneze chiar și atunci când dispozitivul
84
nu este conectat la Internet. De asemenea, oferă avantajul de a conserva lăţimea de bandă atunci când utilizatorii folosesc conexiuni cu plată. Și în multe aplicaţii, inferenţa pe dispozitiv este mai eficientă din punct de vedere energetic decât trimiterea de date în cloud.
4/2021
Odată ce modelul de învăţare automată este instruit, echipa de dezvoltare trebuie să decidă dacă păstrează sau aruncă datele de instruire. De asemenea, trebuie să aibă o politică și un proces în vigoare pentru a continua colectarea de date de la utilizatori, pentru a se recalifica și a-și actualiza modelele în mod regulat. Aceasta este problema adreselor de învăţare federată.
Învăţare federată Ideea principală a învăţării federate este de a instrui un model de învăţare automată pe datele utilizatorilor, fără a fi nevoie să le împingeţi pe serverele cloud. Învăţarea conectată începe cu un model de învăţare automată de bază pe serverul cloud. Acest model este fie instruit cu date publice (de exemplu, articole Wikipedia sau setul de date ImageNet), fie nu a fost instruit deloc. În etapa următoare, mai multe dispozitive utilizator antrenează voluntar modelul. Aceste dispozitive conţin date despre utilizatori, relevante pentru aplicaţia modelului, cum ar fi: jurnale de chat și apăsări de taste. Aceste dispozitive descarcă modelul de bază la un moment adecvat, cum ar fi atunci când sunt