Home Smartwatch El nuevo método protege efectivamente los datos de entrenamiento de IA confidencial

El nuevo método protege efectivamente los datos de entrenamiento de IA confidencial

107
0

La privacidad de los datos viene con el costo. Existen técnicas de protección que protegen los datos confidenciales de los usuarios, como las hojas de los usuarios, los invasores que pueden intentar eliminarlos de los modelos de IA, pero a menudo hacen que estos modelos sean menos precisos.

Los investigadores del MIT desarrollaron recientemente un nuevo marco basado en la métrica de privacidad llamado PAC Privacy, que puede mantener el rendimiento del modelo de IA, asegurando datos confidenciales, como imágenes médicas o registros financieros. Ahora, han dado un paso y un paso adelante al hacer que sus técnicas sean más compatibles, mejorando el comercio entre precisión y privacidad, y haciendo una plantilla formal que se utiliza para prácticamente cualquier algoritmo sin necesidad de acceder a los trabajos internos de este algoritmo.

El equipo utilizó su nueva versión de PAC Privacy para la privatización de varios algoritmos clásicos para el análisis de datos y las tareas de aprendizaje automático.

También demostró que los algoritmos más “estables” son fáciles de privatizar con sus procedimientos. Las predicciones de un algoritmo estable siguen siendo permanentes incluso cuando sus datos de entrenamiento se editan ligeramente. La máxima estabilidad ayuda a un algoritmo a hacer predicciones más precisas sobre los datos ya vistos.

Los investigadores dicen que el creciente desempeño del nuevo marco de privacidad del PAC, y la plantilla de cuatro pasos puede seguirlo, facilitará la implementación de la técnica en condiciones del mundo real.

“Consideramos el fortalecimiento y la privacidad para construir un algoritmo de alto rendimiento, o tal vez incluso irrelevante para el conflicto, o tal vez incluso contradiciendo. Primero, hacemos un algoritmo de trabajo, luego lo fortalecemos y luego privados.

Se ha unido a la disertación a través de Hanshin Xiao PhD ’24, que comenzará como profesora asistente en la Universidad de Pardo en otoño. Y el autor principal Srini Devdas, Edion Sabel Webster Profesor de Ingeniería Eléctrica. Esta investigación se presentará en el Simposio IEE sobre seguridad y privacidad.

Estimar

Para proteger los datos confidenciales, que se utilizó para entrenar el modelo de IA, los ingenieros a menudo agregan ruido, o PIN aleatorio general al modelo, por lo que es difícil para un oponente estimar los datos de entrenamiento reales. Reduce la precisión del modelo de ruido, por lo que se puede agregar bajo ruido, mucho mejor.

La privacidad de PAC estima automáticamente que alguien debe ser incluido en el algoritmo para lograr el nivel deseado de privacidad.

El PAC original opera el modelo de IA del usuario varias veces en varias muestras de la oportunidad de algoritmo de privacidad. También mide la conexión con muchas de estas consecuencias, así como la conexión y utiliza la información de cuánto ruido se debe agregar a la protección de datos.

Esta nueva variedad de PAC privacidad funciona de manera similar, pero no necesita representar la matriz completa de datos asociados con los datos en la salida. Solo necesita variaciones de salida.

“Dado que lo que está estimando es mucho más pequeño que toda la matriz de Co -Coin, puede hacerlo muy rápido, muy rápido”. Esto significa que alguien puede escalar a muchas datos.

Agregar ruido puede dañar la eficacia de los resultados y minimizar la pérdida de utilidad. Debido al costo computacional, el algoritmo original de PAC privacidad se limitó a agregar ruido isotrópico, que se incorpora igualmente en todas las direcciones. Dado que las características específicas de los datos de capacitación estiman la nueva variable, el usuario puede agregar menos ruido general para obtener privacidad al mismo nivel para promover la precisión del algoritmo de privatización.

Privacidad y estabilidad

Cuando estudió la privacidad del PAC, Sridhar la idea de que la privatización con esta técnica sería más fácil de algoritmo. Utilizó la forma más efectiva de privacidad de PAC para probar esta teoría en varios algoritmos clásicos.

Los algoritmos son más estables cuando sus datos de entrenamiento cambian ligeramente. PAC Privacy divide un DataState en piezas, ejecuta algoritmos en cada parte de los datos y mide la diferencia en los resultados. Cuanto más sea la diferencia entre la privatización del algoritmo y más diferencia, más ruido se debe agregar.

Ella afirma que usar técnicas de estabilidad para reducir la salida del algoritmo también reducirá la cantidad de ruido que debe agregarse para la privatización.

“En los mejores casos, podemos obtener estas victorias”.

El equipo demostró que sus garantías de privacidad se mantuvieron fuertes a pesar de su algoritmo, y que se necesitaban menos juicios para evaluar la nueva variedad de privacidad de PAC. También probó el método de ataque del ataque, que muestra que sus garantías de privacidad pueden contrarrestar los últimos ataques.

“Queremos saber cómo se puede diseñar el algoritmo con la privacidad del PAC, por lo que el algoritmo es estable, seguro y fuerte desde el principio”, dice Davidas. Los investigadores también quieren examinar sus procedimientos con algoritmos más complejos y encontrar más el comercio de privacidad.

“Ahora la pregunta es, ¿cuándo son estas condiciones ganadoras y cómo podemos hacerlas con más frecuencia?” Sridhar dice.

Source link