Cómo hacer que sus datos y modelos sean interpretables aprendiendo de la ciencia cognitiva

(Esta publicación acompaña una charla que Been Kim dio en South Park Commons sobre aprendizaje automático interpretable. Si desea los detalles técnicos de la propia Been Kim, vea el video y los documentos al final de esta publicación).

Introducción: la mayoría de los modelos de aprendizaje automático son inescrutables. ¿Qué podemos hacer?

Es una verdad desafortunada del aprendizaje automático moderno: incluso si su modelo funciona perfectamente en la métrica para la que optimizó, no hay garantía de que esté contento con su rendimiento en el mundo real.

Claro, la precisión del conjunto de prueba es excelente. Pero es posible que no haya notado que los errores que comete se concentran en categorías que son importantes para no equivocarse (como etiquetar a los negros como gorilas). Puede reforzar los prejuicios discriminatorios porque no codificó la justicia en su función objetivo (Bolukbasi et al. 2016). Puede fallar espectacularmente si el entorno del mundo real difiere imperceptiblemente del entorno de prueba (ejemplos adversos, por ejemplo, Goodfellow et al.2014). O puede satisfacer la carta de su solicitud, pero definitivamente no el espíritu (https://blog.openai.com/faulty-reward-functions/).

Izquierda: los clasificadores con una baja tasa de error general aún pueden cometer errores atroces, como etiquetar erróneamente a los negros como Izquierda: los clasificadores pueden fallar espectacularmente ante modificaciones imperceptibles (https://arxiv.org/abs/1412.6572). Derecha: los agentes capacitados en el aprendizaje por refuerzo harán lo que gane la mayor recompensa, no lo que sea que haya querido incentivar (https://blog.openai.com/faulty-reward-functions/).

El problema es que una sola métrica, como la precisión de la clasificación, es una descripción incompleta de la mayoría de las tareas del mundo real (Doshi-Velez y Kim 2017). Otros resultados importantes, como la equidad, la privacidad, la seguridad o la usabilidad, no se capturan en simples métricas de rendimiento.

A medida que continuamos implementando ML en más y más aplicaciones del mundo real, los resultados no deseados tienen el potencial de volverse cada vez más problemáticos para la sociedad (como lo discutió la iniciativa AINow, el Future of Life Institute y otros grupos). ¿Qué podemos hacer?

Interpretabilidad: un camino hacia adelante

Una línea de investigación para abordar estas dificultades es diseñar modelos explicables o interpretables. La capacidad de comprender qué ejemplos está obteniendo el modelo correcto o incorrecto, y cómo está obteniendo las respuestas que obtiene, podría ayudar a los usuarios de los sistemas de ML a notar brechas importantes entre la descripción formal del problema y los resultados deseados del mundo real.

En los últimos años, los investigadores han comenzado talleres y conferencias sobre la interpretabilidad del modelo, como el taller de NIPS Interpretable ML y la conferencia de Equidad, Responsabilidad y Transparencia (FAT *). Los financiadores y los reguladores también están buscando la explicabilidad como una solución, desde la reciente legislación de la UE sobre el derecho a la explicación hasta el programa de IA explicable de DARPA.

El programa XAI de DARPA busca

Been Kim: volver a poner lo "humano" en "interpretable por el ser humano"

Been Kim es un científico investigador que construye modelos ML interpretables en la Iniciativa de Investigación People + AI en Google Brain. En su reciente charla en la serie de altavoces AI de South Park Commons, presentó una serie de métodos que utilizan el razonamiento basado en ejemplos inspirados por la ciencia cognitiva de la toma de decisiones humanas, y demostró que son más fáciles de predecir y colaborar con los humanos.

A diferencia de otros enfoques, el trabajo de Kim está inspirado explícitamente en la ciencia cognitiva del razonamiento humano. Específicamente: el razonamiento humano a menudo se basa en prototipos, utilizando ejemplos representativos como base para la categorización y la toma de decisiones. Del mismo modo, los modelos de Kim utilizan ejemplos representativos para explicar y agrupar datos.

A lo largo de la charla de Kim, las afirmaciones de "interpretabilidad" se respaldaron con datos experimentales que muestran resultados deseados concretos, por ejemplo, que los usuarios pueden predecir de manera más consistente los resultados del modelo o que otorgan una calificación de satisfacción subjetiva más alta.

En el resto de esta publicación, explicaré los dos métodos principales que mostró Been Kim durante su charla:

El primer método, llamado MMD-Critic (Máxima discrepancia media), no es en sí mismo un modelo ML, sino más bien una forma de comprender los datos en sí. Es un método no supervisado que se puede aplicar a un conjunto de datos sin etiquetar o a categorías individuales dentro de un conjunto de datos etiquetado.

El segundo método, llamado Modelo de Caso Bayesiano (BCM), es un método de aprendizaje no supervisado que aprovecha los prototipos y las características dispersas para que sean más interpretables sin pérdida de potencia en comparación con los métodos estándar. Kim también demuestra que los BCM son más fáciles para que los humanos colaboren, al incorporar un modelo interactivo de BCM en la tarea de calificar las tareas del curso.

Daré una breve descripción de cómo funcionan MMD-Critic y BCM. Si quieres más detalles de los que proporciono aquí, definitivamente deberías ver los videos y documentos al final de esta publicación.

MMD-crítico: uso de prototipos y críticas para ver sus datos

Un refrán común entre los asesores de los aprendices de análisis de datos es "¡mirar sus datos!" En lugar de saltar ciegamente al ajuste del modelo. Este es un gran consejo. La confianza excesiva en las estadísticas de resumen puede enmascarar distribuciones de entradas extrañas, tuberías de datos rotas o suposiciones erróneas. Preferentemente alcanzar un marco de modelado cuando los datos sin procesar son un desastre es una receta principal para "basura adentro, basura afuera".

Dicho esto, ¿cómo exactamente debes mirar tus datos? Si sus datos consisten en miles de imágenes, no puede verlas todas. ¿Deberías mirar la imagen 000001.png a través de 000025.png y llamar eso lo suficientemente bueno?

Categorización basada en ejemplos

Para responder a esta pregunta, Kim se inspiró en la ciencia cognitiva de cómo los humanos entienden las categorías. Específicamente, la categorización humana se puede modelar usando prototipos: ejemplos que son representativos de la categoría en su conjunto. La pertenencia a la categoría de un elemento está determinada por su similitud con los prototipos de la categoría. (ver https://en.wikipedia.org/wiki/Prototype_theory y https://en.wikipedia.org/wiki/Recognition_primed_decision para más detalles sobre la ciencia cognitiva)

Una desventaja del razonamiento basado en prototipos es que es propenso a la generalización excesiva. Es decir, se supone que las propiedades de los miembros prototípicos se comparten universalmente entre el grupo, incluso si hay una variación sustancial dentro del grupo. Una técnica que puede ayudar a evitar la generalización excesiva es mostrar excepciones o críticas a la regla: puntos de datos minoritarios que difieren sustancialmente del prototipo, pero que, sin embargo, pertenecen a la categoría.

Por ejemplo, la distribución de imágenes de gatos consiste principalmente en gatos solos sentados, de pie o acostados. Sin embargo, la imagen de un gato tumbado sobre un teclado boca arriba, usando un disfraz o escondiéndose dentro de una bolsa sigue siendo una imagen de gato, aunque difiere sustancialmente de las imágenes prototípicas. En particular, estos ejemplos inusuales son minorías importantes, en lugar de valores atípicos solitarios. Hay muchas imágenes de gatos que muestran posiciones y disfraces atípicos, por lo que estas imágenes son importantes para comprender completamente las imágenes de gatos.

Las imágenes prototípicas de gatos pueden incluir vistas comunes de gatos (sentados, de pie o acostados) y coloraciones comunes.Las críticas pueden incluir puntos de vista poco comunes de los gatos: tumbados sobre un teclado, vestidos con un disfraz o escondidos en una bolsa. Aunque estos puntos de vista son atípicos, todavía son imágenes de gatos y deben incluirse en la categoría. Mostrar críticas como estas puede prevenir la generalización excesiva.

Algoritmo MMD-crítico

Kim y col. desarrolló un algoritmo no supervisado para encontrar automáticamente prototipos y críticas para un conjunto de datos, llamado MMD-critico. Cuando se aplica a datos sin etiquetar, encuentra prototipos y críticas que caracterizan el conjunto de datos como un todo. También se puede usar para visualizar una categoría de imágenes dentro de un conjunto de datos etiquetado.

El algoritmo crítico de MMD funciona en dos etapas: primero, los prototipos se seleccionan para que el conjunto de prototipos sea similar al conjunto de datos completo. La máxima discrepancia media (MMD) se refiere a la forma específica de medir la diferencia entre la distribución del prototipo y la distribución de datos completa. En segundo lugar, las críticas se seleccionan de partes del conjunto de datos que están subrepresentadas por los prototipos, con una restricción adicional para garantizar que las críticas sean diversas. El resultado de este método es un conjunto de prototipos que son típicos del conjunto de datos en su conjunto, y un conjunto de críticas que identifican grandes partes del conjunto de datos que difieren más de los prototipos.

Si desea probar MMD-Critic con sus propios datos, hay una implementación disponible en https://github.com/BeenKim/MMD-critic.

Cuando MMD-critic se aplica al conjunto de datos de números USPS (en espacio de píxeles sin procesar), los prototipos se ven como dígitos ordinarios, mientras que las críticas incluyen líneas horizontales, dígitos extra gruesos y dígitos débiles. Tenga en cuenta que los prototipos están en orden numérico simplemente por el bien de la visualización; el método crítico de MMD no utilizó las etiquetas de categoría de ninguna manera.MMD-critical también se puede aplicar a representaciones de datos intermedios que han pasado por una etapa de inclusión o una parte de un modelo más grande. Aquí, se visualiza una sola categoría de ImageNet después de pasar por una incrustación de imágenes. En este espacio de representación, las imágenes frontales a todo color son prototípicas de esta categoría, mientras que las imágenes en blanco y negro y los ángulos de visión extraños son excepciones.

Estudio piloto con sujetos humanos.

Para validar el método crítico de MMD, Kim organizó un pequeño estudio piloto en el que sujetos humanos realizaron una tarea de categorización. A los usuarios se les mostró una imagen de un animal, y se les pidió que pronosticaran de qué subgrupo provenía (por ejemplo, si se les mostrara un perro, tendrían que clasificarlo como raza 1 o raza 2, según el ejemplo imágenes de cada raza).

A los usuarios se les dio esta tarea en cuatro condiciones diferentes, que mostraron miembros de grupos de ejemplo de diferentes maneras: 1) todas las imágenes en cada grupo (200–300 de ellas); 2) solo los prototipos; 3) prototipos y críticas, y 4) una selección aleatoria de imágenes de cada grupo, con el mismo número de imágenes que la condición 3.

En sus resultados piloto, Kim encontró evidencia de que:

  1. Ver solo los prototipos de cada grupo permitió a los usuarios hacer predicciones más precisas y más eficientes en el tiempo, en comparación con la visualización de todos los miembros del grupo o un subconjunto aleatorio.
  2. La inclusión de críticas mejora la precisión sobre los prototipos solos, a un bajo costo para la eficiencia del tiempo.
  3. Ver un subconjunto aleatorio de imágenes es el menos preciso y el menos eficiente.
Se pidió a los usuarios que asignaran imágenes de animales al Ver los prototipos permitió a los usuarios hacer predicciones más precisas y más eficientes, en comparación con la visualización de todos los datos o un subconjunto aleatorio. La inclusión de críticas mejoró la precisión sobre los prototipos solo, a un bajo costo para la eficiencia.

Modelo de caso bayesiano (BCM): agrupación inspirada en ciencia ficción

Una selección de prototipos y críticas puede proporcionar información sobre un conjunto de datos, pero no es en sí mismo un modelo de aprendizaje automático. ¿Cómo puede extenderse el razonamiento basado en prototipos a un modelo ML completo y operativo?

El segundo de los dos modelos que Been Kim presentó en su charla fue un nuevo tipo de modelo de mezcla, diseñado para incorporar la interpretabilidad del razonamiento basado en casos sin ninguna pérdida de rendimiento sobre los modelos de mezcla estándar.

Para entender el modelo de caso bayesiano como una aplicación de "razonamiento basado en casos" a "modelos de mezcla", es útil aclarar a qué se refieren esos términos:

  • El razonamiento basado en casos es un método de razonamiento humano para la resolución de problemas del mundo real. Los ejemplos vistos anteriormente se utilizan como un andamio para resolver problemas nuevos. Se identifican las características relevantes que relacionan el viejo problema con el nuevo problema, y ​​las estrategias anteriores de resolución de problemas se reutilizan y revisan. Esto es más que un simple procedimiento formal de resolución de problemas; También es una descripción del razonamiento humano informal y cotidiano.
  • Un modelo de mezcla es un tipo de modelo generativo para el aprendizaje no supervisado. Las características de una distribución de datos se modelan como derivadas de una mezcla de fuentes subyacentes (como temas, subpoblaciones o grupos) que se infieren pero no se observan directamente. La adaptación de un modelo de mezcla a un conjunto de datos observado es una forma de aprendizaje no supervisado. Las fuentes subyacentes identificadas pueden inspeccionarse directamente para obtener información sobre la estructura subyacente de los datos, o usarse como base para un análisis de agrupamiento. (Para obtener más información, consulte Wikipedia sobre modelos de mezcla, más esta explicación sobre cómo los modelos de mezcla difieren de los modelos de mezcla)

Para comprender la diferencia en la interpretabilidad entre un modelo de mezcla tradicional como la Asignación de Dirichlet Latente (LDA) y el Modelo de Caso Bayesiano (BCM) que presentó Kim, considere la siguiente figura de Kim 2015:

Mientras que los modelos de mezcla típicos como LDA (centro) representan cada grupo como una lista de probabilidades de características, un modelo de caso bayesiano (derecha) usa un identificador más accesible cognitivamente para cada grupo: un solo ejemplo como prototipo para ese grupo, junto con la orientación sobre cuál de las características del prototipo es importante prestar atención.

En este ejemplo, se analizó un conjunto de datos hipotéticos de caras de dibujos animados con diferentes formas, colores, ojos y bocas utilizando un modelo de mezcla, y se descubrieron tres grupos subyacentes (columna izquierda). LDA y BCM descubrirían grupos subyacentes similares; solo difieren en cómo se representan los grupos. BCM representa los grupos en un formato más interpretable, sin ninguna pérdida de poder de representación.

Un modelo típico de mezcla (columna central, LDA) representaría las identidades de los tres grupos como una larga lista de probabilidades de características: 26% de probabilidad de color verde, 23% de probabilidad de forma cuadrada, etc. Esto puede ser difícil de interpretar para los humanos. porque proporciona una lista exhaustiva de valores continuos, en lugar de un manejo conciso y memorable para el grupo (ver la discusión de Doshi-Velez y Kim 2017 sobre "fragmentos cognitivos"). Por el contrario, un modelo de caso bayesiano representaría cada grupo utilizando 1) un ejemplo prototípico de un miembro de clase representativo (columna derecha, "prototipo") y 2) un subespacio de las características del prototipo que son realmente importantes para la membresía del grupo (columna derecha , "Subespacios"). Esto proporciona un identificador más accesible desde el punto de vista cognitivo para cada grupo: un solo ejemplo como prototipo, junto con una guía sobre a qué características del prototipo es importante prestar atención.

El grupo de

Evaluar el BCM usando un sistema de calificación interactivo

Al evaluar la interpretabilidad en este caso, Kim se centró en la capacidad de los usuarios para colaborar con el modelo al alterarlo de forma interactiva.

Creó una extensión interactiva basada en BCM para OverCode (http://people.csail.mit.edu/elg/overcode), un sistema que utiliza análisis de conglomerados para permitir a los instructores visualizar miles de soluciones de programación. La extensión interactiva permitió a los instructores manipular directamente los clústeres seleccionando qué presentaciones deben usarse como prototipos del BCM y qué palabras clave son subespacios importantes para cada prototipo.

Cuando los instructores tuvieron la tarea de usar el sistema interactivo BCM para seleccionar un conjunto de ejemplos para revisar en una recitación, informaron que estaban más satisfechos, exploraron mejor el espectro completo de los envíos de los estudiantes y descubrieron características y prototipos más útiles (p < 0.001), en comparación con una versión no interactiva.

La extensión interactiva de BCM para OverCode demuestra la flexibilidad de los modelos de mezclas inspirados cognitivamente. Debido a que los grupos del modelo se definen utilizando un razonamiento basado en casos similar a los humanos, los usuarios pueden manipular el modelo de manera interactiva para incorporar su propia experiencia relevante en el dominio.

El camino por delante

Durante las preguntas y respuestas, Kim dio una idea de algunos desafíos futuros interesantes que ML interpretable ha dejado de abordar:

  1. Los ejemplos no son la respuesta final a todo. Por ejemplo, en la investigación médica, los investigadores quieren descubrir nuevos patrones que aún no pueden ver o notar. Un ejemplo de un paciente representativo podría provocar una reacción de “Sé todo sobre este paciente; ¿Y qué?"
  2. No puede esperar que un humano entienda o prediga lo que hará un sistema con un rendimiento superhumano, casi por definición. La concepción de la interpretabilidad de una manera que se reduce a la predicción humana ya no será directamente útil una vez que los sistemas excedan nuestra capacidad de predecir sus acciones. Dicho esto, Kim cree que la interpretabilidad seguirá siendo relevante para los sistemas sobrehumanos. Incluso si no pueden entenderse holísticamente, todavía existe la posibilidad de comprender localmente, para un único punto de datos, por qué la decisión se tomó de cierta manera.

Conclusión / resumen

Quité las siguientes conclusiones principales de la charla de Been Kim:

  • Cuando observe sus datos sin procesar, concéntrese en ejemplos prototípicos si desea una forma más eficiente y precisa de ver sus datos que una muestra aleatoria. Además, para tener una idea máximamente precisa de la diversidad de sus datos, incluya críticas.
  • Para garantizar que sus usuarios puedan colaborar con sus modelos, considere adaptar los modelos a las peculiaridades de la cognición humana. Si su sistema piensa de la manera en que lo hacen sus usuarios, es probable que sus usuarios puedan transmitir mejor sus conocimientos al sistema.
  • "Interpretabilidad" tiene muchos significados. Defina sus objetivos claramente para su aplicación específica y realice experimentos con sujetos humanos para verificar que su modelo logre los resultados de usuario que buscaba.

A medida que los sistemas de ML se vuelven cada vez más potentes, será cada vez más importante para nosotros tener confianza en lo que hacen. Y para que esa confianza esté bien fundada y no se pierda, necesitaremos tener en cuenta lo que significa para un ser humano específicamente "tener confianza", "confiar" o "entender". Nuestra capacidad de atención es limitada y nuestras capacidades cognitivas son idiosincráticas e inevitablemente humanas. Si queremos comprender verdaderamente los sistemas de ML del futuro y de hoy, tendremos que dar cuenta de nuestro propio proceso de comprensión.

Este es un resumen de una charla que Been Kim dio en la serie de altavoces AI de South Park Commons titulada “Modelos de aprendizaje automático interactivos e interpretables” Imágenes y video de la charla brindada por Google y utilizada con permiso.

Apéndice: video completo, diapositivas, documentos y código

  • Talk diapositivas para descargar
  • Video completo a continuación:

MMD-Recursos críticos:

  • Los ejemplos no son suficientes, ¡aprende a criticar! Críticas a la interpretabilidad. Kim, Khanna y Koyejo, NIPS 2016.
  • Código de Github: https://github.com/BeenKim/MMD-critic
  • Presentación oral de NIPS: diapositivas y charla de 15 minutos

Papeles y código de BCM:

  • El modelo de caso bayesiano: un enfoque generativo para el razonamiento basado en casos y la clasificación de prototipos. Kim, Rudin y Shah, NIPS 2014.
  • iBCM: modelo de caso bayesiano interactivo que empodera a los humanos a través de la interacción intuitiva. Kim, Glassman, Johnson y Shah, MIT CSAIL TR 2015.
  • Código: https://users.cs.duke.edu/~cynthia/code/BCM.zip

Documentos relacionados:

  • Hacia una ciencia rigurosa del aprendizaje automático interpretable. Doshi-Velez y Kim 2017