# Introducción al aprendizaje automático

Esta clase unirá la primera parte del curso, donde aprendimos sobre los lenguajes de bajo nivel, y la segunda parte, donde usamos lenguajes de programación de alto nivel.

Python, por ejemplo, se puede usar para escribir el *back-end* de un servidor web que toma peticiones, habla con una base de datos y devuelve una respuesta a un usuario.

Hoy usaremos Python como una herramienta para el análisis de datos, en el contexto del aprendizaje automático.

# Clasificación de imágenes

* Comencemos con los siguientes datos de entrenamiento, con el objetivo de crear un algoritmo que pueda reconocer los dígitos escritos a mano:

![](https://i.imgur.com/gKGtzdXg.png)

* Imaginemos una recta numérica, con dos grupos de puntos:

```
<--•--•-•----------------•-•-•-->
   0  0 0                6 6 6
```

* Podemos pensar en esto como datos de entrenamiento, y si se nos proporcionara un punto de prueba de la siguiente manera, ¿qué número pensaríamos que es?:

```
<--•--•-•--------------•-•-•-•-->
   0  0 0              ? 6 6 6
```

* - El principio que utilizamos para adivinar esto fue que el nuevo punto era el más cercano al grupo de otros 6, y este algoritmo se llama método de los k vecinos más cercanos.

* Incluso podemos analizar puntos en dos dimensiones, y hacer los mismo:

![](https://i.imgur.com/6GFp2HB.png)

* La pregunta ahora es cómo podríamos mapear imágenes de dígitos en el espacio, ya que a partir de ahí podemos encontrar los vecinos más cercanos de los puntos de prueba a nuestros puntos de datos de entrenamiento.

* En nuestro caso, vivimos en un espacio tridimensional, pero de manera similar podemos asignar puntos a espacios con aún más dimensiones.

* Con una imagen de un dígito, podemos asignar los valores de escala de grises de cada píxel a un número, y cada número a una dimensión:

![](https://i.imgur.com/lTnUYE8.png)

* Ahora podemos imaginar que, con nuestro algoritmo de los k vecinos más próximos, podemos graficar todos nuestros datos de entrenamiento como puntos y, dado un punto de prueba, podemos encontrar el punto de entrenamiento con la distancia más cercana.

# Los vecinos más próximos con Python

* Podemos abrir el CS50 IDE, y simplemente escribir `python` en nuestra terminal para obtener un intérprete.

* A partir de ahí, podemos escribir comandos simples:

In [None]:
x = 3
y = 5
x + y

In [None]:
x = 'a'
y = ' b'
x + y

* También podemos escribir un ciclo for simple:

In [None]:
for i in [3, 5, 7]:
    print(i)

* El proceso de entrenamiento de nuestro algoritmo anterior se llamó aprendizaje supervisado. En el aprendizaje supervisado, etiquetamos algunos datos de entrenamiento, algunos insumos, con resultados esperados.

* Comenzaremos por importar algunos módulos o "bibliotecas":

In [None]:
import numpy as np
import matplotlib.pyplot as plt
# Configurar matplotlib para incrustar las gráficas en las celdas de salida de este "notebook"
%matplotlib notebook

* Python es un lenguaje muy popular, y esto significa que obtenemos el beneficio de tener muchas bibliotecas escritas para nosotros que podemos importar.

* Comenzaremos creando algunos datos de entrenamiento:

In [None]:
X_train = np.array([[1,1], [2,2.5], [3,1.2], [5.5,6.3], [6,9], [7,6]]) # Definir un arreglo de numpy de puntos de dos dimensiones
Y_train = ['red', 'red', 'red', 'blue', 'blue', 'blue'] # Definir una lista nativa de Python de cadenas de caracteres

* - `X_train` son los puntos, y `Y_train` son las etiquetas para cada punto.

* Podemos pensar en `X_train` como una matriz bidimensional y también podemos acceder a elementos dentro de los elementos de la matriz:

In [None]:
print(X_train[5,0]) # Extraer la coordenada 0 del 5to punto del "arreglo"
print(X_train[5,1]) # Extraer la coordenada 1 del 5to punto del "arreglo"

* - Observe que Python es un lenguaje de programación con índices que inician desde 0, muy parecido a C.

* Python también tiene una sintaxis de corte o "slicing" que nos permite extraer múltiples elementos en una matriz a la vez:

In [None]:
print(X_train[:, 0]) # Extraer la 1ra coordenada (índice 0) de todos los elementos (:) en el arreglo X_train
print(X_train[:, 1]) # Extraer la 2da coordenada (índice 1) de todos los elementos (:) en el arreglo X_train

* Ahora podemos graficar estos puntos, con sus colores como etiquetas:

In [None]:
plt.figure() # Definimos una nueva figura
plt.scatter(X_train[:,0], X_train[:,1], s = 170, color = Y_train[:]) # Graficar los puntos con la sintaxis de slicing
plt.show() # Mostrar la figura

* - Podemos aprender de la documentación los parámetros para pasar a plt.scatter.

* Creemos y grafiquemos un punto de prueba:

In [None]:
X_test = np.array([3,4])
plt.figure() # Definir una nueva figura
plt.scatter(X_train[:,0], X_train[:,1], s = 170, color = Y_train[:])
plt.scatter(X_test[0], X_test[1], s = 170, color = 'green')
plt.show() # Mostrar la figura

* - Especificamos que este punto es verde, ya que no sabemos cuál debería ser su etiqueta.

* Para ejectuar el clasificador de los k vecinos más cercanos, primero debemos definir una función de distancia:

In [None]:
def dist(x, y):
    return np.sqrt(np.sum((x - y)**2)) # np.sqrt y np.sum son funciones para trabajar con "arreglos" de numpy

* Sabemos que nuestros puntos están en dos dimensiones, por lo que calculamos la distancia restando los valores de cada coordenada de dos puntos x e y, cuadrándolos, tomando su suma, y luego tomando la raíz cuadrada:

![](https://i.imgur.com/fNtYZrC.png)

* Ahora, para cada punto en nuestros datos de entrenamiento, podemos calcular su distancia al punto de prueba:

In [None]:
num = len(X_train) # Calcular el número de puntos en X_train
distance = np.zeros(num) # Inicializar un arreglo de numpy de ceros
for i in range(num):
    distance[i] = dist(X_train[i], X_test) # Calcular la distancia desde X_train[i] hasta X_test
print(distance)

* Obtenemos de regreso un "arreglo" de distancias.

* - Alternativamente, podemos usar una sintaxis de "vectorización" para aplicar una fórmula de distancia a las matrices directamente:

In [None]:
distance = np.sqrt(np.sum((X_train - X_test)**2, axis = 1)) # Sintaxis de vectorización
print(distance)

* Ahora podemos encontrar la distancia mínima y la etiqueta para ese punto:

In [None]:
min_index = np.argmin(distance) # Get the index with smallest distance
print(Y_train[min_index])

# Clasificación de imágenes con Python

* Ahora podemos aplicar estos principios al reconocimiento de dígitos escritos a mano.

* Primero, importamos `sklearn`, un módulo de Python para el aprendizaje automático. Este módulo viene con algunos conjuntos de datos estándar, como el conjunto de datos de dígitos.

In [None]:
from sklearn import datasets
digits = datasets.load_digits()

* El conjunto de datos de dígitos contiene 1797 imágenes que representan dígitos manuscritos, junto con etiquetas numéricas que representan el número verdadero asociado con cada imagen. `digits.images` es la matriz de imágenes, mientras que `digits.target` es la matriz de etiquetas.

* Cada elemento de la matriz `digits.images` es una matriz de píxeles 8 por 8, donde cada píxel es un número entero entre 0 y 16. Veamos cómo se ve la primera imagen, indexada por 0:

In [None]:
print(digits.images[0])

* ¿Puedes ver que lo anterior representa el número cero? Es más fácil si graficamos esta matriz asignando a cada número una intensidad de negro:

In [None]:
plt.figure()
plt.imshow(digits.images[0], cmap = plt.cm.gray_r, interpolation = 'nearest')
plt.show()

* Cada elemento en la matriz `digits.target` es una etiqueta numérica que representa el dígito asociado a la imagen respectiva:

In [None]:
print(digits.target[0])

* Crearemos un conjunto de datos de entrenamiento con solo 10 dígitos:

In [None]:
X_train = digits.data[0:10]
Y_train = digits.target[0:10]

* Luego escogemos un punto de prueba:

In [None]:
X_test = digits.data[345]

* Ahora usamos el mismo algoritmo que antes para encontrar el vecino más cercano a este punto de prueba, de todos los puntos en los datos de entrenamiento:

In [None]:
num = len(X_train) # Calcular el número de puntos en X_train
distance = np.zeros(num) # Inicializar un "arreglo" de ceros
for i in range(num):
    distance[i] = dist(X_train[i], X_test) # Calcular distancia desde X_train[i] hasta X_test
min_index = np.argmin(distance) # Obtener el índice con la distancia mínima
print(Y_train[min_index])

* Efectivamente, la etiqueta real para esta imagen es 3:

In [None]:
print(digits.target[min_index])

* We can write a small amount of code to test some more points:

In [None]:
num = len(X_train) # Obtener la longitud de nuestros datos de entrenamiento
errors = 0 # Contar el número de errores
distance = np.zeros(num) # Crear un "arreglo" de la longitud de X_trains, llenado con ceros
for j in range(1697, 1797):
    X_test = digits.data[j] # Probar valores en el rango [1697, 1797)
    for i in range(num):
        distance[i] = dist(X_train[i], X_test) # Calcular la distancia desde X_train[i] hasta X_test
    min_index = np.argmin(distance) # Obtener el índice de la distancia mínima
    if Y_train[min_index] != digits.target[j]: # Si la verdadera etiqueta no es el vecino más cercano, incrementar el número de errores
        errors += 1
print(errors)

* ¡Así que hemos incurrido en 37 errores de 100 imágenes en el conjunto de datos de prueba! No está mal para un algoritmo simple. Pero podemos hacerlo mucho mejor si ampliamos el conjunto de entrenamiento, como ahora vemos.

* Si modificamos los últimos pasos para usar 1000 imágenes como datos de entrenamiento, en oposición a 10, solo obtendremos 3 errores de esas 100 imágenes de prueba.

# Más clasificación de imágenes

* Podemos probar el mismo algoritmo en un conjunto de datos con miles de imágenes, cada uno etiquetado con el tema (avión, pájaro, gato, perro, etc.). Pero resulta que solo obtenemos ~30% de corrección con un clasificador de vecino más simple.

* Por ejemplo, el dígito 0 siempre aparece como 2D, en blanco y negro. Las imágenes de las muestras son de color, pero también pueden ser desde diferentes ángulos o puntos de vista.

* Los desafíos para el reconocimiento de imágenes incluyen los siguientes:

![](https://i.imgur.com/5QCjcAGg.png)

* Los algoritmos de reconocimiento de imágenes se pueden mejorar agrupando píxeles de una imagen en características, en un proceso llamado aprendizaje profundo:

![](https://i.imgur.com/WqYDmNm.png)

* Se necesita una gran cantidad de potencia computacional para estos algoritmos, y bibliotecas como TensorFlow ayudan a crear programas que usan el aprendizaje automático para resolver algún problema.

* Deep Dream Generator también encuentra patrones en las imágenes de entrada y los combina para que podamos obtener una foto mezclada con el estilo de una pintura.

* Con el aprendizaje profundo, podemos lograr aproximadamente el 95% de precisión con el reconocimiento de imágenes. Sin embargo, para aplicaciones como los autos sin conductor, esa precisión puede no ser suficiente.

* En un caso reciente, un Tesla con la función Autopilot no reconoció un camión remolque blanco contra un cielo muy iluminado, lo que provocó un accidente.

# *Text Clustering*

* También podemos intentar crear un algoritmo que tome sinopsis de películas y las agrupe.

* Podemos imaginar que los dramas pueden estar en un grupo y las animaciones de Disney en otro.

* Ahora nuestros datos no están etiquetados, por lo que utilizaremos el aprendizaje sin supervisión.

* Más específicamente, dado un conjunto de puntos no etiquetados, nuestro algoritmo los agrupará en k grupos, de la siguiente manera:

![](https://i.imgur.com/wMpz0K3.png)

* Este algoritmo se denomina k-means, cuyos detalles están más allá del alcance de esta clase.

* Pero desde un nivel alto, para hacer esto con las sinopsis de las películas, necesitamos convertir un bloque de texto en algún punto del espacio.

* Una estrategia es "bolsas de palabras", donde tenemos algunas cadenas, y marcamos la frecuencia en que aparece cada palabra:

![](https://i.imgur.com/C4sRL0X.png)

* Podemos mejorar esto usando la frecuencia fraccionaria de palabras en cada cadena, para normalizar las diferencias entre cadenas más cortas y más largas:

![](https://i.imgur.com/PIiyw4y.png)

* Entonces, podemos graficar cada cadena en un espacio n-dimensional, y ejecutar nuestro algoritmo k-means para agruparlas.

* Podemos demostrar esto creando algunos puntos, graficándolos con las mismas líneas que vimos antes:

In [None]:
import numpy as np
import matplotlib.pyplot as plt
# Configurar matplotlib para incrustar las gráficas en las celdas de salida de este "notebook"
%matplotlib notebook
X = np.array([[1,1], [2,2.5], [3,1.2], [5.5,6.3], [6,9], [7,6], [8,8]]) # Definir un "arreglo" de puntos de dos dimensiones
plt.figure()
plt.scatter(X[:,0], X[:,1], s = 170, color = 'black') # Graficar puntos con sintaxis de "slicing" X[:,0] and X[:,1]
plt.show()

* Podemos importar el algoritmo `k-means` del módulo `sklearn`, ejecutarlo y graficar los grupos y sus centros:

In [None]:
from sklearn.cluster import KMeans
k = 2 # Definir el número de grupos en los que queremos dividir nuestros datos
kmeans = KMeans(n_clusters = k) # Ejecutar el algoritmo kmeans
kmeans.fit(X);
centroids = kmeans.cluster_centers_ # Obtener las coordenadas del baricentro de cada grupo
labels = kmeans.labels_ # Obtener etiquetas asignadas a cada dato
colors = ['r.', 'g.'] # Definir dos colores para el gráfico de abajo
plt.figure()
for i in range(len(X)):
    plt.plot(X[i,0], X[i,1], colors[labels[i]], markersize = 30)
plt.scatter(centroids[:,0],centroids[:,1], marker = "x", s = 300, linewidths = 5) # Graficar baricentros
plt.show()

* Ahora podemos intentar agrupar algo de texto:

In [None]:
corpus = ['I love CS50. Staff is awesome, awesome, awesome!',
          'I have a dog and a cat.',
          'Best of CS50? Staff. And cakes. Ok, CS50 staff.',
          'My dog keeps chasing my cat. Dogs!'] # Esto representa una lista de cadenas en Python

* Importaremos otro componente de la biblioteca `sklearn` y lo usaremos para crear un diccionario, así como los recuentos de cada palabra en cada cadena:

In [None]:
# Crear la matriz de bolsa de palabras
from sklearn.feature_extraction.text import CountVectorizer
count_vect = CountVectorizer(stop_words = 'english')
Z = count_vect.fit_transform(corpus)
# La función fit_transform() toma como entrada una lista de cadenas y hace dos cosas:
# primero, "ajusta el modelo," es decir, construye el volabulario; segundo, transforma los datos en una matriz.

* Podemos echar un vistazo en el diccionario:

In [None]:
vocab = count_vect.get_feature_names()
print(vocab)

* Y podemos mirar la matriz Z de bolsas de palabras:

In [None]:
Z.todense() # Generar una matriz densa a partir de Z, la cual se almacena como un tipo de dato de matriz dispersa

* Pero una frecuencia normalizada de cada palabra, ponderada por su frecuencia absoluta (ya que las palabras comunes nos darán menos información sobre la agrupación de cadenas) será más precisa, por lo que utilizaremos una fórmula `tfidf` (Frecuencia de término por frecuencia de documento inversa) para obtener una matriz ponderada final:

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer(stop_words = 'english')
X = vectorizer.fit_transform(corpus)
X.todense()

* Ahora podemos ejecutar nuestro algoritmo `k-means` y mostrarnos cuáles son los términos principales de cada grupo:

In [None]:
k = 2 # Definir el número de grupos en los que queremos dividir nuestros datos
# Definir la noción correcta de distancia para trabajar con documentos
from sklearn.metrics.pairwise import cosine_similarity
dist = 1 - cosine_similarity(X)
# Correr el algoritmo KMeans
model = KMeans(n_clusters = k)
model.fit(X);

print("Términos más comunes por grupo:")
order_centroids = model.cluster_centers_.argsort()[:, ::-1]
terms = vectorizer.get_feature_names()
for i in range(k):
    print ("Grupo %i:" % i, end='')
    for ind in order_centroids[i, :3]:
        print (' %s,' % terms[ind], end='')
    print()