Google Colab: Tips para principiantes

Source: Deep Learning on Medium


Google Colaboratory es un entorno de máquinas virtuales basado en Jupyter Notebooks.

Se pueden correr en la nube, es posible elegir correr nuestro notebook en una CPU, GPU o en una TPU de forma gratuita. Tiene algunas restricciones, como por ejemplo que una sesión dura 12 horas, pasado ese tiempo se limpia nuestro ambiente y perdemos las variables y archivos que tengamos almacenados allí.

Son muy convenientes para principiantes que quieran experimentar con machine learning y deep learning pero sin incurrir en costos de procesamiento cloud. Además, el ambiente de trabajo ya viene con muchas librerías instaladas listas para utilizar, como por ejemplo Tensorflow, ahorrándonos el trabajo de setup de nuestro ambiente de desarrollo.

Tipos de celdas

Igual que en Jupyter Notebook disponemos de celdas de código y celdas markdown o de texto.

Para insertar celdas, si colocamos el cursor entre medio de dos celdas nos aparece la opción de agregar celdas de texto o código como se ve en la siguiente imagen. También podemos hacerlo desde el menú Insertar, o desde los botones de más código y texto en la barra superior.

Una funcionalidad interesante de las Colab es la posibilidad de agregar una celda de código temporal. La insertamos desde el menú Insertar, se despliegan como una ventana auxiliar en el navegador como se ve en la siguiente imagen. Resulta muy útil para realizar pruebas rápidas sin agregar celdas extra en nuestro notebook.

¿Cómo utilizar datasets en Colab?

Una de las primeras cosas que vamos a querer hacer es utilizar nuestros datasets en el notebook. Existen varias formas de realizarlo.

Importar desde Google Drive
Una manera simple de hacerlo es importando los archivos desde Google Drive. En Colab tenemos disponibles fragmentos de código que resuelven esta integración con Drive.

Es recomendable investigar el resto de los snippets de código proporcionados, están allí resueltas varias tareas usuales de manejo de archivos y hasta de visualizaciones.

Importar desde Github
Una alternativa muy cómoda es importar nuestros datasets a Colab desde un repositorio git alojado por ejemplo en Github (o Bitbucket). Podemos clonar el repositorio a nuestro espacio de trabajo simplemente con la siguiente línea:

! git clone https://bitbucket.org/yourUsername/yourRepository.git

También es posible navegar en el directorio de trabajo desde el notebook, por ejemplo para borrar una carpeta como se muestra en la siguiente imagen.

Cómo importar funciones propias desde archivos .py

Para no sobrecargar nuestra notebook y reutilizar funciones de un notebook a otro, es deseable mantener código con determinadas funciones en archivos Python separados. En las Jupyter Notebook usualmente importamos archivos .py con diferentes funciones auxiliares, esto también es posible en Colab.

Puedo realizarlo como se muestra en el siguiente fragmento de código. Se debe clonar un repositorio de git que contenga un archivo (filename.py en el ejemplo) con las funciones que quiero utilizar.

! git clone https://bitbucket.org/yourUsername/yourRepository.git
import sys
sys.path.append('yourRepository')
from filename import FunctionName

Si te interesa conocer más sobre inteligencia artificial y experimentar con este tipo de notebooks, dictamos capacitaciones y workshops hands-on en Latinoamérica.

No dudes en contactarnos: www.botia.io (info@botia.io)