¡Machine Learning!. En resumidas cuentas, es el uso de estadística en forma automatizada para identificar patrones en grandes volúmenes de datos.
Dicho así suena poco emocionante, pero en la práctica el machine learning (de aquí en más ML) ha revolucionado unos cuantos campos debido a su creciente facilidad de uso y a su capacidad -en ciertos contextos- para predecir resultados con alta precisión.
Aquí mostraremos un ejemplo paso a paso de aplicación a un problema relativamente simple, un caso de clasificación binaria: sabiendo que los elementos de un grupo pertenecen a una u otra de dos categorías posibles, encontrar un método para identificar el grupo que les corresponde.
[leer más]
Code live from RStudio, and share it with the World in real time
COVID19 has changed plans, caused concern and altered habits o a planetary scale. Among so many other fields, on site teaching has been disrupted hard by social distancing, so now we are scrambling to set up remote learning alternatives. Things happened so fast lately that many of us were caught by surprise, and we are trying to figure out the best tool set (and state of mind!) to adapt our lessons for the online environment.
[leer más]
Compartiendo código en vivo con el mundo, desde RStudio.
El COVID19 ha cambiado planes, generado preocupación, y alterado hábitos a escala planetaria. Entre tantas actividades afectadas por el mandato del aislamiento social, la educación universitaria intenta continuar por medio de la enseñanza a distancia. Con la velocidad de los cambios que vivimos entre febrero y marzo de 2020, la suspensión de clases presenciales y la obligación de buscar métodos alternativos nos ha tomado a muchos por sorpresa.
A continuación voy a explicar la solución que he encontrado para facilitar la enseñanza de clases de R y Ciencia de Datos a Distancia.
[leer más]
DBSCAN: Machine Learning para detectar centros de actividad urbana
DBSCAN es un algoritmo de machine learning diseñado para detectar en forma automática “clusters”, es decir elementos próximos entre si de acuerdo a sus atributos en varias dimensiones.
A diferencia de otros algoritmos de clustering como KMeans, DBSCAN resulta muy adecuado para buscar patrones de agrupación en el espacio físico. Por ejemplo, en la distribución espacial de actividades humanas.
Como se ilustra debajo, entre varias alternativas DBSCAN es la única cuyos resultados aproximan los de un analista humano que estuviera clasificando puntos aglomerados en un mapa:
[leer más]
Taxis en Buenos Aires: mapas claros y negocios turbios
Hace unos meses, durante la Smart City Expo en Buenos Aires se organizó un Datatón bajo el título de “Un día en las ciudades a través de sus datos”. El evento fue organizado por los equipos de datos abiertos de la Nación, y la Ciudad y Provincia1 de Buenos Aires.
Con motivo del evento se hicieron públicos varios datasets con información urbana.
[leer más]
Analizando data de Airbnb en Buenos Aires
¡Airbnb! La plataforma de alquileres temporarios que aflije a autoridades municipales por doquier, formando junto a Uber la bestia de dos cabezas del capitalismo de platforma. Hasta hace unos años, en aquella era de inocencia, le llamábamos the sharing economy. Pero la ilusión de que al usar la plataforma estamos participando de algún acto sublime de compartir entre pares se ha esfumado, al punto que desde una de esas revistas “para hombres” se anuncia con soltura que cuando uno usa Airbnb en verdad está matando una ciudad que ama.
[leer más]
Predicción de demanda de servicios urbanos con open data + Facebook Prophet
De todos los datasets que publica el portal de Open Data de Buenos Aires, mi favorito es sin dudas el que contiene los reclamos registrados por el Sistema Único de Atención Ciudadana (SUACI). El SUACI, también llamado BA 147, equivale a lo que en otras latitudes se conoce como servicio 311. El 311 es el número telefónico, complementado por un servicio web y en general una app también, al que los ciudadanos recurren para realizar reclamos al gobierno de la ciudad.
[leer más]
Visualizando con R el historial de ubicaciones de Google (parte III)
En la entrega anterior, seguimos el rastro del usuario a través de las calles, y descubrimos donde vive.
Como cierre, vamos a visualizar los vuelos con los que el usuario conectó las ciudades por donde estuvo.
Para reproducir los resultados, recomiendo correr antes el código de la parte I, que deja preparados los sets de datos que vamos a utilizar aquí.
Identificando vuelos Durante los ejercicios anteriores, notamos que los datos contienen ubicaciones registradas a ambos lados del Atlántico.
[leer más]
Visualizando con R el historial de ubicaciones de Google (parte II)
En la parte I, vimos cómo descargar, limpiar y comenzar a visualizar los datos de nuestra ubicación que Google guarda cuando usamos servicios de la compañía. Hasta aquí nos habíamos concentrado en clasificar los datos según el tiempo y según los países visitados.
Ahora vamos a poner nuestra atención en el interior de las ciudades, para seguir los rastros que dejamos al recorrer las calles.
Para reproducir los resultados, recomiendo correr antes el código de la parte I, que deja preparados los sets de datos que vamos a utilizar aquí.
[leer más]
Visualizando con R el historial de ubicaciones de Google (parte I)
La irrupción de computadoras llenas de sensores que viajan el bolsillo de cada ciudadano -nuestros celulares- ha sido de sobra aprovechada por Google. Si no nos tomamos la molestia de inhabilitar funciones de localización activas de fábrica, todos los usuarios de celulares Android reportamos a Google nuestra posición, en forma constante. Y los usuarios de iPhones también, cuando usan servicios de la compañía en sus teléfonos.
A esta altura, ya todos sabemos que Google es una compañía bastante creepy.
[leer más]