Microsoft Fabric Lakehouse es una plataforma de arquitectura de datos que ofrece la capacidad de almacenar, gestionar y analizar tanto datos estructurados como no estructurados en un único lugar. Esta solución altamente adaptable y escalable permite a las organizaciones tener el control sobre grandes volúmenes de datos mediante diversas herramientas y marcos de trabajo, los cuales facilitan el procesamiento y análisis de dicha información. Además, se integra de forma fluida con otras herramientas de análisis y gestión de datos, proporcionando una solución completa para el procesamiento y análisis de datos en una única ubicación.
Lakehouse es una forma de almacenar y procesar datos que crea una capa de servicio para hacer más fácil y rápido trabajar con ellos. Imagina que es como construir una casa en la orilla de un lago. Cuando creas esta capa de servicio, automáticamente se genera una forma de acceder a los datos usando SQL y se crea un conjunto de datos predeterminado.
Esto significa que los usuarios pueden trabajar directamente con las tablas de datos en el lago sin problemas, desde el momento en que los datos se ingresan hasta el momento en que se generan informes. Es como tener un camino directo para trabajar con los datos sin tener que preocuparse por otros obstáculos.
Es importante entender que esta capa de servicio tiene algunas limitaciones. Por ejemplo, solo se pueden hacer consultas de lectura, lo que significa que no se pueden hacer cambios o actualizaciones en los datos almacenados. También es importante tener en cuenta que solo se pueden consultar tablas en el formato Delta, y no se pueden consultar otros formatos como Parquet o CSV utilizando esta capa de servicio. Si una tabla no está disponible, es necesario convertirla al formato Delta para poder consultarla.
El histograma es una representación visual que muestra la distribución de frecuencia de los datos en forma de barras. Cada barra representa un intervalo de valores y su altura indica la cantidad de datos que caen en ese intervalo. Es una herramienta útil para identificar patrones, tendencias y valores atípicos en un conjunto de datos, permitiendo una comprensión rápida y visual de la distribución de los mismos.
Identificación de la distribución de edades: El histograma permite visualizar cómo se distribuyen las edades en un conjunto de datos. Esto puede revelar si la distribución es simétrica, sesgada hacia un extremo o si hay agrupamientos o brechas significativas en ciertos rangos de edad. Esta información proporciona una comprensión fundamental de la estructura de edades dentro de una población o muestra. El uso de Histograma para analizar rangos o grupos de edades son:
Análisis de tendencias y patrones: Al observar la forma y la altura de las barras en el histograma, es posible identificar tendencias o patrones específicos en relación con las edades. Por ejemplo, podría revelar si hay una concentración de personas en determinados grupos de edad, como una generación específica o un rango etario dominante. También puede ayudar a identificar grupos de edad más pequeños o inusuales que pueden requerir una atención especial.
Detección de anomalías o valores atípicos: El histograma puede mostrar si hay valores atípicos o edades inusuales en el conjunto de datos. Estos valores atípicos pueden indicar situaciones inusuales o excepcionales que podrían requerir un análisis más detallado. Por ejemplo, podrían identificarse casos de personas extremadamente jóvenes o mayores en comparación con la mayoría de la población.
Segmentación de grupos demográficos: El análisis de edades mediante un histograma permite segmentar la población en grupos demográficos más específicos. Esto es útil para comprender las características y necesidades particulares de diferentes cohortes de edad, lo que puede tener implicaciones importantes para el desarrollo de estrategias de marketing, políticas públicas, productos o servicios dirigidos a segmentos de edad específicos.
Microsoft Fabric es una plataforma completa y unificada de análisis que combina todas las herramientas y datos necesarios para las organizaciones. Fabric integra tecnologías como Azure Data Factory, Azure Synapse Analytics y Power BI en un único producto, lo que permite a los profesionales de datos y negocios aprovechar al máximo su información y establecer las bases para la era de la inteligencia artificial.
Cada proyecto de análisis requiere diferentes capacidades en varios subsistemas, lo que puede resultar en la necesidad de productos de diferentes proveedores. Esta integración puede ser complicada, frágil y costosa. Sin embargo, con Fabric, los clientes pueden utilizar un solo producto que ofrece una experiencia y arquitectura unificadas.
Esto proporciona todas las capacidades necesarias para que los desarrolladores extraigan información de los datos y la presenten a los usuarios comerciales. Además, al ser un servicio en la nube, todo se integra y optimiza automáticamente, lo que permite a los usuarios registrarse rápidamente y obtener valor comercial en cuestión de minutos.
Fabric capacita a cada equipo involucrado en el análisis al proporcionarles experiencias específicas según su rol, para que ingenieros, profesionales de almacenamiento, científicos de datos, analistas y usuarios empresariales se sientan cómodos y puedan aprovechar al máximo la plataforma.
Fabric viene con siete cargas de trabajo principales:
Data Factory proporciona más de 150 conectores a fuentes de datos locales y en la nube, experiencias de arrastrar y soltar para la transformación de datos y la capacidad de orquestar canalizaciones de datos.
Synapse Data Engineering permite excelentes experiencias de creación para Spark, inicio instantáneo con grupos en vivo y la capacidad de colaborar.
Synapse Data Science proporciona un flujo de trabajo integral para que los científicos de datos construyan modelos sofisticados de IA, colaboren con facilidad y entrenen, implementen y administren modelos de aprendizaje automático.
Synapse Data Warehousing proporciona una experiencia de almacén de datos y casa del lago convergentes con un rendimiento de SQL líder en la industria en formatos de datos abiertos.
Synapse Real-Time Analytics permite a los desarrolladores trabajar con transmisión de datos desde dispositivos de Internet de las cosas (IoT), telemetría, registros y más, y analizar volúmenes masivos de datos semiestructurados con alto rendimiento y baja latencia.
Power BI en Fabric proporciona visualización líder en la industria y análisis impulsados por IA que permiten a los analistas comerciales y usuarios comerciales obtener información de los datos. La experiencia de Power BI también está integrada de manera profunda en Microsoft 365, lo que brinda información relevante donde los usuarios comerciales ya trabajan.
Data Activator brinda detección y monitoreo de datos en tiempo real y puede desencadenar notificaciones y acciones cuando encuentra patrones específicos en los datos, todo en una experiencia sin código.
Las TABLAS en Power BI es presentar datos de manera organizada y estructurada en filas y columnas. Las tablas son particularmente útiles cuando se necesita mostrar información detallada y permitir la interacción con los datos.
Al utilizar tablas en Power BI, puedes lograr varios objetivos:
Presentar datos en un formato tabular: Las tablas permiten mostrar datos en una estructura familiar similar a una hoja de cálculo, donde cada fila representa una entrada individual y cada columna muestra un atributo o medida.
Facilitar la búsqueda y exploración de datos: Las tablas brindan una forma eficiente de buscar información específica mediante la capacidad de filtrar, ordenar y realizar búsquedas dentro de los datos. Esto permite a los usuarios navegar y encontrar rápidamente la información que necesitan.
Mostrar detalles adicionales: Si los gráficos o visualizaciones más grandes no proporcionan suficiente detalle, las tablas pueden usarse para mostrar datos a un nivel más granular. Esto es especialmente útil cuando se necesita acceder a datos específicos o examinar registros individuales.
Complementar otras visualizaciones: Las tablas pueden funcionar como un complemento para otros tipos de visualizaciones, como gráficos o mapas. Puedes utilizarlas para mostrar datos subyacentes o permitir la exploración detallada de los resultados presentados en otras visualizaciones.
Personalización y formateo: Power BI ofrece diversas opciones para personalizar el aspecto y el formato de las tablas. Puedes aplicar formatos condicionales, agregar iconos, resaltar valores importantes y ajustar el diseño para que se ajuste a tus necesidades y preferencias.
Como científico de datos, se te ha encomendado realizar un análisis para determinar la relación entre la producción de trigo (variable X) y el precio de la harina (variable Y). Esta información es importante para comprender cómo la oferta de trigo afecta el precio de la harina en el mercado, lo que podría tener implicaciones significativas para la toma de decisiones empresariales.
Análisis:
Los resultados del análisis muestran los siguientes valores:
Coeficiente de correlación múltiple: -0.8471402
Este valor indica la fuerza y la dirección de la relación entre la producción de trigo y el precio. Un coeficiente de correlación múltiple de -0.8471402 sugiere una correlación negativa moderada a fuerte entre estas dos variables. Esto implica que a medida que la producción de trigo aumenta, es probable que el precio desminuye, y viceversa. Sin embargo, ten en cuenta que este coeficiente de correlación múltiple también tiene en cuenta otras variables predictoras (si las hubiera) en el modelo, además de la producción de trigo.
Intercepción: 74.11511789
La intercepción representa el valor esperado del precio cuando la producción de trigo es igual a cero. En este caso, cuando la producción de trigo es nula, el modelo predice un precio de aproximadamente 74.11511789.
Producción de trigo (coeficiente): -1.353675451
El coeficiente de la producción de trigo indica cuánto se espera que varíe el precio en respuesta a un cambio unitario en la producción de trigo. En este caso, se sugiere que, en promedio, por cada unidad de aumento en la producción de trigo, el precio disminuirá aproximadamente 1.353675451.
En resumen, el análisis de regresión lineal múltiple indica que existe una correlación positiva moderada a fuerte entre la producción de trigo y el precio. A medida que la producción de trigo aumenta, es probable que el precio también aumente. Sin embargo, ten en cuenta que estos resultados son específicos para el modelo y los datos proporcionados, y es importante considerar otras variables y posibles factores adicionales que puedan influir en el precio de la harina en un contexto más amplio.
Se requiere realizar un análisis de regresión lineal simple utilizando el método de mínimos cuadrados en Power BI. Tiene un conjunto de datos con 30 observaciones que consisten en años de experiencia de las personas y sus salarios anuales.
La regresión lineal es una herramienta que combina la estadística y la economía para medir la relación entre una variable independiente (en este caso, los años de experiencia) y una variable dependiente (los salarios). Se utiliza el método de mínimos cuadrados para obtener la mejor línea de ajuste que se acerque a los puntos de datos.
Para esto se puede utilizar un gráfico de dispersión para visualizar la relación entre las variables. Cuanto más cercanos estén los puntos en una línea, indica una relación más fuerte. Además, se menciona el coeficiente de Pearson, que varía entre -1 y 1 y cuantifica la fuerza y la dirección de la relación.
En Power BI, se crea una tabla llamada "línea" utilizando la función "Lines" para obtener los resultados de la regresión lineal. Se muestra un gráfico de dispersión y se obtiene un coeficiente de determinación de 0.96, lo que indica que el 96% de la variabilidad en los salarios puede ser explicada por los años de experiencia.
Además, se estima la ecuación de la recta de regresión, donde el intercepto es de 27,792 y el coeficiente es de 9,449. Esto significa que el salario estimado se calcula multiplicando los años de experiencia por 9,449 y sumándole 27,792.
En resumen, el análisis realizado en Power BI muestra una relación fuerte entre los años de experiencia y los salarios. Los resultados obtenidos mediante la regresión lineal indican que los salarios tienden a aumentar a medida que aumenta la experiencia laboral.
El objetivo es encontrar la línea de regresión que mejor se ajuste a los datos. La línea de regresión tiene la forma y = mx + b, donde "m" es la pendiente de la línea y "b" es el término de intersección.
Para calcular la pendiente (m) y el término de intersección (b), utilizamos las siguientes fórmulas:
Cálculo del coeficiente de correlación de Pearson:
El coeficiente de correlación de Pearson (r) nos indica la fuerza y dirección de la relación lineal entre las variables YearsExperience y Salary. Su valor oscila entre -1 y 1, donde -1 indica una correlación negativa perfecta, 1 indica una correlación positiva perfecta y 0 indica que no hay correlación lineal.
La fórmula para calcular el coeficiente de correlación de Pearson es:
El coeficiente de correlación de Pearson (r) aproximado es 0.978, lo que indica una fuerte correlación positiva entre YearsExperience y Salary.
Conclusiones:
La línea de regresión obtenida, Salary ≈ 9449.96 * YearsExperience + 25792.2, muestra que hay una relación positiva entre los años de experiencia y el salario. Cada aumento de 1 año de experiencia se asocia, en promedio, con un aumento de aproximadamente $9449.96 en el salario.
El coeficiente de correlación de Pearson (r ≈ 0.978) confirma la fuerte correlación positiva entre YearsExperience y Salary, lo que indica que los años de experiencia son un buen predictor del salario.
Es importante tener en cuenta que este análisis se basa en los datos proporcionados y asume una relación lineal entre las variables. Otros factores no considerados en este análisis pueden influir en el salario. Por lo tanto, es fundamental interpretar estos resultados dentro del contexto específico de los datos y considerar otros factores relevantes en un análisis más completo.
La estadística es el conjunto de técnicas y procedimientos para recopilar, organizar, analizar y presentar datos numéricos para fines concretos. Esta disciplina se utiliza para descubrir patrones y tendencias, así como para predecir el comportamiento futuro. Asimismo, la estadística es una herramienta esencial para la toma de decisiones en ciencias, tecnología, economía, negocios, salud, ciencias sociales, y muchas otras áreas.
La estadística es una herramienta importante para tomar decisiones informadas. Proporciona información valiosa sobre patrones, tendencias y relaciones entre variables. Esto permite a los profesionales y líderes tomar decisiones basadas en datos, en lugar de asumir. Esta información también puede ayudar a las organizaciones a comprender mejor el comportamiento de los clientes, el rendimiento de los productos y los resultados de los procesos, y puede ayudar a optimizar el uso de los recursos, mejorar la calidad y controlar los costos. Por lo tanto, la estadística es una herramienta invaluable para tomar decisiones informadas en muchos ámbitos.
Recopilar datos en estadística consiste en recopilar información y observaciones relevantes para un tema en particular. Esta información se recopila para entender mejor un tema y generar conocimiento útil. Los datos recopilados pueden ser estructurados o no estructurados, según el tema a tratar. Los datos estructurados se refieren a los datos organizados y se pueden guardar en una base de datos. Por otro lado, los datos no estructurados son mucho más difíciles de analizar ya que no están organizados. Esta información se recoge de diversas fuentes, como encuestas, entrevistas, archivos, bases de datos, etc. Estos datos se analizan para extraer conclusiones y descubrir patrones y tendencias. Esto ayuda a los investigadores a comprender mejor el tema y a tomar decisiones informadas.
Organizar los datos en estadística consiste en clasificar, agrupar y contar los datos para obtener información útil. Esto puede incluir la separación de los datos en diferentes categorías, la organización de los datos en tablas, el cálculo de estadísticas descriptivas como la media, mediana, moda y rango, o la creación de gráficos y diagramas para facilitar la interpretación de los datos.
Para analizar e interpretar los datos la estadística cuenta con las tablas, gráficos, estadísticas descriptivas, pruebas de hipótesis, regresiones lineales y análisis de correlación. Estas herramientas permiten a los usuarios identificar patrones y relaciones en los datos, descubrir tendencias y predecir resultados futuros. Los usuarios también pueden descubrir qué variables afectan a los resultados y cuáles son los factores clave para el éxito. Esta información puede utilizarse para tomar decisiones informadas y mejorar los resultados de la organización.
Tipos de datos
Variables Cuantitativas: Estas variables miden cantidades numéricas, como el número de personas en una población, el salario anual promedio, el índice de desempleo, etc.
Variables Cualitativas: Estas variables describen características cualitativas, como la edad, el género, el país de origen, el nivel educativo, etc.
Variables Dicotómicas: Estas variables toman solo dos posibles valores, como si/no, verdadero/falso, etc.
Variables de Rango: Estas variables miden el rango de una característica, como el nivel de escolaridad, el estado civil, etc.
Variables Nominales: Estas variables toman valores nominales, como el nombre, la dirección, el número de teléfono, etc.
Así entonces concluimos que la estadística es una herramienta invaluable para comprender y analizar los datos. Es una forma de organizar datos que permite obtener información significativa y poder tomar decisiones informadas. Para obtener resultados significativos, es importante interpretar los datos de la forma correcta para obtener las conclusiones adecuadas. La estadística puede ayudar a comprender la tendencia de una situación y predecir el futuro. En conclusión, la estadística juega un papel fundamental en la toma de decisiones y la construcción de conocimiento basado en datos.
Para el trabajo de analizar la relación de variables en econometría nos enfrentamos aun proceso de generación, recolección y organización de datos. Estos datos pueden ser no experimentales o datos observacionales y datos experimentales.
Los datos NO-EXPERIMENTALES son aquellos datos acumulados que el investigador colecta de forma pasiva a traves de la observación de empresas, individuos o de variables económicas.
Cuando hablamos de datos EXPERIMENTALES, estos se obtienen al realizar experimentos controlados en laboratorios y generalmente este tipo datos se procesan en las ciencias exactas.
La econometría es el uso del conocimiento de economía y estadística matemática para el estudio de verificar o no una hipótesis relacionada a temas económicos como el PIB, la inversion, el desempleo, inflación, consumo, demanda, etc. Tambien, la econometría se aplica a estudios en el areas de finanzas, negocios, marketing, etc. (Gujarati y Porter, 2009).
En la econometría se utilizan modelos de regresión lineal y no lineal. Cuando hablamos de modelos de regresión lineal se esta analizando la relación lineal entre dos variables o también llamado modelo univariado. Cuando hablamos de un modelo de regresión lineal con mas variables se lo llama modelo de regresión multiple.
Lo que se busca es identificar la dirección de dicha relación, si es positiva o negativa, el grado de asociación entre las variables y su significancia estadística.
Tambien la econometría sirve para analizar la relación entre variables no lineales, es decir tipo exponencial y polinomial.
Además de estimar la relación entre variables. La econometría también nos permite utilizar los resultados para realizar pronósticos. Por ejemplo, en economía podríamos estar interesados en pronosticar el crecimiento económico, tipo de cambio, tasa de desempleo, etc.
La econometría es una herramienta para toma de decisiones que permite identificar tendencias, patrones en los principales temas económicos y de la empresa.
Muchas veces en estadística, estamos interesado en analizar una colección entera o un grupo de items, personas o animales.
Por ejemplo, podríamos estar interesados en un estudio sobre los estudiantes de la Universidad Agraria del Ecuador, focos producidos en una industria, carros accidentados, etc. Estos grupos que mencionamos lo llamamos POBLACION.
Para mejor entendimiento, en un pais se desea levantar información sobre los miembros de la población y se establece un CENSO. Estos censos se realizan cada diez años se hace una encuesta en base a un cuestionario.
Pero hacerlo conllevaría mucho esfuerzo en términos de tiempo, horas de trabajo y dinero. En muchos casos, es imposible realizar una encuesta a cada ciudadano, es por esto que se establece un CENSO.
En el caso que se desee analizar todos los focos producidos en una empresa manufacturera, simplemente no tendría que vender y la empresa quebraría.
Por estas razones, muchos estudios se realizan sobre una porción o muestra de una población.
La Muestra
La muestra es un subconjunto de la población de interés de estudio. Se la obtiene seleccionando cierto numero de miembros de la población.
Si deseamos analizar los focos producidos en una fabrica. Podríamos seleccionar focos para analizarlos.
El proceso de generar conclusiones acerca de una población en base al estudio de una muestras es llamado INFERENCIA estadística.
Debido a la dificultad de analizar una población total, la inferencia es la base de la estadística.
Pero recordemos que al inferir en base a una muestra, toda inferencia estará asociada con un grado de incertidumbre que hay que tomarse en cuenta ya que no hemos considerado todos los miembros de la población.
Ahora debemos generar una LINEA que mejor represente el modelo. El trazar una linea recta sobre la grafica de dispersión puede ser un resultado subjetivo.
Para esto usamos el concepto de REGRESION que nos quita toda ambigüedad y nos brinda la mejor opción de linea recta.
Uno de los métodos mas utilizados para generar la linea de regresión sobre el grafico es el modelo de MINIMOS CUADRADOS ORDINARIOS.
En el grafico se muestra una serie de datos sobre los kilómetros de carrera recorridos y la velocidad promedio (km/h).
La distancias verticales son RESIDUOS, y elevando al cuadrado los residuos y sumándolos se obtiene un valor que nos dice que tan alejados los puntos en el grafico de dispersión con respecto a la linea de regresión.
La line de regresión lineal es aquella recta que minimiza ese resultado.
Los gráficos de dispersión son muy útiles para representa relaciones entre dos diferentes variables. Por ejemplo, nos podría interesar conocer la relacion entre dos variables como el consumo de helado y la temperatura promedio mensual.
O nos podría interesar conocer la relacion entre la temperatura promedio mensual y la velocidad del viento en alguna ciudad.
El eje horizontal (X) representa el promedio de la temperatura del mes y el eje vertical (Y) representa la velocidad del viento promedio mensual. Cada punto del grafico muestra los valores para cada una de las dos variables.
La grafica de dispersión son muy útiles para mostrar la relacion entre dos variables, pero no nos puede decir si realmente la una "causa" la otra.
Muchas veces cuando se grafica un grafico de disperson, se desea conocer el efecto de una variable con la otra. Por ejemplo, en el caso de las ventas de helado y la temperatura promedio. En este caso la variable que tiene efecto sobre la otra es llamada Variable Explicativa, mientras que la variable que es afectada es llamada Variable Respuesta.
Es así que la variable respuesta responde a los cambios en la variable explicativa. Los estadísticos colocan la variable explicativa en el eje X y la variable respuesta en el eje Y.
Para poder visualizar la variabilidad de los datos tenemos el grafico de Caja y Bigotes. Es un grafico diferente a las visualizaciones tradicionales, ya que nos muestra un resumen estadístico de los datos: valor mínimo, cuartil menor, mediana, cuartil mayor y valor máximo.
Para realizar el grafico se debe;
Ordenar los valores de menor a mayor
Encontrar los cuartiles 1, 2 y 3.
Dibujar la caja tal que los limites sean cuartil 1 y cuartil 3.
Trazar una linea vertical en la mediana
Calcular el rango intercuartílico (cuartil 3 - cuartil 1)
Trazar las líneas (bigotes) hacia el valor mas pequeño y mas grande (dentro de los limites calculados)
Identificar los valores atípicos con un asterisco (*).
Importancia del grafico de Caja y Bigotes o Box Plot :
Un gráfico de caja y bigotes, también conocido como Box Plot, es una herramienta visual que se utiliza en el análisis de datos para representar la distribución y variabilidad de un conjunto de valores. Tiene varias características y proporciona información importante sobre los datos. A continuación, se detallan la importancia y características principales de un gráfico de caja y bigotes:
Resumen de la distribución: El gráfico de caja y bigotes resume la distribución de un conjunto de datos de manera concisa. Muestra la mediana, los cuartiles y los valores atípicos, lo que permite comprender rápidamente cómo se distribuyen los datos y dónde se encuentran las observaciones centrales.
Identificación de valores atípicos: El gráfico de caja y bigotes ayuda a identificar valores atípicos o extremos en un conjunto de datos. Los valores que se encuentran fuera de los límites establecidos por los bigotes (que suelen ser 1.5 veces el rango intercuartil) se representan como puntos o asteriscos, lo que permite detectar observaciones inusuales.
Comparación de distribuciones: Permite comparar la distribución de múltiples conjuntos de datos en una sola visualización. Al colocar varios gráficos de caja y bigotes juntos, es posible analizar y comparar rápidamente las diferencias en la mediana, los cuartiles y la dispersión entre los conjuntos de datos.
Representación de la simetría y asimetría: Un gráfico de caja y bigotes muestra si la distribución de los datos es simétrica o asimétrica. Si la caja está aproximadamente centrada y los bigotes son aproximadamente iguales, la distribución es simétrica. Si la caja está desplazada hacia un extremo y los bigotes no son iguales, indica una distribución asimétrica.
Indicador de la dispersión: El tamaño de la caja y la longitud de los bigotes en el gráfico de caja y bigotes proporcionan información sobre la dispersión de los datos. Una caja más grande y bigotes más largos indican una mayor variabilidad en los datos, mientras que una caja más pequeña y bigotes más cortos indican una menor variabilidad.
Visualización de tendencias y patrones: El gráfico de caja y bigotes es útil para identificar tendencias o patrones en los datos a lo largo del tiempo o en diferentes grupos. Al comparar múltiples gráficos de caja y bigotes, se pueden detectar cambios en las medianas, variabilidad o presencia de valores atípicos a lo largo de diferentes categorías.
En resumen, el gráfico de caja y bigotes es una herramienta importante en el análisis de datos, ya que permite resumir la distribución, identificar valores atípicos, comparar distribuciones, representar simetría o asimetría, indicar la dispersión y visualizar tendencias. Es una forma eficiente y efectiva de obtener información clave sobre un conjunto de datos y comunicar hallazgos importantes.
Aplicaciones en el ámbito empresarial:
El gráfico de caja y bigotes tiene diversas aplicaciones en el ámbito empresarial y económico. A continuación, te presento algunos ejemplos específicos de cómo se utiliza en la vida real:
Análisis de ventas: En el análisis de ventas, el gráfico de caja y bigotes se utiliza para examinar la distribución de las ventas por diferentes regiones, períodos de tiempo o categorías de productos. Permite identificar las regiones con mayores ventas, las diferencias en la variabilidad de las ventas entre categorías y posibles valores atípicos que puedan requerir una investigación adicional.
Estudios de mercado: En los estudios de mercado, el gráfico de caja y bigotes se utiliza para analizar la distribución de precios de productos o servicios. Ayuda a comprender cómo se distribuyen los precios, identificar valores atípicos que puedan indicar productos de lujo o descuentos extremos, y comparar la distribución de precios entre diferentes competidores o segmentos de mercado.
Análisis de costos: En el análisis de costos, el gráfico de caja y bigotes se utiliza para examinar la distribución de los costos de producción o los gastos operativos. Permite identificar los rangos intercuartiles de los costos, detectar valores atípicos que puedan indicar ineficiencias o gastos excepcionales, y comparar la variabilidad de los costos entre diferentes departamentos o áreas de negocio.
Evaluación de rendimiento financiero: En la evaluación del rendimiento financiero de una empresa, el gráfico de caja y bigotes se utiliza para comparar los indicadores financieros clave, como el margen de beneficio, el retorno de la inversión o los ingresos por ventas. Permite identificar las medianas y variabilidades de los indicadores financieros entre diferentes años fiscales, unidades de negocio o competidores, facilitando la identificación de fortalezas y debilidades.
Análisis de riesgos: En el análisis de riesgos financieros, el gráfico de caja y bigotes se utiliza para evaluar la distribución de posibles pérdidas o fluctuaciones en los precios de activos financieros, como acciones o commodities. Permite identificar los rangos de pérdidas potenciales, identificar valores atípicos que puedan indicar eventos inusuales o riesgos extremos, y analizar la variabilidad de los rendimientos entre diferentes instrumentos financieros.
Estos son solo algunos ejemplos de cómo se aplica el gráfico de caja y bigotes en el ámbito empresarial y económico. Su versatilidad y capacidad para resumir y visualizar la distribución de datos lo convierten en una herramienta valiosa en la toma de decisiones, la identificación de patrones y la detección de valores atípicos en una amplia gama de contextos.
Ejemplos de aplicación del grafico de Caja y Bigotes:
En el análisis de datos es muy probable que necesitemos entrar en el análisis de la relacion existente entre dos variables. Por ejemplo, nos gustaría conocer la relacion existente entre el comer un tipo de alimento y saber si es provechoso para la saludo o no.
También, nos podría interesar saber si asistir a una escuela X mejora las calificaciones de los estudiantes?.
La cantidad de alimento ingerido y el peso de las personas?.
La relacion entre la altura de las personas y el peso.
Si existe una relacion entre los niveles de criminalidad y el desempleo.
Al hacer una grafica de dispersión entre las dos variables podemos ver gráficamente el tipo de relacion.
Por ejemplo, en el caso de la relacion entre el consumo de helado y la temperatura promedio, podríamos hablar una correlación positiva. Esto significa que cuando una variable incrementa, la otra variable también aumenta.
Aunque también podemos tener una correlación negativa. Esto significa que cuando una variable aumenta, la otra disminuye.
También podemos encontrar que no existe correlación alguna entre las variables. Es decir no hay correlación alguna al aumento o disminución de una, no tiene ningún efecto en la otra.
Como medir esa correlación?
La manera mas común para cuantificar es mediante el coeficiente de Pearson (R2). Y este es un numero que va entre +1 a -1.
Un valor positivo (+1), significa que la relacion es positiva y un valor negativo significa que la relacion es negativa.
Mientras mas cerca el valor a +1 o -1, nos dice que la correlación es mas fuerte. Y un valor cercado a CERO significa que no existe o es muy baja la relacion entre las variables.
Por ejemplo, un resultado del coeficiente de Pearson igual a 0.78. Este resultado nos dice que existe una fuerte relacion lineal y positiva entre el consumo de helado y la temperatura media.
Eso podría llevarnos a concluir que un clima caluroso podría causar un mayor consumo de helado en ese día. Pero es aquí donde debemos tener cuidado, porque aunque tenemos una alta correlación, no significa que exista una fuerte causalidad entre la temperatura y el consumo de helado.
Así que solo podemos concluir que existe una correlación fuerte y positiva entre las dos variables.
Tipos de correlación
Tenemos primero donde no existe correlación alguna. Por ejemplo, la relacion entre la edad de las personas y el tener mascota. El grafico muestra que estas dos variables no tienen ningún tipo de relacion entre si.
Si existiere relacion entre dos variables, esta relacion puede ser lineal o no lineal. Una relacion lineal sucede cuando una variable incrementa o decrece a medida que una variable aumenta o disminuye.
Un ejemplo de una relacion lineal podría ser entre el consumo de chocolate con el aumento del peso corporal. Cuando vemos el grafico de dispersión, la relacion lineal se la observa por la formación de los puntos y estos siguen una forma de linea recta.
Los dos gráficos de dispersión muestran las opciones de relacion lineal positiva y negativa.
Tambien puede existir relaciones NO lineales. Naturalmente, las relaciones no lineales pueden tener diferentes patrones o formas.
Un ejemplo puede ser la relacion entre la distancia recorrida de una bola y el tiempo de que fue lanzada. La distancia incrementara mas rapidamente al inicio, pero despues disminuira su recorrida y se detendra.
Las dos graficas de dispersion muestran dos tipos de relaciones no lineales.
Fuerza de la correlación
Correlacion va mucho mas es decir si hay relacion entre dos variables. Ademas, es una medicion que nos dice que tan fuerte is esa relacion.
Cuando la correlacion es fuerte entre dos variables, los puntos en el grafico de dispersion estan muy cercanos y formando una linea recta muy acentuada.
Mientras que la relacion es debil, los puntos en el grafico de dispersion estan alejados de linea recta.
Los graficos a continuacion muestran:
Izq: fuerte correlacion positiva. Centro: fuerte correlacion negativa. Derecha: no hay correlacion
Como creadores de reportes y tableros es muy importante analizar el uso y el rendimiento del área de trabajo por las siguientes razones:
Centrar los esfuerzos en la mejora continua del reporte. Si medimos, podemos mejorar.
Cuantificar el impacto de los informes. Las métricas nos ayudan a determinar la eficacia de los informes.
Con las métricas de uso y rendimiento, se podrá analizar:
quien utiliza sus informes,
Que acciones se realizan en los informes y
Que problemas de rendimiento existen.
Configuración y vista de informes de métricas de uso
Los informes y métricas están disponibles para los usuarios de Power BI Pro y solo pueden acceder a ellos los usuarios con los tipos de roles de Administrador, Miembro o Colaborador.
Para ver los informes de métricas de uso, vaya al área de trabajo de interés. Busque el informe o el panel cuyas métricas de uso quiere ver.
Power BI generara un informe y recibirá un mensaje que le indicara que vaya a un panel. En el panel podrá ver lo siguiente:
Gráficos de Viewers per day (Visores diarios), Unique viewers per day (Visores únicos al día), Shares per day (recursos compartidos al día).
Tarjetas de indicador clave de rendimiento de Numero total de vistas, Total Viewers (numero total de visores) y Total Shares (Total de recursos compartidos).
Total views and shares ranking ( clasificación por numero total de vistas y recursos compartidos).
Views by Users (Vistas por usuarios).
El reporte de rendimiento puede ser filtrado por el Método de Distribución del informe. Este puede ser mediante uso compartido o directamente en el área de trabajo. O también por plataforma, sea móvil o web.
También puede ver las métricas de rendimiento en la pestana Report Performance ( Rendimiento del informe). Aquí podrá encontrar:
Typical opening time: tiempo de apertura, cuanto se tarda en abrir el informe.
Opening time trend: tendencia en el tiempo de apertura.
Graficos Daily/7-Day performance: rendimiento diario en 7 días.
Después de crear un área de trabajo y de asignar roles a los específicos colaboradores. Ahora es momento de incluir contenido a la misma.
El contenido puede ser informes, paneles, conjuntos de datos, flujos de datos, etc. Una aplicación en Power BI es una ventana de solo lectura publicada para ver los datos que permite la distribución y visualización de una forma masiva.
Cuando este listo el contenido, estará listo para compartir aplicaciones con los usuarios. Para hacer esto necesita una licencia Power BI PRO o avanzada.
Después de agregar contenido al área de trabajo de la aplicación, puede crearla. Para crearla deberá ir a la pestana que dice CREAR APLICACION.
Lo siguientes, Power BI abrirá una ventana, donde:
Nombre de la aplicación: coloque el nombre de su aplicación
Descripción: escriba un resumen de su aplicación
Logotipo: puede subir una imagen para su app
Pestana NAVEGACION: puede cambiar el contenido orientado al usuario, creando un panel personalizado.
Pestana PERMISOS: puede conceder acceso a todos los usuarios de su empresa o elegir usuarios que tendrán acceso.
Después de realizar los permisos respectivos, en base a sus necesidades, podrá publicar la aplicación.
Power BI generara un vinculo que puede ser compartido con los usuarios.
Si, usted actualiza los datos, gráficos u objetos en el reporte, deberá actualizar la aplicación.
Una vez que hemos realizado un informe en Power BI desktop es hora de compartir el mismo e incluso podemos compartir el conjunto de datos con usuarios de nuestra organización o con personas externas a la misma.
Power BI nos da las herramientas para compartir nuestros informes con audiencias y organizaciones de una manera mas amplia. Para esto tenemos las AREAS DE TRABAJO.
Un área de trabajo es un repositorio en el servidor en que se puede colaborar con colegas y con otros equipos para crear grupos de informes y paneles.
Existen dos tipos de areas de trabajo:
My workspace: En mi area de trabajo sirve para trabajar con nuestro propio contenido. Solo el administrador podra tener acceso y no se puede compartir el contenido. Si quieres comparti contenido debes ir a Workspaces.
Workspaces: ac en las areas de trabajo se puede colaborar y compartir contenido con colegas. Se puede agregar colegas, colaboradores para desarrollar dashboards, reportes, contenido y datos. Cada colaborador debera tener cuenta de Power BI Pro o Premium Per User.
Las AREAS DE TRABAJO tienen las siguientes ventajas:
Permiten guardar los informes y dashboards para el uso de varios equipos y así ayudar a la colaboración.
En un solo entorno web se podrá compartir y presentar informes
Mantener altos niveles de seguridad en cuanto al acceso de datos, informes y dashboards.
Creación de un área de trabajo
Para crear tu área de trabajo debes ir al servicio de Power BI. Luego en la barra izquierda deberás ir a MI AREA DE TRABAJO. Y así podrás crear un área de trabajo.
Nombre del área de trabajo: deberás asignar un nombre
Descripción: podrás describir de que se trata del área de trabajo
Avanzado: podrás crear una lista de contactos de usuarios que recibirán una notificación.
Los usuarios que incluyas serán los administradores del área de trabajo y que también podrán agregar usuarios a la misma.
Una vez llenado la información para la creación del área de trabajo deberás seleccionar GUARDAR.
Y así has creado un área de trabajo.
Asignación de roles para el área de trabajo
Ahora que tenemos creado una área de trabajo, supongamos que ahora usted desea colaboración con otros equipos para crear tableros o informes.
Usted como propietario del área de trabajo, desea que se proporciona el acceso adecuado a cada miembro del equipo.
Consideremos que en este equipo pueden haber usuarios de los informes, así como desarrolladores.
Los roles son muy importantes para designar que pueden hacer de acuerdo al rol asignado.
Entre las opciones que tenemos de asignación de ROLES son:
ADMINISTRADOR
Puede agregar y quitar otros usuarios
Puede publicar, actualizar o compartir una aplicación en un área de trabajo
Puede crear, editar, eliminar y publicar informes y contenido en un área de trabajo
Puede ver informes y paneles, e interactuar con ellos en un área de trabajo
Puede configurar actualizaciones de datos
MIEMBRO
Puede completar todas las tareas asociadas a los administradores, PERO no agregar ni quitar usuarios.
NO podrá eliminar el área de trabajo
NO podrá actualizar los datos del área de trabajo.
COLABORADOR
No puede agregar ni quitar usuarios
No puede publicar, actualizar, ni editar una aplicación en el área de trabajo
PUEDE crear, actualizar y publicar contenido e informes dentro del área de trabajo
PUEDE programar actualizaciones de datos.
VISOR
No puede agregar ni quitar usuarios
Solo puede ver el informe o tablero en el área de trabajo
Puede leer los datos almacenados en flujos de datos del área de trabajo.
Para asignar los ROLES antes mencionados, vayamos al área de trabajo que se ha creado y en la esquina superior izquierda en el menú encontraras ACCESO.