Big Data: La próxima frontera para la innovación, la competencia y la productividad



Eliminando el corte en la contratación


big data en RRHH podrían hacer más equitativa la contratación y mejorar la diversidad reduciendo el corte, dice Zoe Jervier Hewitt de EQT Ventures a Protocol. Eso comienza aun antes que los candidatos sean entrevistados identificando qué criterios deben cumplir. Trato de hacer que el sistema de evaluación sea verdaderamente hermético, y encuentro que hay menos espacio para que el corte no útil se introduzca en el proceso de esa forma, dice Jervier Hewitt. Añade que una tarjeta de puntuación de la evaluación puede centrar la atención en la competencia de un aspirante y tener un efecto positivo en la diversidad de la tubería y la diversidad de las contrataciones.


¿Quieres saber más?


Muchas organizaciones y escuelas ofrecen clases en línea de análisis de recursos humanos y análisis predictivo. Asimismo hay guías on-line disponibles. Lee recomienda que los profesionales de RRHH obtengan ayuda de los departamentos de TI, pero que también aprendan ellos mismos lo suficiente como para decirle al científico de datos lo que es correcto.

En resumen, está claro que RRHH no sólo tiene big data, sino que tiene muchas maneras potenciales de usar big data que podrían hacer que el lugar de trabajo sea mejor tanto para los empleadores como para los empleados.

Si ha disfrutado de esta profunda inmersión en cómo el big data están cambiando la forma en que funcionan los departamentos de RR.HH., puede suscribirse a nuestro boletín diarioHRnewsbrief para conseguir un contenido más informativo.


Actualizando el almacen de big data, ha llegado el momento


En el espacio de la tecnología y el análisis de datos, me recuerdan continuamente que la única incesante es el cambio. A esta industria le chifla innovar. Una y otra vez renovamos para superar los desafíos inmediatos y futuros - con soluciones que abordan la necesidad de más datos, análisis más rápidos y una mejor arquitectura.

La innovación suele proseguir una trayectoria de algo innovador, seguida de años de mejoras incrementales que maduran la oferta y la hacen aplicable a las masas. Aunque estos cambios incrementales son en general fáciles de incorporar, el inconveniente es que primero tenemos que implementar la innovación renovadora. Esta transición generalmente requiere cambios en los procesos, capacitación, re-estructuración y una larga y dolorosa migración. En último término, esto conduce a los ciclos de exageración tecnológica, en los que las empresas evalúan individualmente cuándo o bien incluso si el peligro y la lucha por hacer un cambio vale la pena.


4 grandes desarrollos tecnológicos


4 desarrollos tecnológicos imprescindibles afectan al gran acervo de información de las empresas de el día de hoy en día:

  1. La contenedorización y los kubernetes son un cambio en el juego. 
    Los contenedores (y la orquestación de los kubernetes) pueden ofrecer muchos beneficios para los grandes entornos de datos. Con los contenedores, puede separar la computación del almacenaje. Esta capacidad le permite dimensionar correctamente su solución, impulsar una mayor eficacia y optimizar la utilización de su PC. Los contenedores también le dejan englobar el ecosistema en constante evolución de las herramientas de código abierto, lo que deja a los analistas y científicos de datos crear sus herramientas preferidas en cuestión de minutos, al unísono que obtienen acceso a los datos que necesitan. Además de esto, se obtiene portabilidad, flexibilidad y agilidad de las aplicaciones, lo que quiere decir que se pueden desplegar rápida y fácilmente aplicaciones de datos intensivos en las instalaciones o bien en cualquier nube.

  2. Los datos están en todas partes - en prem, nube híbrida, multi-nube, y en el borde.
    Originalmente, el enorme conjunto de datos de la mayoría de las compañías estaba plantado firmemente en las instalaciones. Mas se están desplegando más aplicaciones en la nube pública y frecuentemente en múltiples nubes públicas. Y con el volumen cada vez mayor de datos generados en el borde (así como las mejoras en la red), es preciso pensar en los datos de forma global - desde el borde hasta la nube. Su próxima gran plataforma de datos debe amoldarse a las necesidades de su negocio y a los datos de todas y cada una partes. Y he de ser flexible para amoldarse a las instalaciones, a la nube híbrida, a la multi-nube y a los despliegues de computación en el borde.

  3. El ecosistema de código abierto sigue evolucionando.
    Las empresas necesitan probar sus grandes inversiones en datos a futuro. Con el tiempo, ciertos distribuidores se han centrado en el modelo de código abierto puro. Otros han proporcionado software comercial de valor añadido basado en la tecnología de código abierto. Resulta que ambos enfoques son correctos. Usted quererá herramientas optimados de su proveedor de soluciones cuando tenga sentido, mas su futuro gran acervo de datos asimismo necesita evolucionar con la velocidad de la innovación de código abierto. Al implementar una solución con la capacidad de desplegar cualquier marco de trabajo de código abierto, está preparado para esta incesante evolución, mientras que da a sus científicos de datos acceso a los últimos conjuntos de herramientas de código abierto.

  4. Hacer invisible la infraestructura - al tiempo que se garantiza el desempeño, la resistencia, la seguridad y la alta disponibilidad. 
    Recuerdo un comentario que un CTO me hizo hace múltiples años. Al discutir un punto sobre de qué forma prosperar el rendimiento de los lagos de datos, dijo: A ustedes les importa la infraestructura; a nosotros no nos importa la infraestructura. Desde ese momento he abrazado este mantra (tras todo, los equipos de ciencias de los datos no quieren tener que preocuparse por el almacenamiento latente, la computación y las redes), pero la infraestructura prosigue siendo esencial. Podemos ocultar la complejidad de la infraestructura, haciendo que la implementación de las aplicaciones sea tan simple y tan perfecta como sea posible. Pero si no diseña su solución para asegurar la seguridad, el rendimiento y otros requisitos de nivel empresarial, no va a poder entrar en producción. Y, en última instancia, no dará valor empresarial.




Hewlett Packard Enterprise puede asistir


Hewlett Packard Enterprise (HPE) sabe de primera mano que las organizaciones empresariales - y sus aplicaciones críticas para el negocio y de uso intensivo de datos - están atrapadas en esta tormenta de incertidumbre y cambio. Últimamente hemos emprendido nuestro propio viaje de modernización para cumplir con nuestra visión de un negocio basado en datos. Nuestra nueva solución flexible de análisis de datos aprovecha los contenedores, el hardware más reciente y los conjuntos de herramientas de código abierto para aportar velocidad y agilidad a nuestra toma de resoluciones y potenciar a nuestros usuarios de todo el planeta desde el borde hasta la nube.

Desafortunadamente, no hay un botón simple, ya que cada organización tiene sus requisitos. Mas HPE puede ayudar a los clientes a navegar por este proceso. HPE tiene un completo portafolio de soluciones, experiencia y soporte para ayudar a modernizar su gran acervo de datos.

Para reducir el peligro del proceso de modernización, creamos el Programa de Evaluación de AMP de HPE para asistir a los clientes del servicio a contestar a las preguntas difíciles sobre su gran acervo de información de datos. Con este ofrecimiento, HPE hará: Analizar su plataforma de estado actual, proporcionar un mapa detallado para modernizar su plataforma actual de una manera que satisfaga las necesidades de negocios de su organización, y por último, prescribir un plan sistemático para llegar allá. Y a resultas de la Evaluación AMP, HPE puede aprovechar su arsenal de software de HPE Ezmeral, hardware de clase mundial y servicios probados para ofrecer la solución conveniente a sus necesidades concretas.




Lo que el big data significan para su pequeña empresa



En un mundo cada vez más digital, la cantidad de datos que una pequeña empresa debe analizar aumenta todos los años. Aprende lo que significan el big data para tu PYME.


Internet sólo existe desde hace 3 décadas, mas en ese tiempo parcialmente corto, se ha transformado en una de las herramientas más esenciales a nuestra predisposición colectiva. Como dueño de una pequeña empresa, puede emplearla para compendiar datos que le ayuden a tomar decisiones comerciales informadas, ejecutar análisis predictivos para futuras ventas y progresar la experiencia del cliente del servicio.

Todas esas funciones son el resultado de big data. Al aprender a digerirlos y usarlos, su pequeña empresa puede transformar una valiosa información en acción.

¿Qué es el big data?


En su núcleo, big data es lo que parece. Gracias a los avances en la tecnología, podemos recoger y entender conjuntos de datos masivos y complejos que fluyen a una velocidad increíble. Puesto que estos grandes conjuntos de datos pueden provenir de una amplia gama de fuentes a un volumen que los humanos no pueden entender, confiamos en un avanzado software de procesamiento de datos para hacer que esos datos sean aprovechables.

Sitios como Internet Live Stats facilitan la visualización de big data y la velocidad a la que una cantidad insana de información fluye mediante Internet. Por poner un ejemplo, ILS estima que cien con cinco TB de tráfico de Internet, 85.836 buscas en Google y nueve mil ciento treinta y nueve tweets se envían en un solo segundo.

No obstante, el big data proceden de más fuentes que sólo la Internet. La computadora de a bordo de su auto recoge miles de puntos de datos sobre sus hábitos de conducción que el fabricante puede usar para determinar futuros cambios en sus autos, al paso que los distribuidores de seguros pueden utilizar esos mismos datos para ajustar sus tarifas.

Las grandes herramientas de datos modernas nos dejan examinar velozmente los resultados del pasado y el estado del presente para decidir qué acción sería la más efectiva en una situación particular, dijo Ivan Kot, gerente senior de Itransition.

A través del empleo de dicha herramienta, afirmó Kot, el género de datos que fluyen a través de una fuente externa (como Internet) o una fuente interna (como los centros de llamadas internos y los registros de sitios web) puede asistir a las pequeñas empresas a pronosticar los resultados, prevenir el fraude y también impulsar la innovación.

¿Cómo marcha el big data?


Puede asistir a comprender el big data en términos de pesca comercial. Si tratas de dirigir un negocio siendo el único pescador parado a la vera de un riachuelo, no vas a generar muchos peces. Sin embargo, si tienes una flota de navíos, cada uno de ellos con grandes trampas y amplias redes, conseguirás muchos peces de varias especies. Los programas de datos grandes son como esa flota de navíos, y los peces son todos y cada uno de los diferentes tipos de datos que producimos cada día.

Una vez recogidos, los datos son analizados por las empresas que emplean las técnicas de big data. Este análisis permite a un científico de datos comprender una multitud de formas en que una empresa puede ser más eficiente y acrecentar los beneficios. el big data funcionan para algo más que las necesidades de los usuarios - el campo médico también usa esos datos para pronosticar mejor la propagación de enfermedades.

Las empresas usan el big data para conseguir información sobre una serie de cosas, incluyendo los patrones y comportamientos de los clientes del servicio - más comúnmente, los comportamientos de adquiere, afirmó Jack Zmudzinski, asociado senior de Future Processing. La razón por la que el big data son tan vitales para los negocios es que pueden asistir a identificar nuevas ocasiones de crecimiento e inclusive nuevas industrias a través del examen de la información de los clientes del servicio.

Un científico de datos puede utilizar el big data para administrar un contexto por medio de consultas para identificar los conocimientos y los resultados de los datos. La automatización y las herramientas de flujo de trabajo automatizarían entonces las acciones basadas en los datos, según James Ford, que tiene un doctorado en ciencias de los datos y es el cofundador de AutoBead.

De forma tradicional, los modelos de tecnología utilizados por quienes invertían en grandes ideas de datos incluían géneros de bases de datos como SQL o NoSQL, que se conectaban a través de un autobus de servicio empresarial (integraciones de bases de datos y puntos finales), lo que normalizaba los datos y permitía que funcionaran juntos, afirmó Ford. Las soluciones de procesamiento de datos a gran escala como Apache Hadoop o bien Databricks permiten el procesamiento y análisis de datos a gran escala.

Gracias al avance de la computación en nube, afirmó Ford, el software de base de datos como el Universo DB de Microsoft Azure puede albergar múltiples géneros de bases de datos en una base de datos. Debido a ello, los equipos ya no precisan invertir en costosos y difíciles sistemas de integración, en tanto que todos y cada uno de los datos existen en un solo sitio, separados por políticas de seguridad y lógica en vez de API y distancia.



¿De qué manera se almacenan y regulan el big data?


Dado lo grande que son los datos, la instalación de almacenamiento de dicha información debe ser igualmente masiva, ¿verdad?? Bueno, depende de la cantidad de dinero y espacio que su empresa tenga disponible. Algunos de los centros de datos más grandes del mundo abarcan millones de metros cuadrados y albergan miles de millones de dólares americanos en equipos de servidores. Para su pequeña empresa, sin embargo, un rack de servidores con terabytes de almacenamiento podría ser suficiente.

Aunque es probable que encuentre muchas empresas que dependen de soluciones físicas para alojar sus sistemas de archivos, como un gran almacén de datos o un servidor a gran escala, otras empresas han recurrido a soluciones de almacenamiento basadas en la nube, como las que ofrecen Google y Amazon Web Services. En ambos casos, los datos pueden almacenarse mientras que tengan espacio.

En lo que se refiere a la regulación de big data, el gobierno federal de los EE.UU. ha tomado un enfoque de no intervención en el tema. En cambio, las leyes de privacidad existentes tienden a observar el big data y las corporaciones que procuran participar en ellos. Las leyes de privacidad en U.S.A. acostumbran a centrarse en industrias concretas que tratan con información sensible, como las instituciones financieras que emplean información personal no pública, que debe ajustarse a la Ley Gramm-Leach-Bliley. De igual manera, los distribuidores de servicios de salud que usan big data deben cerciorarse de que los datos estén asegurados en cumplimiento de la Ley de Portabilidad y Responsabilidad de los Seguros Médicos (HIPAA).

Jacqueline Klosek, letrada senior de Goodwin Procter LLP, dijo en un blog post para Taylor Wessing que las compañías frecuentemente alteran los datos para eliminar cualquier información de identificación sensible. Ese paso se da generalmente antes de que los científicos analicen los datos o antes que se manden a un tercero.

Bajo el GLBA, la definición de 'información financiera reconocible personalmente' excluye específicamente: 'la información que no identifica a un consumidor, como la información agregada o bien los datos ciegos que no contienen identificadores personales como números de cuenta, nombres o direcciones', escribió Klosek. También existen excepciones a los requisitos de privacidad para los datos no identificados en virtud de la HIPAA. Las compañías que empleen datos rigurosamente anonimizados van a deber continuar asegurándose de que su conducta cumple con sus propias políticas de privacidad y obligaciones contractuales y, evidentemente, deberán asegurarse de que los datos en cuestión sean realmente anónimos.

A medida que el big data aumentan en alcance, es solo cuestión de tiempo antes de que la legislación rija los usos de los datos privados. A nivel estatal, ciertas partes del país ya han comenzado a tomar medidas.




Big data: ¿Qué tan extenso ha de ser tu lente? Depende de su uso


La cantidad de datos que entran en su sistema puede marcar una gran diferencia en su almacenaje, ancho de banda y presupuesto. Considere la posibilidad de reducir su apertura.

Con big data que llegan a las organizaciones de todo el planeta a razón de dos con cinco quintillones de bytes de datos cada día, corresponde a las organizaciones determinar qué cantidad de estos big data es vital y necesaria, y qué porciones de el big data son excesivas y pueden eliminarse antes que los datos lleguen a los sistemas corporativos. Si las compañías no lo hacen, el ancho de banda, el almacenaje y las capacidades de procesamiento se pueden exceder, junto con los presupuestos.

Para cada operación y análisis que las compañías realizan con big data, la clave es delimitar cada caso de empleo comercial de antemano y predeterminar la cantidad de datos que verdaderamente precisará para abordar el caso comercial. Inevitablemente, va a haber algunos datos que simplemente no se necesitan. Separar estos datos de su proceso de ingestión Decubre más de datos es lo que yo llamo estrechar la apertura de la lente mediante la que los datos fluyen cara su depósito de datos.

Acá hay dos ejemplos divergentes de ajuste de la lente de datos:

IBM RoboRXN y la mecánica de la formulación molecular


Cuando IBM diseñó su proyecto RoboRXN, que recoge enormes cantidades de datos no editados de la comunidad mundial de código abierto y otros sobre posibles combinaciones moleculares para la formulación de productos, hubo que tomar resoluciones sobre la cantidad de esos datos que era pertinente para el proyecto en el que trabajaban.

El proyecto RoboRXN se centró en el diseño de nuevas moléculas para soluciones farmacéuticas, como la vacuna COVID-19. Esto significaba que no se necesitaban libros blancos, resultados de investigaciones estadísticas y otras fuentes de investigación que no guardaban relación directa con el proyecto de formulación molecular en el que se estaba trabajando. Lo que IBM decidió hacer fue incorporar la inteligencia artificial (IA) al frente del proceso de ingestión de datos mientras que este enorme tesoro de datos no editados se estaba amontonando.

El algoritmo de IA propuso una pregunta importante: ¿Cada elemento de los datos entrantes contenía algo relevante para el enfoque del proyecto? Para las investigaciones que no estaban en lo más mínimo relacionadas con el proyecto, o bien que sólo estaban relacionadas de forma distante y tangencial, la IA eliminó los datos, por lo que nunca fueron admitidos en el depósito de datos. En otras palabras, la apertura de la lente de datos al repositorio de datos del proyecto se estrechó, admitiendo sólo aquellos elementos de datos que eran relevantes para el proyecto. Como resultado, se redujo el almacenaje y el procesamiento de datos, y asimismo el costo.

El SETI y la busca de vida extraterrestre


Fundado en mil novecientos ochenta y cuatro, la misión del Instituto SETI era buscar vida extraterrestre. Esto se hizo a través de la vigilancia de las señales de radio y las emisiones del espacio para determinar si había algún patrón repetitivo que pudiera significar una comunicación de otra forma de vida. Científicos y voluntarios participaron en la iniciativa del SETI, examinando minuciosamente montañas de señales de radio sin editar que fluían sin cesar.

En este esmero, se pudieron hacer pocas suposiciones por adelantado sobre los datos buenos frente a los malos, porque nadie estaba totalmente seguro de lo que procuraba. En consecuencia, había pocas formas de estrechar la apertura de la lente de datos, que debía sostenerse abierta. Esto dio lugar a altos niveles de procesamiento, almacenamiento y trabajo manual.

Lo que el Instituto pudo hacer fue reducir los datos después de haberlos buscado en conjunto para hallar señales potenciales que pudiesen apuntar formas de vida inteligentes. En este punto, sólo las señales con potencial de vida necesitaban ser guardadas en bases de datos considerablemente más pequeñas.



Los 5 pasos principales para una buena ciencia de los datos


Mucha gente habla de la ciencia de los datos. Pocos saben de qué hablan y todavía menos son conscientes de cómo funciona. Mas, se utiliza en todas partes actualmente, conque incluso si no eres un científico de datos, es bueno saber cuáles son los pasos básicos. Aquí hay cinco pasos básicos para la ciencia de los datos.

  1. ¿Por qué lo haces? ¿Estás resolviendo un problema? ¿Qué problema es? La ciencia de los datos no es una salsa que se esparce sobre las cosas para mejorarlas de alguna manera. Es una forma de abordar los inconvenientes. Sepa qué problema intenta resolver su empresa antes de pedirle a la ciencia de los datos que lo resuelva.

  2. Recopile los datos. Cuando conozca la razón de su negocio, su científico de datos puede empezar a averiguar qué datos pertenecen a él y recogerlos. No se limite a escoger los datos libres o se arriesgue a introducir un sesgo.

  3. Analice los datos. El análisis exploratorio de datos (EDA) es el enfoque más habitual. Revela lo que los datos pueden decirle. El EDA acostumbra a ser bueno para descubrir las áreas en las que se desea recopilar más datos. Un buen EDA utiliza un conjunto predefinido de directrices y umbrales para ayudar a superar el corte.

  4. Edifique sus modelos y pruebe si son válidos. En el momento en que haya analizado los datos puede hacer su modelo de aprendizaje automático que tiene como propósito proporcionar una buena solución al problema de la empresa. Antes de establecer un modelo, asegúrese de experimentar con algunas opciones y ciclos de validación convenientes.

  5. Resultados. Ejecute el modelo y también interprete los resultados. Bastante gente no se percata de que la inteligencia artificial no solo le afirma la solución a su inconveniente. Los modelos de aprendizaje automático ofrecen resultados que los humanos interpretan. Los conocimientos de los científicos de datos son los que hacen que el resultado sea algo sobre lo que se pueda actuar.


Seguro que esto hace que suene así de fácil, y obviamente cualquier científico de datos sabe que la prueba está en todo ese trabajo para hacer que estas cosas sucedan, pero conocer lo básico puede ayudar a tomar mejores decisiones que ayudarán a sus científicos de datos a hacer mejor su trabajo. Todo el mundo gana. Incluso la máquina.

Certificaciones en ciencias de la información para mejorar tu currículo y tu salario.


A fines de agosto, Glassdoor tenía más de 53.000 ofertas de empleo que mencionaban el aprendizaje automático (ML) y veinte trabajos que incluían la ciencia de los datos con sueldos que iban de 50.000 a más de 180.000 dólares estadounidenses. Cada vez más empresas hacen del análisis de datos y del aprendizaje automático un elemento central del desarrollo de nuevos productos y de las oportunidades de ingresos futuros.

Las grandes empresas de tecnología, como las organizaciones tecnológicas independientes, ofrecen programas de capacitación para personas que son nuevas en la ciencia de los datos, de este modo para profesionales que quieren dominar la tecnología más reciente. Cada programa de esta lista de los mejores cursos online para la ciencia de los datos ampliará su experiencia y añadirá un valioso elemento de línea en forma de certificación de ciencia de los datos a su currículum.

Ingeniero profesional de aprendizaje automático de Google


Si puedes pasar este examen que está en versión beta, eres certificado por Google Cloud. Google recomienda que los examinandos tengan por lo menos 3 años de experiencia práctica con los productos y soluciones de Google Cloud.

El examen dura cuatro horas y cuesta 120 dólares estadounidenses. Las seis secciones del examen cubren:

  • Enmarcar el problema del ML

  • Arquitectura de la solución ML

  • Preparación y procesamiento de datos

  • Desarrollo del modelo de ML

  • Automatización y orquestación del oleoducto de ML

  • Monitoreo, optimización y mantenimiento de la solución de ML




Certificación en Inteligencia de Negocios de Oracle


Esta capacitación va a preparar a las personas para utilizar el software de Oracle para optimar las operaciones comerciales y crear informes, modelos y previsiones. Oracle ofrece formación en inteligencia empresarial en 4 categorías:

  1. BI Enterprise Edition - aprenda a construir y dirigir cuadros de mando

  2. Essbase - aprenda a emplear el procesamiento metódico en línea para pronósticos y análisis

  3. BI Publisher - aprende a crear y dar informes y otros documentos

  4. Aplicaciones de BI - aprenda a instalar, configurar y personalizar las aplicaciones de BI de Oracle y el almacén de inteligencia de negocios de Oracle


Las certificaciones están disponibles para los dos primeros programas de adiestramiento.

El programa de certificado de desarrollo de TensorFlow


Los desarrolladores que aprueben el examen pueden unirse a la Red de Certificados de TensorFlow. Este manual cubre los criterios para tomar el examen, incluyendo una lista de verificación de habilidades, elegibilidad y recursos permitidos a lo largo del examen.

Para aprobar el examen, los examinandos deben entender:

  1. Los principios fundamentales del ML y el aprendizaje profundo

  2. Edificando modelos de ML en TensorFlow 2.x

  3. Construyendo reconocimiento de imágenes, detección de objetos, algoritmos de reconocimiento de texto con redes neuronales profundas y redes neuronales convolucionales

  4. Usando imágenes del planeta real de diferentes formas y tamaños para visualizar el viaje de una imagen por medio de las convoluciones para entender

  5. de qué manera una computadora ve la información, la pérdida de la trama y la precisión

  6. Explorando estrategias para prevenir el exceso de equipamiento, incluyendo el incremento y los abandonos

  7. Aplicando redes neuronales para solucionar problemas de procesamiento de lenguaje natural usando TensorFlow


Si estos temas son nuevos para ti, echa un vistazo al DeepLearning.ai TensorFlow in Practice Specialization on Coursera o bien al curso de Introducción al TensorFlow for Deep Learning sobre Udacity.

El examen cuesta cien dólares.

Leave a Reply

Your email address will not be published. Required fields are marked *