Las startups basadas en datos en el evento MIT Sloan CIO tienen como objetivo llenar los vacíos tecnológicos

Los datos son el ingrediente crítico, aunque a menudo pasado por alto, para la esperada ola de proyectos de IA generativa que pasan del piloto a la producción, sin mencionar la multitud de iniciativas tradicionales de IA, aprendizaje automático y análisis.

Por lo tanto, no sorprende que muchas de las empresas en etapa inicial seleccionadas como finalistas para el Innovation Showcase del MIT Sloan CIO Symposium 2024 se centren en aspectos de gestión y gobernanza de datos. La lista de este año incluye Cleanlab, que se especializa en calidad y curación de datos para usos de IA y ML; The Modern Data Company, que ofrece una plataforma para crear productos de datos; y Pyte, que se centra en la colaboración segura de datos con socios externos.

Las nuevas empresas de datos exhibirán sus productos en el 21º evento anual, que tendrá lugar del 13 al 14 de mayo en Cambridge, Massachusetts. Innovation Showcase presenta 10 empresas en etapa inicial que venden productos a CIO y departamentos de TI. Los participantes abarcan categorías de tecnología que incluyen inteligencia artificial, modernización de aplicaciones, gestión de riesgos cibernéticos y análisis de servicio al cliente, así como otras relacionadas con datos.

Abordar la calidad de los datos

El hilo de datos que recorre la lista de startups de este año se alinea con las tendencias de compra de TI. Según un informe de febrero de 2024 del Enterprise Strategy Group de TechTarget, la gestión y el gobierno de datos ocuparon el tercer lugar en la lista de iniciativas de tecnología empresarial que se han vuelto significativamente más importantes para las organizaciones en los últimos dos años. Sólo la ciberseguridad y la nube obtuvieron una clasificación más alta en la «Encuesta de intenciones de gasto en tecnología 2024» de la división de investigación de mercado, que encuestó a 938 líderes empresariales y tecnológicos.

Gráfico de barras que enumera las áreas de TI de creciente importancia.
La gestión y el gobierno de datos ocupan el tercer lugar en la lista de prioridades de gasto en TI.

Pero las aspiraciones de datos no siempre se traducen en resultados. De hecho, muchas organizaciones luchan por crear una cultura de datos que los haga fácilmente disponibles para el análisis, la toma de decisiones o la construcción de modelos. Este es el vacío que pretenden llenar las tres startups presentadas en el Innovation Showcase.

«Si intentas hacer cosas con datos, como lo hace todo el mundo hoy en día, y trabajas con datos de baja calidad, como suele ser el caso con cualquier conjunto de datos del mundo real, tu aplicación posterior se verá afectada», dijo Anish Athalye, CTO de Cleanlab. con sede en San Francisco. «Si intentas entrenar un modelo de aprendizaje automático con datos de baja calidad, sufres el problema de ‘entra basura, sale basura'».

Si intenta entrenar un modelo de aprendizaje automático con datos de baja calidad, sufrirá este problema de “basura que entra, basura sale”.

Anish AthalyeDirector Técnico, Cleanlab

La forma tradicional de mejorar la calidad de los datos para la construcción de modelos era emplear un grupo de científicos de datos que utilizaran técnicas ad hoc, señaló Athalye. Sin embargo, la herramienta de curación de datos de Cleanlab adopta un enfoque sistemático y algorítmico para identificar problemas de datos, como valores atípicos y datos ambiguos. El resultado es una forma más escalable y confiable de curar datos, afirmó.

Los clientes utilizan la tecnología en el lado de entrada de datos de ML. Un equipo de TI dentro de Comcast, por ejemplo, utiliza el producto Cleanlab para entrenar modelos de aprendizaje automático en datos seleccionados. El equipo quería utilizar el aprendizaje automático para identificar tickets de soporte de TI mal etiquetados, como un ticket de prioridad 3 clasificado como prioridad 1.

Estas aplicaciones, si bien están orientadas al aprendizaje automático, pueden resultar difíciles de implementar sin buenos datos.

«Es algo sensato», dijo Athalye. «Pero si, para empezar, tienes un conjunto de datos de baja calidad, eso es algo difícil de hacer».

Cleanlab también aborda los problemas de calidad de los datos desde una perspectiva de resultados. En este caso, la tendencia de un modelo de lenguaje grande (LLM) utilizado en aplicaciones de IA generativa a alucinar es una preocupación clave, dijo Athalye. En abril, la compañía lanzó una oferta de modelo de lenguaje confiable que incluye un LLM y proporciona una puntuación de confianza para cada respuesta a una solicitud, agregó.

Creando productos de datos

Los LLM también desafían la pila de datos empresarial convencional, según Srujan Akula, cofundador y director ejecutivo de The Modern Data Company, con sede en Palo Alto, California. La típica capa de almacenamiento de datos centralizado se queda corta cuando se trata de IA generativa, afirmó.

«No es adecuado para estos nuevos tipos de casos de uso en los que es necesario pensar en los datos más como un producto, en lugar de una tabla o un blob», dijo Akula.

Tratar los datos como un producto los analiza desde la perspectiva del usuario empresarial: ¿qué necesitan hacer con los datos y cómo quieren consumirlos? El objetivo es hacer que los datos sean más fáciles de descubrir y utilizar. Sin embargo, la visión de Akula sobre los productos de datos también incorpora semántica. La plataforma DataOS de Modern permite a las organizaciones crear productos de datos que incluyen metadatos, lo que pone los datos en contexto y les da significado, señaló.

«Va a ser fundamental gestionar mejor sus metadatos, especialmente si está pensando en GenAI y LLM», dijo Akula. «Cuanto más contexto se agregue a los datos, más precisos serán los modelos».

La compañía también planea asumir la tarea de hacer que los LLM funcionen mejor con datos estructurados. Actualmente, la IA generativa funciona bien con datos no estructurados, como texto e imágenes, a diferencia de los datos estructurados alojados en hojas de cálculo y bases de datos.

«Todos entendemos que GenAI tiene limitaciones cuando se trata de datos estructurados», dijo Saurabh Gupta, jefe de estrategia e ingresos de Modern. «Lo que estamos tratando de abordar es cómo habilitar capacidades GenAI en datos estructurados, utilizando enfoques metódicos, que puedan replicarse y utilizarse en todas las industrias».

Garantizar la colaboración de datos

Es posible que una empresa deba recurrir a un proveedor de datos externo al crear un conjunto de datos más grande o aumentar los datos de los clientes con detalles demográficos. Pero el intercambio de datos plantea preocupaciones sobre la seguridad y la privacidad.

Un enfoque para fortalecer la seguridad es una sala limpia de datos, en la que una empresa externa proporciona un entorno independiente en el que las empresas pueden colaborar. Pero este enfoque tiene sus límites, según Sadegh Riazi, cofundador y director ejecutivo de Pyte, con sede en Los Ángeles.

«Los datos se filtran a otra empresa y… uno no tiene control sobre lo que sucede con sus datos», dijo. «Tienes confianza en la marca y en la empresa para gestionarla bien».

Cuadro sobre el significado de la gestión y gobernanza de datos.
La gestión y la gobernanza de datos son consideraciones importantes en materia de protección y privacidad de datos.

Pyte, una combinación de privado Y byte, adopta un enfoque diferente. Las empresas instalan el software de cifrado de Pyte para colaborar en lugar de transferir sus datos a terceros. Según la empresa, sus datos permanecen cifrados en tránsito, en reposo y durante el cálculo.

«Todas las partes pueden implementar el software, cifrar sus datos y colaborar directamente con los datos cifrados sin tener que descifrarlos», dijo Riazi.

La tecnología de colaboración de datos de la compañía es relevante para los CIO, directores de datos y líderes de plataformas de datos, afirmó. Los CIO, por ejemplo, pueden utilizar el software para proteger los datos y hacerlos más disponibles para uso empresarial.

«Estos dos (objetivos) suelen ser contradictorios entre sí», dijo Riazi. «(Los CIO) generalmente pueden satisfacer uno a expensas del otro. Básicamente, les estamos haciendo la vida más fácil al permitir que las unidades de negocios hagan su trabajo mientras (los CIO) hacen su trabajo correctamente, que es proteger los datos».

John Moore es escritor de TechTarget Editorial y cubre el papel del CIO, las tendencias económicas y la industria de servicios de TI.

Puede interesarte

La clave del éxito de una startup

La confianza está inflada entre los menos capaces, mientras que los más capaces tienden a …