DeepSeek es el modelo IA de moda. El problema es que nadie sabe muy bien qué está haciendo con nuestros datos

Si eres usuario de ChatGPT, es probable que en la última semana hayas probado DeepSeek. El chatbot de IA chino es tan prometedor que se ha convertido en una seria amenaza para muchos de los gigantes tecnológicos estadounidenses. No solo se trata de una propuesta de código abierto que puede funcionar de manera estupendamente bien en local (en determinado hardware), sino que también tiene versión gratuita online que, al menos de momento, permite realizar consultas ilimitadas. También hay una API de pago cuyas tarifas son muy competitivas.

Cuando usamos chatbots como DeepSeek solemos compartir mucha información. Estas herramientas se han convertido en aliados a la hora de planificar vacaciones, resumir documentos, realizar presupuestos, analizar imágenes, entre otras cosas. Sus modelos de lenguaje engullen cada palabra que introducimos para darnos las respuestas que buscamos o una aproximación que podremos ir refinando a golpe de prompts.

¿Qué hacen con nuestros datos?

Ahora bien, puede que tras el enamoramiento inicial de descubrir una nueva aplicación de IA comencemos a preguntarnos qué sucede con nuestros datos. ¿Desaparecen después de ser procesados por el modelo? ¿Los cedemos a perpetuidad a una compañía que ni siquiera conocemos? ¿Son almacenados como un tesoro para entrenar futuras iteraciones del modelo? Ciertamente son muchas preguntas, muchas, pero no son completamente nuevas.

Ya nos hicimos muchas de estas preguntas cuando ChatGPT alcanzó la popularidad. Quizás nosotros no nos hicimos las preguntas, pero sí se las hicieron varios reguladores europeos, que obligaron a la compañía liderada por Sam Altman a hacer algunos cambios para poder seguir operando en ciertos países del bloque. DeepSeek es la nueva estrella, y tarde o temprano estas preguntas deberían aparecer en escena.

En medio de tantas preguntas hay algunas certezas: DeepSeek recopila una enorme cantidad de datos. Probablemente esto no sea una sorpresa para algunos, pero sí para otros que acaban de comenzar a utilizar el chatbot. Para tener más claridad sobre las prácticas de privacidad datos de la compañía china podemos consultar su página de política de privacidad.

Empecemos por el principio, Hangzhou DeepSeek Artificial Intelligence Co., Ltd. y Beijing DeepSeek Artificial Intelligence Co., Ltd. recopilan la información del perfil de los usuarios, como por ejemplo nombre de usuario, fecha de nacimiento (si corresponde), dirección de correo electrónico y/o número de teléfono y contraseña. También recopilan nuestros chats, es decir, textos, audios, archivos cargados, comentarios, historial. Todo va a estas empresas.

Supongamos que tienes una pregunta sobre DeepSeek y utilizas las vías de contacto para hablar con ellos. Pues bien, las mencionadas organizaciones también recopilarán toda la información que envíes. Desde pruebas de identidad o edad, comentarios o consultas sobre el servicio. Todo lo mencionado hasta aquí se encuentra dentro de una categoría denominada “información que usted proporciona”.

Dentro del abanico de información recopilada por las compañías detrás de DeepSeek encontramos otra categoría llamada “información recopilada automáticamente”. Aquí se hacen con nuestro modelo de dispositivo, sistema operativo (y el idioma del mismo), dirección IP, cookies y datos de diagnóstico y rendimiento. También capturarán los patrones de pulsación de teclas, y todo estará asociado a un ID de dispositivo y un ID de usuario.

No es posible cotizar a nuestros datos, pero no caben duda de que son valiosos. Una forma de medir su valor es dimensionando todo lo que impulsan. En primer lugar, DeepSeek utiliza los datos recopilados para entrenar sus modelos de IA. Las compañías también hablan de “supervisión de interacciones”, y en este punto no estamos seguros si hay humanos analizando conversaciones.

En los documentos de las compañías encontramos otra información interesante, como que “revisan las entradas y salidas del usuario y otra información para proteger la seguridad y el bienestar” de la comunidad. También recopilan datos para cumplir con las obligaciones legales, para “realizar tares de interés público” y para notificar cambios en los servicios. Más adelante veremos dónde se almacenan los datos de los millones de usuarios de DeepSeek.

Los datos recopilados por DeepSeek no se quedan en DeepSeek

DeepSeek dice en su política de privacidad que puede compartir la información recopilada de todas las categorías señaladas anteriormente. Vamos por partes. En primer lugar, podemos mencionar a entidades del grupo corporativo, es decir, actores que se encuentra bajo el paraguas de las organizaciones que controlan DeepSeek. Pero hay más. También se pueden enviar a “socios publicitarios o analíticos”.

Posiblemente recuerdes que párrafos más arriba señalamos que la información recopilada es etiquetada con un ID de dispositivo y un ID de usuario. Pues bien, estos identificadores suelen ser muy útiles para rastrear la actividad del usuario y cruzarla con la de otras plataformas. En este punto DeepSeek menciona que puede utilizar actividad de otros sitios y servicios, pero en algunas jurisdicciones. No queda claro cómo se aplicará esto en la Unión Europea.

DeepSeek también explica que pueden compartir la información recopilada con “los organismos encargados de hacer cumplir la ley, las autoridades públicas, los titulares de los derechos de autor u otros terceros si creemos de buena fe que es necesario”. En otras palabras, pueden dar estos datos al gobierno. Si bien esto ocurre en casi cualquier jurisdicción, debemos prestar especial atención a China, que ha estado envuelta en varias polémicas en este sentido.

En Xataka

Sabíamos que las Big Tech de EEUU tenían un problema con los costes de sus IA. DeepSeek acaba de mostrar hasta qué punto

Son numerosas las investigaciones que apuntan contra el Partido Comunista Chino (PCCh) y de leyes de la República Popular de China por obligar a las empresas tecnológicas de su país a proporcionar datos a información relevante. Un documento del Departamento de Seguridad Nacional de Estados Unidos señala que el gobierno insta a las empresas a instalar puertas traseras para ayudar en las operaciones para mantener la seguridad nacional.

Uno de los puntos de conflicto de TikTok fue precisamente el que acabamos de mencionar. Los datos de los estadounidenses estaban aparentemente expuestos a actores extranjeros. Para abordar esta preocupación, ByteDance, la matriz de la red social, llegó un acuerdo con Oracle para almacenar los datos de los usuarios de Estados Unidos en su territorio, sometiéndolos también a la legislación el país norteamericano.

Los datos recopilados por DeepSeek se almacenan en servidores en China.

Por otra parte, mucho hemos hablado acerca de lo estricta que es la regulación hacia las tecnológicas en la Unión Europea. El Reglamento General de Protección de Datos (RGPD) es clave en este asunto, ofreciendo un lineamiento bastante claro que las compañías que operan dentro del territorio deben cumplir. DeepSeek, aunque tenga sus servidores en China, no está exenta de cumplir con estas obligaciones para seguir operando con normalidad.

ChatGPT de OpenAI se enfrentó a varias investigaciones en Europa y una prohibición en Italia por infringir en RGPD. La autoridad italiana de protección de datos conocida como Garante solicitó una batería de medidas a la compañía liderada por Sam Altman para que pudiera volver a ofrecer el servicio, entre ellas una política de privacidad clara, herramientas para que los usuarios puedan borrar su datos personales y control de registro por edad.

DeepSeek permite eliminar el historial de chat

No está claro si DeepSeek cumple con estas y otras exigencias de la legislación europea. Si bien el chatbot permite eliminar el historial de chats, no queda claro si también se eliminan de sus servidores (y por consecuencia no se utilizan para tareas de entrenamiento). Asimismo, tampoco hemos encontrado una opción para evitar que el contenido de las conversaciones pueda ser utilizado para mejorar futuras iteraciones del modelo de lenguaje subyacente.

Cabe señalar que la política de las compañías señala algunos de estos puntos. Por ejemplo, dice que los usuarios registrados pueden “acceder, revisar y actualizar cierta información personal”. El problema es que los caminos para hacerlo no parecen ser muy sencillos DeepSeek invita a los interesados en hacer uso de sus derechos a ponerse en contacto con ellos o a controlar parte de la recopilación de datos a través de la configuración de cookies del navegador.

Hemos escrito a DeepSeek para obtener más información acerca de sus prácticas de recopilación de datos y cumplimiento de la normativa europea. Actualizaremos este artículo cuando recibamos una respuesta.

Imágenes | DeepSeek + Philipp Katzenberger | Alejandro Luengo | Captura de pantalla

En Xataka | Tras poner del revés la industria IA, DeepSeek lanza su primer modelo que entiende y crea imágenes: Janus Pro

-
La noticia DeepSeek es el modelo IA de moda. El problema es que nadie sabe muy bien qué está haciendo con nuestros datos fue publicada originalmente en Xataka por Javier Marquez .

Fuente: Xataka
Enlace: DeepSeek es el modelo IA de moda. El problema es que nadie sabe muy bien qué está haciendo con nuestros datos

Buscar este blog

Blog de Renzo Torres Cabrera