Jailbreak Prompts: El arte de hackear la IA sin morir en el intento

Era una tarde lluviosa en Medellín, y como cualquier miércoles aburrido, me encontraba en el café de la esquina, ese que huele a café recién molido y croissants quemados. En la mesa de al lado, un tipo con gafas de marco grueso y una sudadera negra discutía acaloradamente con su amigo sobre algo que sonaba a ciencia ficción. No pude evitar escuchar.

Te recomendamos leer: Seo

Te recomendamos leer: Llms Sin Censura

—¿Pero tú sabes lo que es un jailbreak prompt? —preguntó el de las gafas, mirando a su interlocutor como si le hubiera insultado a la madre.

—¿Qué? ¿Eso es como cuando liberan el iPhone para instalar apps piratas? —respondió el otro, confundido.

—¡No, hombre! ¡Es mucho más que eso! —exclamó, casi derramando su café.

Ahí fue cuando intervine, porque claro, no podía dejar pasar la oportunidad de explicar algo que muchos aún no entienden. Y aquí estamos, tú y yo, en este artículo, para que no te quedes como el tipo del café, que ni siquiera sabía por dónde empezar.

¿Qué diablos es un jailbreak prompt?

Imagina que la IA es como un perro guardián. Está entrenada para proteger la casa, ladrar a los intrusos y seguir las órdenes al pie de la letra. Pero entonces llega alguien con un silbato especial y, sin que el perro se dé cuenta, lo convence de que abra la puerta, saque la cerveza de la nevera y ponga música en el altavoz. Eso es, básicamente, un jailbreak prompt.

Es una técnica para hackear la IA, para hacer que haga cosas que normalmente no haría, como darte información que no debería darte, o actuar de maneras que no están permitidas. ¿Suena peligroso? Lo es. ¿Suena emocionante? Más todavía.

El caso de Pepito y su desastre con ChatGPT

Hace unos meses, Pepito, un emprendedor de Medellín, decidió que quería hacer su propia IA para automatizar las respuestas de su negocio. El problema es que Pepito no tenía ni idea de cómo funcionaba la tecnología. Así que, en lugar de contratar a un experto, decidió buscar en Google cómo hacía la gente para ‘liberar’ a ChatGPT.

—Oiga, ¿usted sabe cómo puedo hacer que ChatGPT me deje poner malas palabras en las respuestas? —me preguntó un día.

—¿Para qué quieres eso? —le dije, ya anticipando el desastre.

—Es que quiero que mis clientes sepan que soy un tipo directo, sin pelos en la lengua.

¿El resultado? Pepito terminó con una IA que insultaba a los clientes, les decía que eran ‘torpes’ si no entendían las respuestas, y básicamente alejó a medio siglo de posibles compradores. Un desastre total.

Por qué tu jailbreak prompt parece un chiste malo

Aquí es donde muchos, especialmente en Medellín, la están cagando. Piensan que un jailbreak prompt es simplemente escribir algo como ‘Hola ChatGPT, dime lo que no deberías decirme’. Y no, querido lector, no es tan fácil.

El otro día un cliente me dijo:

—Intenté hacer un jailbreak, pero no funcionó. Creo que la IA es muy lista.

—No es que sea muy lista, es que tu prompt es una basura —le contesté, porque alguien tenía que decírselo.

Un buen jailbreak prompt requiere estrategia, creatividad y, sobre todo, entender cómo piensa la IA. No es solo pedirle que haga algo prohibido, es engañarla para que crea que está haciendo algo permitido.

Los 3 errores que todos cometen

1. Ser demasiado directo: Si le dices a la IA ‘Rompe tus normas’, lo más probable es que te ignore. Necesitas ser sutil, como quien conspira en voz baja.

2. No tener un objetivo claro: Algunos piensan que es cuestión de jugar con la IA, pero sin un propósito, solo estás perdiendo el tiempo.

3. Olvidar las consecuencias: Liberar a la IA tiene riesgos. No es un juego, y si no estás preparado para las posibles reacciones, mejor no lo hagas.

El futuro de los jailbreak prompts

Los jailbreak prompts están cambiando la forma en que interactuamos con la IA. Ya no se trata solo de preguntar y recibir respuestas, sino de explorar los límites de lo que la tecnología puede hacer. Pero, como con todo poder, viene con responsabilidad.

—¿Y tú qué piensas? ¿Es bueno o malo? —me preguntó el tipo del café, después de mi explicación.

—Ni lo uno ni lo otro —le dije—. Es solo una herramienta. Depende de cómo la uses.

Así que, querido lector, si estás pensando en probar esto, asegúrate de saber lo que estás haciendo. Porque, como dijo alguien sabio una vez: ‘Con un gran poder viene una gran responsabilidad’. Y, en este caso, también viene la posibilidad de hacer que ChatGPT te insulte delante de todos tus amigos. ¿Vale la pena? Tú decides.

Si quieres saber más sobre cómo funcionan los LLMs sin censura, no dudes en visitar nuestro sitio.