OPEN IA GPT-2: ¿Puedo replicar software sin permiso?

OPEN IA GPT-2: ¿Puedo replicar software sin permiso?

¿Qué es OPEN IA GPT-2? ¿Como funciona?

Es una IA (Inteligencia Artificial) capaz de escribir un texto con tan solo la aportación de un párrafo por parte del usuario. Lo realmente alucinante es que el texto creado mantiene una coherencia increíble, con una estructura semántica estable, e incluso memoriza a los personajes que intervienen en el mismo, hasta ahora nunca se había visto un avance tan significante en el campo del Machine Learning.

Y esto ha sido posible gracias a los avances que se están produciendo en el campo del Natural Language Processing

via GIPHY

Pero ¿Qué es el NLP? (Natural Language Processing)

NLP o Campo de procesamiento del lenguaje, es el campo que se encarga de entender como funciona el lenguaje como se construye y como se genera nuevo lenguaje, Cuando logras implementar en este campo Machine Learning consigues que la IA pueda realizar un análisis de manera automática y aprenda a realizar tareas relacionadas con el tratamiento y el procesamiento del lenguaje.

Dentro de este campo podemos destacar ciertas tareas como son:

1-Generar nuevo texto

2-Realizar traducciones de un idioma a otro

3-Realizar tareas que se encuadren dentro de la comprensión lectora, pudiendo realizarle preguntas sobre el texto, y con ello confeccionar un resumen del mismo.

Todo esto no termina aquí ya que si este modelo se implementará en «Chatbots» podrías tener una verdadera conversación con este tipo de bots, entendiéndote y respondiéndote a las preguntas que le pudieras plantear.

via GIPHY

¿Word Embedding? o ¿One-hot encoding?

Para poder entrenar la red neuronal, esta debe ser alimentada con texto, texto que se debe subdividir en secuencias de frases o palabras o incluso en caracteres.

Pero claro una palabra en si misma no es suficiente para alimentar a una red neuronal, de alguna manera debes conseguir primero una representación numérica de esa palabra porque la red neuronal opera con números. En ese sentido existen varios métodos para representar numéricamente esas palabras como por ejemplo el «one-hot encoding«. (un método que aunque funciona, no aporta resultados más allá de la representación de la palabra a términos numéricos)

El «word embedding» es un método por el cual a la hora de codificar una palabra, en esa codificación se inserta información semántica de la misma. Es decir este método cogería un palabra que convertiría posteriormente en un vector. y ese vector codificaría la relación existente entre esas palabras (por ejemplo melón y sandía deberían tener un vector mas parecido entre sí, que el vector resultante entre avión y melón).

Y esto no termina aquí ya que cuando estos vectores son aprendidos por una máquina (de forma no supervisada) esta es capaz de realizar cálculos entre los vectores (recordemos estaríamos restando significantes a las palabras) y de esta manera llegar a otras palabras que en realidad no habría aprendido previamente (por ejemplo: si tenemos el vector REINA y le restamos el vector MUJER, y a ese le añadimos el vector HOMBRE el resultado sería el vector REY).

Resulta muy interesante el siguiente Post de Oliver Nabani sobre la relación matemática entre los vectores.

Como podemos ver a partir de todo esto, estamos ante una IA totalmente revolucionaria y que en malas manos podría suponer la desinformación total de la población mundial. Pero no todo esta perdido…

via GIPHY

¿Censuramos o liberamos?

Esta potente IA fue censurada por el propio Elon Musk, por ser demasiado peligrosa, ya que podría ser capaz de generar fake news con una facilidad y fiabilidad pasmosa, en palabras del propio Musk sería: «Demasiado peligrosa como para su lanzamiento»

Ejemplo del periódico The Guardian, sobre como Open IA puede generar fake news

Y entonces llegó Connor Leahy

Tras la censura sufrida en Febrero de 2019, OpenAI decidió publicar una versión limitada de GPT-2, de 117M (millones de parámetros). Más tarde publicó una versión de 345M, pero aún se quedaba muy por detrás de los 1,5B de la versión completa. Así que en teoría con esa pequeña versión, solo era posible realizar pequeños experimentos con textos.

Sin embargo el pasado 6 de Junio, el estudiante Connor Leahy, anuncio por su cuenta de Twitter que había conseguido «replicar» el modelo de Open IA GPT-2, la versión de 1,5B, y que lo sacará a la luz el 1 de Julio, si nadie le convencía de lo contrario.

Y ahora viene la pregunta ¿Podía Connor Leahy replicar ese modelo? ¿Debería pedir permiso a Open IA para modificar el código?

Open IA GPT-2 fue lanzada mediante una licencia MIT, este tipo de licencia nació en el Instituto Técnico de Massachussets (MIT) y de ahí su nombre. Este tipo de licencia tiene 3 partes:

1-Se permite a cualquiera con una copia sin restricción: Copiar, Usar, Modificar, Combinar, Publicar, Distribuir, Sublicenciar o Vender copias.

2-Estos derechos se otorgan con al condición de incluir el aviso en todas las copias de software

3-Descargo de responsabilidad y renuncia a la garantía

Para un entendimiento ameno y divertido sobre las diferentes licencias de Software, recomendamos el trabajo realizado por NoLegalTech, en su Cómic «La Jungla del Software».

Por lo que vemos si adquirió una licencia sin restricciones pudo realizar modificaciones en el software sin tener que pedir permiso alguno a la compañía que lo había desarrollado inicialmente. Y por ello siempre que tenga en consideración las 3 partes de la licencia antes comentada podrá hacer publico su Open IA GPT-2 de 1.5B.

Finalmente debemos destacar que el Cloud TPU v3-512 que ofrecía Google Cloud Plataform, se distribuye bajo licencia Apache 2.0 y por lo tanto permite al usuario del software la libertad de usarlo para cualquier propósito, distribuirlo, modificarlo, y distribuir versiones modificadas de ese software.

En conclusión estamos ante un uso totalmente conforme a las reglas que se establecen para las licencias de software libre y por lo tanto Connor Leahy puede estar tranquilo, al menos en cuanto a este extremo. Ya veremos si finalmente alguien le convence para que no libere a la Bestia de OPEN AI GPT-2

via GIPHY

Deja un comentario

Información básica sobre protección de datos

  • Responsable TicsLaw .
  • Finalidad Moderar los comentarios. Responder las consultas.
  • Legitimación Tu consentimiento.
  • Destinatarios Hostalia.
  • Derechos Acceder, rectificar y suprimir los datos.
  • Información Adicional Puedes consultar la información detallada en el Aviso Legal.