De las ideas verdes incoloras hasta ChatGpt: los grandes modelos del lenguaje

Autores/as

DOI:

https://doi.org/10.22201/dgtic.26832968e.2024.10.18

Palabras clave:

Modelos del lenguaje, procesamiento del lenguaje natural, Inteligencia Artificial

Resumen

Los grandes modelos del lenguaje son tecnologías que han mostrado una capacidad notable para producir texto que simula al lenguaje humano escrito; estos modelos están detrás de agentes conversacionales como chatGPT o Gemini. Si bien el impacto y uso de estos modelos se ha extendido a numerosos sectores de la sociedad, no siempre se discuten los fundamentos técnicos y científicos que subyacen a estos desarrollos de la inteligencia artificial. El presente artículo propone dar una introducción al funcionamiento de los modelos del lenguaje, desde las primeras propuestas hasta los grandes modelos actuales. Lo anterior con el fin de incentivar una comprensión más profunda de estas tecnologías y, por lo tanto, ampliar la discusión en torno al origen de algunas de sus limitaciones y potencialidades en diversos ámbitos, por ejemplo, en un marco educativo.

Descargas

Los datos de descargas todavía no están disponibles.

Biografía del autor/a

Víctor Germán Mijangos de la Cruz, Universidad Nacional Autónoma de México, Facultad de Ciencias, Departamento de Matemáticas

Víctor Mijangos es profesor de tiempo completo en la Facultad de Ciencias de la UNAM. Imparte cursos de Inteligencia Artificial en esta facultad y ha impartido cursos en el Diplomado de Inteligencia Artificial Aplicada de la UNAM y el programa de Ciencias de Datos del ITAM. Ha publicado diversos trabajos en el área del procesamiento del lenguaje natural, enfocándose a las tecnologías del lenguaje para lenguas de bajos recursos.

Ximena Gutierrez-Vasques, Universidad Nacional Autónoma de México, Centro de Investigaciones Interdisciplinarias en Ciencias y Humanidades

Ximena Gutiérrez Vasques es una investigadora especializada en lingüística computacional e IA con un enfoque interdisciplinario para profundizar en el estudio del lenguaje humano. Sus líneas de investigación cubren el procesamiento del lenguaje natural en entornos multilingües, la lingüística cuantitativa, y el desarrollo de tecnologías para lenguas minorizadas de México. Ha realizado estudios en diversas universidades internacionales, recientemente fue investigadora posdoctoral en la Universidad de Zürich, Suiza, donde se especializó en aproximaciones para modelar la complejidad y la diversidad lingüística utilizando métodos estadísticos y computacionales. Actualmente se incorporó como investigadora asociada al Centro de Investigaciones Interdisciplinarias en Ciencias y Humanidades (CEIICH) de la UNAM, donde trabaja en la interfaz entre las humanidades y el área de la inteligencia artificial, lo anterior dentro del programa Macrodatos, Inteligencia Artificial e Internet.

Citas

C. E. Shannon, "A mathematical theory of communication," The Bell System Technical Journal, vol. 27, no. 3, pp. 379-423, 1948.

D. Jurafsky y J. H. Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Prentice Hall, 2009.

Y. Bengio, R. Ducharme, y P. Vincent, “A neural probabilistic language model,” en Advances in Neural Information Processing Systems, vol. 13, 2000.

M. Sahlgren, “The distributional hypothesis,” en Italian Journal of Linguistics, vol. 20, pp. 33-53, 2008.

T. Mikolov, I. Sutskever, K. Chen, G. S. Corrado, and J. Dean, "Distributed representations of words and phrases and their compositionality," in Advances in Neural Information Processing Systems, vol. 26, 2013.

P. Bojanowski, E. Grave, A. Joulin, y T. Mikolov, “Enriching word vectors with subword information,” en Transactions of the Association for Computational Linguistics, vol. 5, pp. 135-146, 2017.

J. Pennington, R. Socher, y C. D. Manning, “Glove: Global vectors for word representation,” en Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), pp. 1532-1543, 2014.

A. Grover y J. Leskovec, “node2vec: Scalable feature learning for networks,” en Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pp. 855-864, 2016.

M. E. Peters, M. Neumann, M. Iyyer, M. Gardner, C. Clark, K. Lee, y L. Zettlemoyer, “Deep contextualized word representations,” en Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pp. 2227–2237, 2018.

A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, y I. Polosukhin, “Attention is all you need,” en Advances in Neural Information Processing Systems, vol. 30, 2017.

H. Touvron, T. Lavril, G. Izacard, X. Martinet, M. A. Lachaux, T. Lacroix, y G. Lample, “Llama: Open and efficient foundation language models,” arXiv preprint arXiv:2302.13971*, 2023.

C. Raffel, N. Shazeer, A. Roberts, K. Lee, S. Narang, M. Matena, y P. J. Liu, “Exploring the limits of transfer learning with a unified text-to-text transformer,” Journal of Machine Learning Research, vol. 21, no. 140, pp. 1-67, 2020.

J. Devlin, M. W. Chang, K. Lee, and K. Toutanova, "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding," en Proceedings of NAACL-HLT, pp. 4171-4186, 2019.

Z. Xu, S. Jain, y M. Kankanhalli, “Hallucination is inevitable: An innate limitation of large language models,” *arXiv preprint arXiv:2401.11817*, 2024.

P. P. Liang, C. Wu, L. P. Morency, y R. Salakhutdinov, “Towards understanding and mitigating social biases in language models,” en *International Conference on Machine Learning*, pp. 6565-6576, 2021.

L. Codina y C. Garde, “Uso de ChatGPT en la docencia universitaria: fundamentos y propuestas,” *repositori.upf.edu*. [En línea]. Disponible: https://repositori.upf.edu/handle/10230/57015. [Accedido: junio 14, 2024].

L. J. Linares, J. A. L. Gómez, J. Á. M. Baos, F. P. R. Chicharro, y J. S. Guerrero, “ChatGPT: reflexiones sobre la irrupción de la inteligencia artificial generativa en la docencia universitaria,” en *Actas de las Jornadas sobre la Enseñanza Universitaria de la Informática (JENUI)*, vol. 8, pp. 113-120, 2023.

Ilustración del artículo que muestra una cabeza humana con la integración de circuitos electricos

Publicado

21/06/24 (12:00)

Cómo citar

Mijangos de la Cruz, V. G., & Gutierrez-Vasques, X. (2024). De las ideas verdes incoloras hasta ChatGpt: los grandes modelos del lenguaje. TIES, Revista De Tecnología E Innovación En Educación Superior, (10), 12–23. https://doi.org/10.22201/dgtic.26832968e.2024.10.18