De las ideas verdes incoloras hasta ChatGpt: los grandes modelos del lenguaje
DOI:
https://doi.org/10.22201/dgtic.26832968e.2024.10.18Palabras clave:
Modelos del lenguaje, procesamiento del lenguaje natural, Inteligencia ArtificialResumen
Los grandes modelos del lenguaje son tecnologías que han mostrado una capacidad notable para producir texto que simula al lenguaje humano escrito; estos modelos están detrás de agentes conversacionales como chatGPT o Gemini. Si bien el impacto y uso de estos modelos se ha extendido a numerosos sectores de la sociedad, no siempre se discuten los fundamentos técnicos y científicos que subyacen a estos desarrollos de la inteligencia artificial. El presente artículo propone dar una introducción al funcionamiento de los modelos del lenguaje, desde las primeras propuestas hasta los grandes modelos actuales. Lo anterior con el fin de incentivar una comprensión más profunda de estas tecnologías y, por lo tanto, ampliar la discusión en torno al origen de algunas de sus limitaciones y potencialidades en diversos ámbitos, por ejemplo, en un marco educativo.
Descargas
Citas
C. E. Shannon, "A mathematical theory of communication," The Bell System Technical Journal, vol. 27, no. 3, pp. 379-423, 1948.
D. Jurafsky y J. H. Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Prentice Hall, 2009.
Y. Bengio, R. Ducharme, y P. Vincent, “A neural probabilistic language model,” en Advances in Neural Information Processing Systems, vol. 13, 2000.
M. Sahlgren, “The distributional hypothesis,” en Italian Journal of Linguistics, vol. 20, pp. 33-53, 2008.
T. Mikolov, I. Sutskever, K. Chen, G. S. Corrado, and J. Dean, "Distributed representations of words and phrases and their compositionality," in Advances in Neural Information Processing Systems, vol. 26, 2013.
P. Bojanowski, E. Grave, A. Joulin, y T. Mikolov, “Enriching word vectors with subword information,” en Transactions of the Association for Computational Linguistics, vol. 5, pp. 135-146, 2017.
J. Pennington, R. Socher, y C. D. Manning, “Glove: Global vectors for word representation,” en Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), pp. 1532-1543, 2014.
A. Grover y J. Leskovec, “node2vec: Scalable feature learning for networks,” en Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pp. 855-864, 2016.
M. E. Peters, M. Neumann, M. Iyyer, M. Gardner, C. Clark, K. Lee, y L. Zettlemoyer, “Deep contextualized word representations,” en Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pp. 2227–2237, 2018.
A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, y I. Polosukhin, “Attention is all you need,” en Advances in Neural Information Processing Systems, vol. 30, 2017.
H. Touvron, T. Lavril, G. Izacard, X. Martinet, M. A. Lachaux, T. Lacroix, y G. Lample, “Llama: Open and efficient foundation language models,” arXiv preprint arXiv:2302.13971*, 2023.
C. Raffel, N. Shazeer, A. Roberts, K. Lee, S. Narang, M. Matena, y P. J. Liu, “Exploring the limits of transfer learning with a unified text-to-text transformer,” Journal of Machine Learning Research, vol. 21, no. 140, pp. 1-67, 2020.
J. Devlin, M. W. Chang, K. Lee, and K. Toutanova, "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding," en Proceedings of NAACL-HLT, pp. 4171-4186, 2019.
Z. Xu, S. Jain, y M. Kankanhalli, “Hallucination is inevitable: An innate limitation of large language models,” *arXiv preprint arXiv:2401.11817*, 2024.
P. P. Liang, C. Wu, L. P. Morency, y R. Salakhutdinov, “Towards understanding and mitigating social biases in language models,” en *International Conference on Machine Learning*, pp. 6565-6576, 2021.
L. Codina y C. Garde, “Uso de ChatGPT en la docencia universitaria: fundamentos y propuestas,” *repositori.upf.edu*. [En línea]. Disponible: https://repositori.upf.edu/handle/10230/57015. [Accedido: junio 14, 2024].
L. J. Linares, J. A. L. Gómez, J. Á. M. Baos, F. P. R. Chicharro, y J. S. Guerrero, “ChatGPT: reflexiones sobre la irrupción de la inteligencia artificial generativa en la docencia universitaria,” en *Actas de las Jornadas sobre la Enseñanza Universitaria de la Informática (JENUI)*, vol. 8, pp. 113-120, 2023.
Descargas
Publicado
Cómo citar
Número
Sección
Licencia
Derechos de autor 2024 TIES, Revista de Tecnología e Innovación en Educación Superior
Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial 4.0.
TIES, Revista de Tecnología e Innovación en Educación Superior, es una publicación semestral de acceso abierto bajo la licencia Creative Commons Atribución-No Comercial 4.0 Internacional (CC BY-NC 4.0).
ISSN 22683-2968 • © 2024 Universidad Nacional Autónoma de México. TIES, Revista de Tecnología e Innovación en Educación Superior es editada por la Universidad Nacional Autónoma de México a través de la Dirección General de Cómputo y de Tecnologías de Información y Comunicación (DGTIC). Circuito exterior s/n, Ciudad Universitaria, Alcaldía Coyoacán, C.P. 04510, Ciudad de México, México • Reserva de Derechos de Autor otorgado por INDAUTOR: 04-2019-011816190900-203.
El contenido de los artículos es responsabilidad de los autores y no refleja el punto de vista del Comité editorial, del Editor o de la Universidad Nacional Autónoma de México. Hecho en México, 2024.