Según informes, la más reciente versión del modelo Wenxin, conocida como Baidu Wenxin Big Model 3.5 o ERNIE 3.5, ha superado a ChatGPT en varias pruebas.
El pasado mes de mayo, durante el Foro Zhongguancun, Robin Li, fundador, presidente y director ejecutivo de Baidu, empresa reconocida por su motor de búsqueda y presentadora del modelo IA Ernie Bot, aseguró que la tan esperada “versión madre” del modelo a gran escala de Baidu marcaría el inicio de la versión 3.5 de Wenxin.
Según la compañía, tras rigurosas pruebas internas, los resultados muestran que ERNIE 3.5 ha superado las expectativas y ha demostrado ser una IA de vanguardia.
La evaluación Few-Shot realizada en el conjunto de prueba público reveló que recientemente Wenxin Large Model 3.5 ha superado a ChatGPT en múltiples conjuntos de prueba. Estos conjuntos de prueba, que incluyen decenas de miles de preguntas de exámenes “examen unificado”, son una prueba sólida de la capacidad de comprensión y respuesta de los chatbots.
Los 3 puntos principales de la evaluación
La revista china de ciencia Weixin en una nota mencionó que la evaluación integral de los grandes modelos principales se lleva a cabo en tres puntos de referencia de evaluación autorizados: AGIEval, C-Eval y MMLU.
Estos puntos de referencia analizan de manera exhaustiva decenas de miles de preguntas de exámenes, proporcionando una evaluación sólida del desempeño de los modelos.
- Punto de referencia AGIEval: desarrollado por Microsoft Research, se centra en pruebas estandarizadas “orientadas a humanos”. Incluye 20 exámenes de calificación oficiales y públicos, que abarcan desde exámenes universitarios (China y SAT en Estados Unidos), judiciales hasta pruebas de matemáticas y de servicio civil. Este punto de referencia permite evaluar el rendimiento del modelo en comparación con el de los candidatos humanos comunes.
- Punto de referencia C-Eval: es un conjunto de evaluación específicamente diseñado para modelos de idioma chino. Fue creado en colaboración entre la Universidad Jiaotong de Shanghái, la Universidad Tsinghua y la Universidad de Edimburgo. Consta de 13.948 preguntas de opción múltiple, que cubren 52 temas diferentes y presentan cuatro niveles de dificultad. Este punto de referencia proporciona una evaluación completa del rendimiento de los modelos de lenguaje chino.
- El tercer punto de referencia MMLU: es un conjunto de evaluación multitarea de comprensión del lenguaje a gran escala. Fue desarrollado conjuntamente por varias universidades prestigiosas, como la Universidad de Berkeley, la Universidad de Columbia, la Universidad de Illinois en Urbana-Champaign y la Universidad de Chicago. MMLU evalúa la capacidad profesional interdisciplinaria en inglés del modelo y abarca 57 temas que incluyen STEM, humanidades, ciencias sociales y más.
“Estamos encantados de anunciar la iteración de nuestro modelo básico, ERNIE, a la versión 3.5. ERNIE 3.5 ha logrado avances significativos en las pruebas beta, superando a ChatGPT (3.5) en puntajes de capacidad integrales y superando a GPT-4 en varias capacidades de idioma chino, según lo informado por China Science Daily”, mencionó la compañía Baidu en un comunicado.
Es importante tener en cuenta que la medición fue basada en conjunto con otros modelos grandes e importantes de inteligencia artificial como: ChatGPT, GPT-4, ChatGLM y LLaMa.
“A juzgar por los puntajes de evaluación anteriores, Wenxin Model 3.5 tiene una capacidad china sobresaliente, incluso superando a GPT-4; su capacidad integral es ligeramente inferior a GPT-4, pero ya superó a ChatGPT en la evaluación, muy por delante de otros modelos grandes de código abierto”, resaltó weixin en la nota.
¿Qué es Ernie Bot?
Para el día 16 de marzo de 2023, medios de comunicación presentaron a la empresa Baidu anunciado la llegada de Ernie Bot, un chatbot de inteligencia artificial (IA).
“Ernie Bot se basa en el modelo de aprendizaje profundo impulsado por la inteligencia artificial Ernie —siglas en inglés de ‘Representación mejorada a través de la integración del conocimiento’— que Baidu lanzó en 2019 y cuya tercera versión se publicó en mayo de 2020”, menciona el portal DW.
En diferentes medios lo definen como el modelo de IA chino, el cual es la competencia directa del reconocido ChatGPT: “Su funcionamiento es muy parecido al de ChatGPT, ya que a Ernie Bot también le gusta hablar en un tono formal, y enumerar las respuestas en viñetas y listas. Tiene un dominio básico de hechos históricos, obras literarias y tendencias de internet, pero a veces se equivoca en los detalles”, mencionó el portal technologyreview.
Siendo similar que el conocido ChatGPT, Ernie Bot es un modelo de lenguaje basado en inteligencia artificial. Sin embargo, utiliza una variante llamada ERNIE (Enhanced Representation through kNowledge IntEgration) que se enfoca en la integración de conocimiento para mejorar su comprensión y generación de texto.
“Una característica definitoria de ERNIE 3.5 son los complementos. Por ejemplo, el complemento integrado predeterminado Baidu Search equipa a ERNIE Bot con la capacidad de generar información precisa y en tiempo real. Otro complemento de ChatFile permite resúmenes de texto largo y preguntas y respuestas,” mencionó Baidu acerca de los nuevos complementos.