东汉末年

东汉末年

评估ChatGPT和大语言模型的22篇论文

2023-03-21 16:23:39

整理自 https://github.com/KSESEU/LLMPapers

公开数据集评估交互式LLM的框架

公开数据集评估交互式LLM的框架

香港科技大学数据集框架

ChatGPT/3.5 不同任务下性能报告

ChatGPT/3.5 不同任务下性能报告

南洋理工斯坦福

ChatGPT与传统问答知识图谱比较

ChatGPT与传统问答知识图谱比较

问答系统知识图谱

ChatGPT的数学能力

ChatGPT的数学能力

牛津大学剑桥大学

ChatGPT对基于查询的文本摘要

ChatGPT对基于查询的文本摘要

Microsoft

ChatGPT鲁棒性和泛化能力分析

ChatGPT鲁棒性和泛化能力分析

miscrosoft

生成模型领域里ChatGPT不是一切

生成模型领域里ChatGPT不是一切

模型类别分析

对比ChatGPT和微调的BERT

对比ChatGPT和微调的BERT

京东武汉大学悉尼大学

评估ChatGPT回答复杂问题的能力

评估ChatGPT回答复杂问题的能力

东南大学

语言模型的整体评价

语言模型的整体评价

2022斯坦福HAI

评估语言大模型的文本转SQL能力

评估语言大模型的文本转SQL能力

剑桥大学

视觉语言模型是常识知识库吗

视觉语言模型是常识知识库吗

Stuttgart

心理学角度评估大模型GPT3

心理学角度评估大模型GPT3

阿里巴巴

基于多语言模型地缘差异常识探索

基于多语言模型地缘差异常识探索

加州大学

ROBUSTLR:推理机逻辑鲁棒性基准

ROBUSTLR:推理机逻辑鲁棒性基准

南加州大学

评估大语言模型生成代码

评估大语言模型生成代码

openai

GLGE:新的通用语言生成评估基准

GLGE:新的通用语言生成评估基准

miscrosoft

评估分析用户反馈的预训练模型

评估分析用户反馈的预训练模型

语言模型是否执行可归纳常识推理

语言模型是否执行可归纳常识推理

南加州大学

RICA:基于常识公理评估推理能力

RICA:基于常识公理评估推理能力

南加州大学

评估文本生成能力

评估文本生成能力

meta

神经语言生成：公式、方法和评估

神经语言生成：公式、方法和评估

Michigan

BERTScore：评估BERT文本生成

BERTScore：评估BERT文本生成

康奈尔大学

Comments

chat_bubble_outline

No comments yet, be the first to comment