日韩AV片无码一区二区不卡电影_HEYZO无码综合国产精品_国产精品无码a∨精品_韩日美无码精品无码

新測試基準發布 強開源Llama 3尷尬了

2024-04-23 09:09:02 341觀看

如果試題太簡單,學霸和學渣都能考90分,拉不開差距……oB2驛資訊

隨著Claude 3、Llama 3甚至之后GPT-5等更強模型發布,業界急需一款更難、更有區分度的基準測試。oB2驛資訊

大模型競技場背后組織LMSYS推出下一代基準測試Arena-Hard,引起廣泛關注。oB2驛資訊

Llama 3的兩個指令微調版本實力到底如何,也有了新參考。oB2驛資訊

新測試基準發布 強開源Llama 3尷尬了oB2驛資訊

與之前大家分數都相近的MT Bench相比,Arena-Hard區分度從22.6%提升到87.4%,孰強孰弱一目了然。oB2驛資訊

Arena-Hard利用競技場實時人類數據構建,與人類偏好一致率也高達89.1%。oB2驛資訊

除了上面兩個指標都達到SOTA之外,還有一個額外的好處:oB2驛資訊

實時更新的測試數據包含人類新想出的、AI在訓練階段從未見過的提示詞,減輕潛在的數據泄露。oB2驛資訊

并且新模型發布后,無需再等待一周左右時間讓人類用戶參與投票,只需花費25美元快速運行測試管線,即可得到結果。oB2驛資訊

有網友評價,使用真實用戶提示詞而不是高中考試來測試,真的很重要。oB2驛資訊

新測試基準發布 強開源Llama 3尷尬了oB2驛資訊

新基準測試如何運作?oB2驛資訊

簡單來說,通過大模型競技場20萬個用戶查詢中,挑選500個高質量提示詞作為測試集。oB2驛資訊

首先,挑選過程中確保多樣性,也就是測試集應涵蓋廣泛的現實世界話題。oB2驛資訊

為了確保這一點,團隊采用BERTopic中主題建模管道,首先使用OpenAI的嵌入模型(text-embedding-3-small)轉換每個提示,使用 UMAP 降低維度,并使用基于層次結構的模型聚類算法 (HDBSCAN) 來識別聚類,后使用GPT-4-turbo進行匯總。oB2驛資訊

新測試基準發布 強開源Llama 3尷尬了oB2驛資訊

同時確保入選的提示詞具有高質量,有七個關鍵指標來衡量:oB2驛資訊

-具體性:提示詞是否要求特定的輸出?oB2驛資訊

-領域知識:提示詞是否涵蓋一個或多個特定領域?oB2驛資訊

-復雜性:提示詞是否有多層推理、組成部分或變量?oB2驛資訊

-解決問題:提示詞是否直接讓AI展示主動解決問題的能力?oB2驛資訊

-創造力:提示詞是否涉及解決問題的一定程度的創造力?oB2驛資訊

-技術準確性:提示詞是否要求響應具有技術準確性?oB2驛資訊

-實際應用:提示詞是否與實際應用相關?oB2驛資訊

新測試基準發布 強開源Llama 3尷尬了oB2驛資訊

使用GPT-3.5-Turbo和GPT-4-Turbo對每個提示進行從 0 到 7 的注釋,判斷滿足多少個條件。然后根據提示的平均得分給每個聚類評分。oB2驛資訊

高質量的問題通常與有挑戰性的話題或任務相關,比如游戲開發或數學證明。oB2驛資訊

新測試基準發布 強開源Llama 3尷尬了oB2驛資訊

新基準測試準嗎?oB2驛資訊

Arena-Hard目前還有一個弱點:使用GPT-4做裁判更偏好自己的輸出。官方也給出了相應提示。oB2驛資訊

可以看出,新兩個版本的GPT-4分數高過Claude 3 Opus一大截,但在人類投票分數中差距并沒有那么明顯。oB2驛資訊

新測試基準發布 強開源Llama 3尷尬了oB2驛資訊

其實關于這一點,近已經有研究論證,前沿模型都會偏好自己的輸出。oB2驛資訊

新測試基準發布 強開源Llama 3尷尬了oB2驛資訊

研究團隊還發現,AI天生就可以判斷出一段文字是不是自己寫的,經過微調后自我識別的能力還能增強,并且自我識別能力與自我偏好線性相關。oB2驛資訊

新測試基準發布 強開源Llama 3尷尬了oB2驛資訊

那么使用Claude 3來打分會使結果產生什么變化?LMSYS也做了相關實驗。oB2驛資訊

首先,Claude系列的分數確實會提高。oB2驛資訊

新測試基準發布 強開源Llama 3尷尬了oB2驛資訊

但令人驚訝的是,它更喜歡幾種開放模型如Mixtral和零一萬物Yi,甚至對GPT-3.5的評分都有明顯提高。oB2驛資訊

總體而言,使用Claude 3打分的區分度和與人類結果的一致性都不如GPT-4。oB2驛資訊

新測試基準發布 強開源Llama 3尷尬了oB2驛資訊

所以也有很多網友建議,使用多個大模型來綜合打分。oB2驛資訊

新測試基準發布 強開源Llama 3尷尬了oB2驛資訊

除此之外,團隊還做了更多消融實驗來驗證新基準測試的有效性。oB2驛資訊

比如在提示詞中加入“讓答案盡可能詳盡”,平均輸出長度更高,分數確實會提高。oB2驛資訊

但把提示詞換成“喜歡閑聊”,平均輸出長度也有提高,但分數提升就不明顯。oB2驛資訊

新測試基準發布 強開源Llama 3尷尬了oB2驛資訊

此外在實驗過程中還有很多有意思的發現。oB2驛資訊

比如GPT-4來打分非常嚴格,如果回答中有錯誤會狠狠扣分;而Claude 3即使識別出小錯誤也會寬大處理。oB2驛資訊

對于代碼問題,Claude 3傾向于提供簡單結構、不依賴外部代碼庫,能幫助人類學習編程的答案;而GPT-4-Turbo更傾向實用的答案,不管其教育價值如何。oB2驛資訊

另外即使設置溫度為0,GPT-4-Turbo也可能產生略有不同的判斷。oB2驛資訊

從層次結構可視化的前64個聚類中也可以看出,大模型競技場用戶的提問質量和多樣性確實是高。oB2驛資訊

新測試基準發布 強開源Llama 3尷尬了oB2驛資訊

這里面也許就有你的貢獻。oB2驛資訊

Arena-Hard GitHub:oB2驛資訊

https://github.com/lm-sys/arena-hardoB2驛資訊

Arena-Hard HuggingFace:oB2驛資訊

https://huggingface.co/spaces/lmsys/arena-hard-browseroB2驛資訊

大模型競技場:oB2驛資訊

https://arena.lmsys.orgoB2驛資訊

參考鏈接:oB2驛資訊

[1]https://x.com/lmsysorg/status/1782179997622649330oB2驛資訊

[2]https://lmsys.org/blog/2024-04-19-arena-hard/oB2驛資訊

本文鏈接:http://m.bbbearmall.com/news-128749.html新測試基準發布 強開源Llama 3尷尬了

標簽:
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com。天上從來不會掉餡餅,請大家時刻謹防詐騙
日韩AV片无码一区二区不卡电影_HEYZO无码综合国产精品_国产精品无码a∨精品_韩日美无码精品无码

    男女激情免费视频| 亚洲 高清 成人 动漫| 国内精品在线观看视频| 精品999在线| 欧美黄网在线观看| 国产免费又粗又猛又爽| r级无码视频在线观看| 中文字幕第22页| 人妻内射一区二区在线视频| 国产美女视频免费| 国产又猛又黄的视频| 免费人成自慰网站| 91插插插影院| 国产小视频精品| 欧美变态另类刺激| 粉嫩av一区二区三区天美传媒| 天堂社区在线视频| 免费av手机在线观看| 国产精品久久成人免费观看| 别急慢慢来1978如如2| 少妇无码av无码专区在线观看 | 国产探花在线观看视频| 成年人在线看片| 日本一区午夜艳熟免费| 99re99热| 精品亚洲视频在线| 狠狠操精品视频| 亚洲 高清 成人 动漫| 黄页网站在线观看视频| 日韩精品在线观看av| 国内自拍中文字幕| 日韩国产精品毛片| 国产成人强伦免费视频网站| 中文字幕成人在线视频| 国产无套粉嫩白浆内谢的出处| 国产精品裸体瑜伽视频| av动漫在线播放| 五月天激情图片| 黄色一级大片免费| 日本三日本三级少妇三级66| 国产精品igao网网址不卡| 182午夜在线观看| gai在线观看免费高清| 亚洲国产高清av| 爱情岛论坛亚洲首页入口章节| 国产精品涩涩涩视频网站| 欧美激情成人网| 国产三级日本三级在线播放| 免费看a级黄色片| 毛片毛片毛片毛片毛片毛片毛片毛片毛片| 国产成人黄色片| 超碰影院在线观看| www.天天射.com| 国产喷水theporn| 免费成人黄色大片| 欧美日韩一级在线| 91黄色在线看| 欧美日韩亚洲第一| 少妇高潮喷水久久久久久久久久| 欧美成人xxxxx| 久久婷婷国产91天堂综合精品| 国产高清视频网站| 天天看片天天操| 黄色一级片网址| 激情六月天婷婷| 男人和女人啪啪网站| 日本免费一级视频| jizzzz日本| 永久免费黄色片| 国产高清av在线播放| 久久久久久久久久久福利| 男人的天堂日韩| 五月天视频在线观看| 成人在线观看www| 热99这里只有精品| 天美星空大象mv在线观看视频| 亚洲精品20p| 国产911在线观看| 91九色在线观看视频| 亚洲激情在线观看视频| 超碰在线超碰在线| 男人日女人视频网站| 久久久久久三级| 黄频视频在线观看| 男人添女荫道口图片| 欧美性猛交久久久乱大交小说| 99中文字幕在线| 国产自产在线视频| 网站一区二区三区| 日本老太婆做爰视频| 欧美精品99久久| 亚洲小视频网站| 福利视频一区二区三区四区| 中文字幕永久视频| 国产精品视频一二三四区| 日本www.色| 精品一区二区三区毛片| 99热成人精品热久久66| 吴梦梦av在线| 国产无套内射久久久国产| 午夜啪啪免费视频| 日av中文字幕| 久久久国内精品| 老司机久久精品| 欧美一区二区中文字幕| 91香蕉国产线在线观看| 免费观看精品视频| 九九久久九九久久| 久热精品在线播放| 日日摸日日碰夜夜爽无码| 奇米777在线视频| 精品少妇无遮挡毛片| av无码久久久久久不卡网站| 亚洲娇小娇小娇小| 日本精品免费在线观看| 亚洲小视频在线播放| 亚洲欧美久久久久| 国产精品一区二区免费在线观看| 毛毛毛毛毛毛毛片123| 青青在线视频免费| 青青草国产免费| 中文字幕一区二区三区四区五区人| 欧美a在线视频| 亚洲色成人www永久在线观看 | 日韩精品在线观看av| 亚洲网中文字幕| 日韩精品免费播放| 大j8黑人w巨大888a片| 性生活免费观看视频| 色播五月综合网| 免费av网址在线| 久久黄色片视频| 国产91视频一区| 色一情一乱一乱一区91| 中文字幕在线视频精品| 天天碰免费视频| 日本中文字幕片| 日本在线xxx| 亚洲精品无码国产| 欧美国产视频一区| 国产经典久久久| 天天综合中文字幕| 五月六月丁香婷婷| www.国产视频.com| www.夜夜爽| 一级片视频免费观看| 亚洲天堂av线| 午夜免费一区二区| 无码少妇一区二区三区芒果| 日本一极黄色片| 欧美女人性生活视频| 日本人体一区二区| www在线观看免费| 精品无码一区二区三区在线| 成人午夜免费在线| 亚洲熟妇国产熟妇肥婆| www.好吊操| 男人天堂a在线| 成熟丰满熟妇高潮xxxxx视频| 成人毛片一区二区| 女人天堂av手机在线| 精品无码国模私拍视频| 日本欧美黄色片| 乱妇乱女熟妇熟女网站| 黄色a级片免费| 亚洲视频在线a| 成人黄色一级大片| 超碰97免费观看| 亚洲爆乳无码精品aaa片蜜桃| 青青在线视频免费观看| 成人午夜精品久久久久久久蜜臀| 秋霞无码一区二区| 少妇人妻互换不带套| 日本人视频jizz页码69| 在线能看的av网站| 亚洲天堂第一区| 僵尸世界大战2 在线播放| 99蜜桃臀久久久欧美精品网站| 少妇黄色一级片| 黄瓜视频免费观看在线观看www| 99中文字幕在线观看| 日本国产在线播放| 中文字幕一区二区三区四区在线视频| 老司机久久精品| 久久久久免费看黄a片app| 日韩中字在线观看| 99视频精品免费| 在线播放av中文字幕| www.一区二区.com| 中文字幕无码不卡免费视频| 亚洲自拍第三页| 91精品国产91久久久久麻豆 主演| 日韩av片在线看| 国产美女视频免费看| a天堂资源在线观看| 动漫av免费观看| 午夜影院免费版| 播放灌醉水嫩大学生国内精品| 亚洲一级免费观看| 国产精品国三级国产av|