Охота на электроовец. Большая книга искусственного интеллекта - Сергей Сергеевич Марков
2209
Xu L., Hu H., Zhang X., Li L., Cao C., Li Y., Xu Y., Sun K., Yu D., Yu C., Tian Y., Dong Q., Liu W., Shi B., Cui Y., Li J., Zeng J., Wang R., Xie W., Li Y., Patterson Y., Tian Z., Zhang Y., Zhou H., Liu S., Zhao Z., Zhao Q., Yue C., Zhang X., Yang Z., Richardson K., Lan Z. (2020). CLUE: A Chinese Language Understanding Evaluation Benchmark // https://arxiv.org/abs/2004.05986
2210
Rybak P., Mroczkowski R., Tracz J., Gawlik I. (2020). KLEJ: Comprehensive Benchmark for Polish Language Understanding // https://arxiv.org/abs/2005.00630
2211
Liang Y., Duan N., Gong Y., Wu N., Guo F., Qi W., Gong M., Shou L., Jiang D., Cao G., Fan X., Zhang R., Agrawal R., Cui E., Wei S., Bharti T., Qiao Y., Chen J.-H., Wu W., Liu S., Yang F., Campos D., Majumder R., Zhou M. (2020). XGLUE: A New Benchmark Dataset for Cross-lingual Pre-training, Understanding and Generation // https://arxiv.org/abs/2004.01401
2212
Hu J., Ruder S., Siddhant A., Neubig G., Firat O., Johnson M. (2020). XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization // https://arxiv.org/abs/2003.11080
2213
Shavrina T., Malykh V. (2021). How not to Lie with a Benchmark: Rearranging NLP Leaderboards // https://arxiv.org/abs/2112.01342
2214
Hendrycks D., Burns C., Basart S., Zou A., Mazeika M., Song D., Steinhardt J. (2020). Measuring Massive Multitask Language Understanding // https://arxiv.org/abs/2009.03300
2215
OpenAI (2023). GPT-4 Technical Report // https://arxiv.org/abs/2303.08774
2216
AI Explained (2023). SmartGPT: Major Benchmark Broken - 89.0% on MMLU + Exam's Many Errors / YouTube, 28.08.2023 // https://www.youtube.com/watch?v=hVade_8H8mE
2217
Srivastava A., Rastogi A., Rao A., Shoeb A. A. M., Abid A., Fisch A., Brown A. R., Santoro A., Gupta A., Garriga-Alonso A., Kluska A., Lewkowycz A., Agarwal A., Power A., Ray A., Warstadt A., Kocurek A. W., Safaya A., Tazarv A., Xiang A., Parrish A., Nie A., Hussain A., Askell A., Dsouza A., Slone A., Rahane A., Iyer A. S., Andreassen A., Madotto A., Santilli A., Stuhlmüller A., Dai A., La A., Lampinen A., Zou A., Jiang A., Chen A., Vuong A., Gupta A., Gottardi A., Norelli A., Venkatesh A., Gholamidavoodi A., Tabassum A., Menezes A., Kirubarajan A., Mullokandov A., Sabharwal A., Herrick A., Efrat A., Erdem A., Karakaş A., Roberts B. R., Loe B. S., Zoph B., Bojanowski B., Özyurt B., Hedayatnia B., Neyshabur B., Inden B., Stein B., Ekmekci B., Lin B. Y., Howald B., Orinion B., Diao C., Dour C., Stinson C., Argueta C., Ramírez C. F., Singh C., Rathkopf C., Meng C., Baral C., Wu C., Callison-Burch C., Waites C., Voigt C., Manning C. D., Potts C., Ramirez C., Rivera C. E., Siro C., Raffel C., Ashcraft C., Garbacea C., Sileo D., Garrette D., Hendrycks D., Kilman D., Roth D., Freeman D., Khashabi D., Levy D., González D. M., Perszyk D., Hernandez D., Chen D., Ippolito D., Gilboa D., Dohan D., Drakard D., Jurgens D., Datta D., Ganguli D., Emelin D., Kleyko D., Yuret D., Chen D., Tam D., Hupkes D., Misra D., Buzan D., Mollo D. C., Yang D., Lee D.-H., Schrader D., Shutova E., Cubuk E. D., Segal E., Hagerman E., Barnes E., Donoway E., Pavlick E., Rodola E., Lam E., Chu E., Tang E., Erdem E., Chang E., Chi E. A., Dyer E., Jerzak E., Kim E., Manyasi E. E., Zheltonozhskii E., Xia F., Siar F., Martínez-Plumed F., Happé F., Chollet F., Rong F., Mishra G., Winata G. I., de Melo G., Kruszewski G., Parascandolo G., Mariani G., Wang G., Jaimovitch-López G., Betz G., Gur-Ari G., Galijasevic H., Kim H., Rashkin H., Hajishirzi H., Mehta H., Bogar H., Shevlin H., Schütze H., Yakura H., Zhang H., Wong H. M., Ng I., Noble I., Jumelet J., Geissinger J., Kernion J., Hilton J., Lee J., Fisac J. F., Simon J. B., Koppel J., Zheng J., Zou J., Kocoń J., Thompson J., Wingfield J., Kaplan J., Radom J., Sohl-Dickstein J., Phang J., Wei J., Yosinski J., Novikova J., Bosscher J., Marsh J., Kim J., Taal J., Engel J., Alabi J., Xu J., Song J., Tang J., Waweru J., Burden J., Miller J., Balis J. U., Batchelder J., Berant J., Frohberg J., Rozen J., Hernandez-Orallo J., Boudeman J., Guerr J., Jones J., Tenenbaum J. B., Rule J. S., Chua J., Kanclerz K., Livescu K., Krauth K., Gopalakrishnan K., Ignatyeva K., Markert K., Dhole K. D., Gimpel K., Omondi K., Mathewson K., Chiafullo K., Shkaruta K., Shridhar K., McDonell K., Richardson K., Reynolds L., Gao L., Zhang L., Dugan L., Qin L., Contreras-Ochando L., Morency L.-P., Moschella L., Lam L., Noble L., Schmidt L., He L., Colón L. O., Metz L., Şenel L. K., Bosma M., Sap M., ter Hoeve M., Farooqi M., Faruqui M., Mazeika M., Baturan M., Marelli M., Maru M., Quintana M. J. R., Tolkiehn M., Giulianelli M., Lewis M., Potthast M., Leavitt M. L., Hagen M., Schubert M., Baitemirova M. O., Arnaud M., McElrath M., Yee M. A., Cohen M., Gu M., Ivanitskiy M., Starritt M., Strube M., Swędrowski M., Bevilacqua M., Yasunaga M., Kale M., Cain M., Xu M., Suzgun M., Walker M., Tiwari M., Bansal M., Aminnaseri M., Geva M., Gheini M., Varma T M., Peng N., Chi N. A., Lee N., Krakover N. G.-A., Cameron N., Roberts N., Doiron N., Martinez N., Nangia N., Deckers N., Muennighoff N., Keskar N. S., Iyer N. S., Constant N., Fiedel N., Wen N., Zhang O., Agha O., Elbaghdadi O., Levy O., Evans O., Casares P. A. M., Doshi P., Fung P., Liang P. P., Vicol P., Alipoormolabashi P., Liao P., Liang P., Chang P., Eckersley P., Htut P. M., Hwang P., Miłkowski P., Patil P., Pezeshkpour