Description
継続的にLLMアプリケーションの評価基準や自動評価をアップデートする仕組みであるEvalGenについて書かれた論文「Who Validates the Validators? Aligning LLM-Assisted Evaluation of LLM Outputs with Human Preferences」について話しました。
ポッドキャストの書き起こしサービス「LISTEN」はこちら
Shownotes:
https://arxiv.org/abs/2404.12272
https://www.sh-reya.com/blog/ai-engineering-flywheel/
https://www.chainforge.ai/
https://github.com/wandb/evalForge/tree/main
https://blog.langchain.dev/aligning-llm-as-a-judge-with-human-preferences/
出演者:
seya(@sekikazu01)
kagaya(@ry0_kaga)