#8: Who Validate the Validator? - 継続的な評価をアップデートする仕組み -
Listen now
Description
継続的にLLMアプリケーションの評価基準や自動評価をアップデートする仕組みであるEvalGenについて書かれた論文「Who Validates the Validators? Aligning LLM-Assisted Evaluation of LLM Outputs with Human Preferences」について話しました。 ポッドキャストの書き起こしサービス「LISTEN」は⁠⁠⁠⁠⁠⁠⁠⁠こちら⁠⁠⁠⁠⁠⁠⁠ Shownotes: https://arxiv.org/abs/2404.12272 https://www.sh-reya.com/blog/ai-engineering-flywheel/ https://www.chainforge.ai/ https://github.com/wandb/evalForge/tree/main https://blog.langchain.dev/aligning-llm-as-a-judge-with-human-preferences/ ⁠ 出演者: seya(⁠⁠⁠⁠⁠⁠⁠@sekikazu01⁠⁠⁠⁠⁠⁠⁠) kagaya(⁠⁠⁠⁠⁠⁠⁠@ry0_kaga⁠⁠⁠⁠⁠⁠⁠)
More Episodes
Ubie社の事例に触発されて社内v0開発を始めた2人で、開発の知見や悩み、Figma AI等のデザインAIについて話しました ポッドキャストの書き起こしサービス「LISTEN」はこちら Shownotes: https://v0.dev/ ⁠https://www.figma.com/ja-jp/ai/ https://x.com/sys1yagi/status/1850763720630387170 出演者: seya(@sekikazu01) kagaya(@ry0_kaga)
Published 11/14/24
Published 11/14/24
自動で行うプロンプトチューニング、Auto...
Published 10/28/24