LLM-as-a-Judgeに着想を得て、エージェンティックシステムを評価するためにエージェンティックシステムを用いることを提案したAgent-as-a-Judge: Evaluate Agents with...
Published 11/18/24
Ubie社の事例に触発されて社内v0開発を始めた2人で、開発の知見や悩み、Figma AI等のデザインAIについて話しました
ポッドキャストの書き起こしサービス「LISTEN」はこちら
Shownotes:
https://v0.dev/
https://www.figma.com/ja-jp/ai/
https://x.com/sys1yagi/status/1850763720630387170
出演者:
seya(@sekikazu01)
kagaya(@ry0_kaga)
Published 11/14/24
継続的にLLMアプリケーションの評価基準や自動評価をアップデートする仕組みであるEvalGenについて書かれた論文「Who Validates the Validators? Aligning LLM-Assisted Evaluation of LLM Outputs with Human...
Published 11/04/24