政务问答机器人服务测评
2025/07/09
21
关键词:政务问答机器人,评测工具,可用性评测,基准测试
研究团队:北京大学黄璜教授团队
成果简介:
为解决现有政务问答系统评测中可复现性不足及多模态响应评估困难等问题,本文基于基准测试理念,结合大语言模型与机器学习技术,构建了一套适用于政务问答系统的可用性评测题集及相应方法。
通过筛选并清洗现有政务问答的热点问题生成初始问题集,基于自动化程序获取代表性政务问答系统的有效回答并提取答案判断词,最后结合筛选后的问题与配套答案构建评测题集,对我国省级政务问答系统展开评测。


