探展WAIC上海数交所总经理汤奇峰:语料库建设挑战主要集中于开放程度和数
大模型建设中,语料库是一个非常重要的方向。7月8日,上海数交所总经理汤奇峰在大模型时代下的数据要素流通主题论坛中如是表示。他认为,大模型时代下的语料库建设存在语料库供给不足、语料库质量不高、语料库多样性匮乏、语料库标准欠缺等问题。
语料库建设不是单一企业的责任,需要多方共同推进,如果每个企业都单独建设维护语料库,会拉低效率,也会增加企业成本,数交所希望通过加强数据要素建设提升语料库建设效率。汤奇峰表示。
关于语料库建设的挑战,汤奇峰认为主要集中于开放程度和数据质量两方面:能否有大模型企业所需的高质量语料?目标对象愿不愿意开放数据?由此,汤奇峰指出可以根据开放程度强弱和数据质量高低将语料数据生态机构分出四类供方。
上海数据交易所语料库为这四类供方制定差异化工作策略。汤奇峰建议可以从政府引导市场主导、丰富种类提高质量、统一标准规范建设、加强监管保障安全、加强监管保障安全四个方向建设大模型时代下的语料库。
汤奇峰指出,针对数据质量高但开放程度低的供方,可以通过数据交易链有效破解语料数据流通的信任问题,核心之一在于产权和参与大模型后的收益分配问题。
此外,上海数据交易所语料库亦将提供特色标签服务体系、挖掘应用场景价值、驱动稀缺数据开放流通以提高该类供方开放数据积极性。针对开放程度高但数据质量低的机构,上海数交所语料库则通过搭建专业化数商服务渠道提高数据质量。
语料库采购已经在不少大模型企业成本中占据重要比重,上海数交所希望以市场配置的方式组织数据要素推动语料库建设。汤奇峰表示。
据悉,为更好打造高质量语料库、围绕语料数据共建数商生态,上海数交所牵头发起语料数据生态创新合作伙伴计划,携手首批合作伙伴上海人工智能实验室、商汤科技、中国知网、澜舟科技、OpenKG、拓尔思、新致和蜜度正式启动该计划,积极引导不同行业、不同领域、具有一定规模的高质量语料数据产品挂牌交易,推动人工智能大模型技术创新与应用落地,进一步丰富语料库多样性,助力数据要素市场建设。