上海数据交易所总经理汤奇峰:构建大模型时代语料库数据生态 推动数据要素市场创新
7月8日,由上海数据交易所、大数据流通与交易技术国家工程实验室承办的“大模型时代下的数据要素流通”主题论坛在上海世博中心举行。上海数交所总经理汤奇峰作题为“大模型时代下的语料库”的主旨演讲,带来关于国内语料库建设挑战的观察,并从语料库质量和开放程度两个维度给出建设建议。
汤奇峰认为大模型时代下的语料库建设存在语料库供给不足、语料库质量不高、语料库多样性匮乏、语料库标准欠缺等问题。
“语料库建设不是单一企业的责任,需要多方共同推进,如果每个企业都单独建设维护语料库,会拉低效率,也会增加企业成本,数交所希望通过自己的努力加强数据要素建设提升语料库建设效率。”
(资料图片)
当天活动上,上海数交所正式启动语料数据生态创新合作伙伴计划,携手首批合作伙伴丰富语料库,推动数据要素市场建设。
关于语料库建设的挑战,汤奇峰认为主要集中于开放程度和数据质量两方面:“能否有大模型企业所需的高质量语料?目标对象愿不愿意开放数据?”由此,汤奇峰指出可以根据开放程度强弱和数据质量高低将语料数据生态机构分出四类供方。
上海数据交易所语料库为这四类供方制定差异化工作策略。汤奇峰建议可以从政府引导市场主导、丰富种类提高质量、统一标准规范建设、加强监管保障安全、加强监管保障安全四个方向建设大模型时代下的语料库。
汤奇峰指出,针对数据质量高但开放程度低的供方,可以通过数据交易链有效破解语料数据流通的信任问题,“核心之一在于产权和参与大模型后的收益分配问题。”
此外,上海数据交易所语料库还将提供特色标签服务体系、挖掘应用场景价值、驱动稀缺数据开放流通以提高该类供方开放数据积极性。
针对开放程度高但数据质量低的机构,上海数交所语料库则通过搭建专业化数商服务渠道提高数据质量。
汤奇峰介绍,上海数交所在建设语料库时考虑的两个维度与数交所对企业数据发展进程四个阶段的观察密切相关。对于这四个阶段,汤奇峰解释,第一个阶段是企业数据自产自用阶段。随着企业数据的内部供给有限时,企业数据需求逐步转向外部,进入到第二阶段,在该阶段,大平台和大企业通过资本纽带在体系内部形成数据流通。到了第三个阶段,企业累积的数据将开放给整个行业,产业内形成标准。第四个阶段,数据使用在资产化过程中会产生新的更高阶业态。
汤奇峰说:“语料库采购已经在不少大模型企业成本中占据重要比重,上海数交所希望以市场配置的方式组织数据要素推动语料库建设。”
据悉,上海数交所官网已经于7月7日正式上线语料库,累计挂牌近30个语料数据产品,包含文本、音频、图像等多模态,覆盖金融、交通运输和医疗等领域。
(文章来源:证券日报)
标签:
- 上海数据交易所总经理汤奇峰:构建大模型时代语料库数据生态 推动数据要素市场创新
- 丁爽:PPI或将于6月见底 但下半年很难回到通胀区间
- 广西“零门槛”落户 助力高校毕业生就业创业
- 北京丽泽金融商务区入驻企业超千家 “金融+科技”产业链初步形成
- 7月11日入伏,入伏时间如何确定?
- 都说现在文昌高隆湾房价太贵,文昌高隆湾房价能降吗?
- 兴义公安交警开展夏夜治安巡查宣防集中统一行动
- 欧文每年打65场有100万奖金,球队50胜另有100万
- 换窗纱的方法视频 换窗纱
- 公司 | “狩猎者”贵州首富的金融围城
- 达芬奇是哪国人著名画作是什么(达芬奇是哪国人)
- 独具心思如何为47岁男士选购生日礼物
- 全球首套常温常压有机液体储氢加注一体化示范项目完成全流程贯通
- 一代战神廉颇如何影响了整个赵国的历史?
- 路特斯多款车型将亮相古德伍德速度节
- 足协杯:李霄鹏战旧主!中甲独苗有望再创历史,深圳期待逆风翻盘
- 购物作文(优秀5篇)
- 海口人 最难熬的40天要来了……
- 区域网站查询(区域网)
- 北境地图
- 乌拉盖管理区开启“亮尾行动”:小车贴守护大安全
- 相爱十年片段_相爱十年床戏
- 地球离太阳最远一天到来:1.52亿公里 过程经历了四季
- 致敬英烈 缅怀遇难同胞 侵华日军南京大屠杀遇难同胞纪念馆举行纪念活动
- 广州取经,为何要去县城?
- 横琴科学城:吹响职业化团队建设号角
- 千城胜景|宁夏红寺堡:生态美 鸟翔集
- 【网络公益】防范非法集资宣传教育守护群众钱袋子
- 解压游戏在线玩有声音(解压游戏在线玩)
- i911900h和r9 5900hx哪个好(i9 11900h和r9 5900h哪个好)