全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211048871.1 (22)申请日 2022.08.30 (71)申请人 京东城市 (北京) 数字科技有限公司 地址 100086 北京市海淀区知春路76号(写 字楼)1号楼 9层1-7-5号 (72)发明人 李叶昕 张钧波  (74)专利代理 机构 北京清亦华知识产权代理事 务所(普通 合伙) 11201 专利代理师 孟洋 (51)Int.Cl. G06Q 30/02(2012.01) G06Q 30/06(2012.01) G06N 3/08(2006.01) (54)发明名称 共享物品的投放方法及装置 (57)摘要 本公开提出一种共享物品的投放方法及装 置, 涉及智能城市技术领域。 其中, 方法包括: 通 过获取共享物品在投放范围内的多种历史投放 策略, 以及各历史投放策略下共享物品的共享记 录, 实现对任意的一种历史投放策略, 根据共享 记录中共享失败的次数, 确定对应历史投放策略 的投放效果评价值, 从而根据各历史投放策略及 其投放效果评价值, 训练价值网络, 进而在采用 经过训练的价值网络, 对共享物品在投放范围内 的各候选投放策略预测投放效果评价值, 以根据 评价值确定目标投放策略之后, 根据目标投放策 略, 对共享物品进行投放。 由此, 可使得共享物品 投放更加合理, 提高共享物品的利用率和用户体 验, 解决不同区域不同时间段内共享物品供求不 均衡的问题。 权利要求书3页 说明书20页 附图6页 CN 115423511 A 2022.12.02 CN 115423511 A 1.一种共享物品的投放方法, 其特 征在于, 包括以下步骤: 获取所述共享物品在投放范围内的多种历史投放策略, 以及各所述历史投放策略下所 述共享物品的共享记录; 对任意的一种历史投放策略, 根据所述共享记录中共享失败的次数, 确定对应历史投 放策略的投放效果评价 值; 根据各所述历史 投放策略及其投放效果评价 值, 训练价 值网络; 采用经过训练的价值网络, 对所述共享物品在所述投放范围内的各候选投放策略预测 投放效果评价 值, 以根据所述评价 值确定目标投放策略; 根据所述目标投放策略, 对所述共享物品进行投放。 2.根据权利要求1所述的方法, 其特征在于, 所述共享记录包括查询记录和借出记录; 所述对任意的一种历史投放策略, 根据所述共享记录中共享失败的次数, 确定对应历史投 放策略的投放效果评价 值, 包括: 针对任意的一种历史投放策略, 从所述查询记录中, 确定执行对应历史投放策略之后 的统计时长内记录 到的查询操作; 若执行所述查询操作的客户端在所述查询操作之后未执行借出操作, 或者, 根据所述 借出记录确定所述查询操作之后所述客户端 执行借出操作失败, 则将所述查询操作确定为 借出失败, 以确定借 出失败的次数; 根据所述借出记录, 对执行对应历史投放策略之后的统计时长 内记录到的归还操作进 行查询, 以确定归 还失败的次数; 根据所述借出失败的次数和/或所述归还失败的次数, 确定对应历史投放策略的投放 效果评价 值。 3.根据权利要求2所述的方法, 其特征在于, 所述根据所述借出记录, 对执行对应历史 投放策略之后的统计时长内记录 到的归还操作进行查询, 以确定归 还失败的次数, 包括: 根据所述借出记录, 对执行对应历史投放策略之后的统计时长 内记录到的归还操作进 行查询; 针对查询到的归还操作, 从所述投放范围所划分出的多个分区中, 确定执行对应归还 操作的分区; 在执行所述归还操作后对应分区内包含的共享物品数量大于数量阈值, 则将所述归还 操作确定为归 还失败; 从查询到的归 还操作中, 确定归 还失败的次数。 4.根据权利要求2所述的方法, 其特征在于, 所述采用经过训练的价值网络, 对所述共 享物品在所述投放范围内的各候选投放策略预测投放效果评价值, 以根据所述评价值确定 目标投放策略, 包括: 根据所述投放范围所划分出的多个分区中所述共享物品在各分区的初始 投放量, 确定 初始的候选投放策略; 采用经过训练的价值网络, 对所述初始 的候选投放策略进行预测, 以将所述初始 的候 选投放策略对应的投放效果评价 值作为参考评价值; 基于所述初始的候选投放策略执 行多轮策略更新; 每当执行一轮策略更新, 采用所述经过训练 的价值网络对本轮更新后的至少一个候选权 利 要 求 书 1/3 页 2 CN 115423511 A 2投放策略进行投放效果预测; 若本轮更新后的至少一个候选投放策略的投放效果评价值小于所述参考评价值, 则将 本轮更新后的所述至少一个候选投放策略的投放效果评价值作为所述参考评价值, 继续执 行后续策略更新的过程; 执行各轮策略更新完毕, 将所述参考评价值对应的候选投放策略作为所述目标投放策 略。 5.根据权利要求4所述的方法, 其特征在于, 所述基于所述初始的候选投放策略执行多 轮策略更新, 包括: 针对每一轮策略更新, 从多个分区中确定一个目标分区; 对所述目标分区以设定步长增加和减少所述共享物品的投放量, 以得到本轮策略更新 得到的两个候选投放策略。 6.根据权利要求5所述的方法, 其特征在于, 所述针对每一轮策略更新, 从多个分区中 确定一个目标分区, 包括: 针对每一轮策略更新, 若上一轮采用的目标分区的投放量低于数量下限或者高于数量 上限, 则将上一轮采用的目标分区相邻的下一分区作为本轮的目标分区; 若上一轮采用的目标分区的投放量未低于所述数量下限, 且未高于所述数量上限, 则 将上一轮采用的目标分区作为本轮的目标分区。 7.一种共享物品的投放装置, 其特 征在于, 包括: 获取模块, 用于获取所述共享物品在投放范围内的多种历史投放策略, 以及各所述历 史投放策略下 所述共享物品的共享记录; 确定模块, 用于对任意的一种历史投放策略, 根据 所述共享记录 中共享失败的次数, 确 定对应历史 投放策略的投放效果评价 值; 训练模块, 用于根据各 所述历史 投放策略及其投放效果评价 值, 训练价 值网络; 预测模块, 用于采用经过训练的价值网络, 对所述共享物品在所述投放范围内的各候 选投放策略预测投放效果评价 值, 以根据所述评价 值确定目标投放策略; 投放模块, 用于根据所述目标投放策略, 对所述共享物品进行投放。 8.根据权利要求7所述的装置, 其特征在于, 所述共享记录包括查询记录和借出记录; 所述确定模块, 包括: 第一确定单元, 用于针对任意的一种历史投放策略, 从所述查询记录中, 确定执行对应 历史投放策略之后的统计时长内记录 到的查询操作; 第二确定单元, 用于若执行所述查询 操作的客户端在所述查询操作之后未执行借出操 作, 或者, 根据所述借出记录确定所述查询操作之后所述客户端 执行借出操作失败, 则将所 述查询操作确定为借 出失败, 以确定借 出失败的次数; 查询单元, 用于根据所述借出记录, 对执行对应历史投放策略之后的统计时长内记录 到的归还操作进行查询, 以确定归 还失败的次数; 第三确定单元, 用于根据 所述借出失败的次数和/或所述归还失败的次数, 确定对应历 史投放策略的投放效果评价 值。 9.根据权利要求8所述的装置, 其特 征在于, 所述 查询单元, 还用于: 根据所述借出记录, 对执行对应历史投放策略之后的统计时长 内记录到的归还操作进权 利 要 求 书 2/3 页 3 CN 115423511 A 3

.PDF文档 专利 共享物品的投放方法及装置

文档预览
中文文档 30 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共30页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 共享物品的投放方法及装置 第 1 页 专利 共享物品的投放方法及装置 第 2 页 专利 共享物品的投放方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 06:31:04上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。