专利 共享物品的投放方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211048871.1 (22)申请日 2022.08.30 (71)申请人京东城市（北京）数字科技有限公司地址 100086 北京市海淀区知春路76号(写字楼)1号楼 9层1-7-5号 (72)发明人李叶昕　张钧波　 (74)专利代理机构北京清亦华知识产权代理事务所(普通合伙) 11201 专利代理师孟洋 (51)Int.Cl. G06Q 30/02(2012.01) G06Q 30/06(2012.01) G06N 3/08(2006.01) (54)发明名称共享物品的投放方法及装置 (57)摘要本公开提出一种共享物品的投放方法及装置，涉及智能城市技术领域。其中，方法包括：通过获取共享物品在投放范围内的多种历史投放策略，以及各历史投放策略下共享物品的共享记录，实现对任意的一种历史投放策略，根据共享记录中共享失败的次数，确定对应历史投放策略的投放效果评价值，从而根据各历史投放策略及其投放效果评价值，训练价值网络，进而在采用经过训练的价值网络，对共享物品在投放范围内的各候选投放策略预测投放效果评价值，以根据评价值确定目标投放策略之后，根据目标投放策略，对共享物品进行投放。由此，可使得共享物品投放更加合理，提高共享物品的利用率和用户体验，解决不同区域不同时间段内共享物品供求不均衡的问题。权利要求书3页说明书20页附图6页 CN 115423511 A 2022.12.02 CN 115423511 A 1.一种共享物品的投放方法，其特征在于，包括以下步骤：获取所述共享物品在投放范围内的多种历史投放策略，以及各所述历史投放策略下所述共享物品的共享记录；对任意的一种历史投放策略，根据所述共享记录中共享失败的次数，确定对应历史投放策略的投放效果评价值；根据各所述历史投放策略及其投放效果评价值，训练价值网络；采用经过训练的价值网络，对所述共享物品在所述投放范围内的各候选投放策略预测投放效果评价值，以根据所述评价值确定目标投放策略；根据所述目标投放策略，对所述共享物品进行投放。 2.根据权利要求1所述的方法，其特征在于，所述共享记录包括查询记录和借出记录；所述对任意的一种历史投放策略，根据所述共享记录中共享失败的次数，确定对应历史投放策略的投放效果评价值，包括：针对任意的一种历史投放策略，从所述查询记录中，确定执行对应历史投放策略之后的统计时长内记录到的查询操作；若执行所述查询操作的客户端在所述查询操作之后未执行借出操作，或者，根据所述借出记录确定所述查询操作之后所述客户端执行借出操作失败，则将所述查询操作确定为借出失败，以确定借出失败的次数；根据所述借出记录，对执行对应历史投放策略之后的统计时长内记录到的归还操作进行查询，以确定归还失败的次数；根据所述借出失败的次数和/或所述归还失败的次数，确定对应历史投放策略的投放效果评价值。 3.根据权利要求2所述的方法，其特征在于，所述根据所述借出记录，对执行对应历史投放策略之后的统计时长内记录到的归还操作进行查询，以确定归还失败的次数，包括：根据所述借出记录，对执行对应历史投放策略之后的统计时长内记录到的归还操作进行查询；针对查询到的归还操作，从所述投放范围所划分出的多个分区中，确定执行对应归还操作的分区；在执行所述归还操作后对应分区内包含的共享物品数量大于数量阈值，则将所述归还操作确定为归还失败；从查询到的归还操作中，确定归还失败的次数。 4.根据权利要求2所述的方法，其特征在于，所述采用经过训练的价值网络，对所述共享物品在所述投放范围内的各候选投放策略预测投放效果评价值，以根据所述评价值确定目标投放策略，包括：根据所述投放范围所划分出的多个分区中所述共享物品在各分区的初始投放量，确定初始的候选投放策略；采用经过训练的价值网络，对所述初始的候选投放策略进行预测，以将所述初始的候选投放策略对应的投放效果评价值作为参考评价值；基于所述初始的候选投放策略执行多轮策略更新；每当执行一轮策略更新，采用所述经过训练的价值网络对本轮更新后的至少一个候选权　利　要　求　书 1/3 页 2 CN 115423511 A 2投放策略进行投放效果预测；若本轮更新后的至少一个候选投放策略的投放效果评价值小于所述参考评价值，则将本轮更新后的所述至少一个候选投放策略的投放效果评价值作为所述参考评价值，继续执行后续策略更新的过程；执行各轮策略更新完毕，将所述参考评价值对应的候选投放策略作为所述目标投放策略。 5.根据权利要求4所述的方法，其特征在于，所述基于所述初始的候选投放策略执行多轮策略更新，包括：针对每一轮策略更新，从多个分区中确定一个目标分区；对所述目标分区以设定步长增加和减少所述共享物品的投放量，以得到本轮策略更新得到的两个候选投放策略。 6.根据权利要求5所述的方法，其特征在于，所述针对每一轮策略更新，从多个分区中确定一个目标分区，包括：针对每一轮策略更新，若上一轮采用的目标分区的投放量低于数量下限或者高于数量上限，则将上一轮采用的目标分区相邻的下一分区作为本轮的目标分区；若上一轮采用的目标分区的投放量未低于所述数量下限，且未高于所述数量上限，则将上一轮采用的目标分区作为本轮的目标分区。 7.一种共享物品的投放装置，其特征在于，包括：获取模块，用于获取所述共享物品在投放范围内的多种历史投放策略，以及各所述历史投放策略下所述共享物品的共享记录；确定模块，用于对任意的一种历史投放策略，根据所述共享记录中共享失败的次数，确定对应历史投放策略的投放效果评价值；训练模块，用于根据各所述历史投放策略及其投放效果评价值，训练价值网络；预测模块，用于采用经过训练的价值网络，对所述共享物品在所述投放范围内的各候选投放策略预测投放效果评价值，以根据所述评价值确定目标投放策略；投放模块，用于根据所述目标投放策略，对所述共享物品进行投放。 8.根据权利要求7所述的装置，其特征在于，所述共享记录包括查询记录和借出记录；所述确定模块，包括：第一确定单元，用于针对任意的一种历史投放策略，从所述查询记录中，确定执行对应历史投放策略之后的统计时长内记录到的查询操作；第二确定单元，用于若执行所述查询操作的客户端在所述查询操作之后未执行借出操作，或者，根据所述借出记录确定所述查询操作之后所述客户端执行借出操作失败，则将所述查询操作确定为借出失败，以确定借出失败的次数；查询单元，用于根据所述借出记录，对执行对应历史投放策略之后的统计时长内记录到的归还操作进行查询，以确定归还失败的次数；第三确定单元，用于根据所述借出失败的次数和/或所述归还失败的次数，确定对应历史投放策略的投放效果评价值。 9.根据权利要求8所述的装置，其特征在于，所述查询单元，还用于：根据所述借出记录，对执行对应历史投放策略之后的统计时长内记录到的归还操作进权　利　要　求　书 2/3 页 3 CN 115423511 A 3

专利 共享物品的投放方法及装置

专利共享物品的投放方法及装置