这篇论文提出了一种新的生成式推荐系统范式GeneRec,它通过结合content generation和instruction guidance来服务用户的个性化信息需求。此外,作者还强调了多种fidelity checks的重要性,以确保生成内容的可信度。作者探索了在短视频生成上实现GeneRec的可行性,并在多种任务上展示了不错的结果,为未来的研究留下了许多有价值的方向。
论文:https://arxiv.org/abs/2304.03516
代码:https://github.com/Linxyhaha/GeneRec
摘要
推荐系统通常从item库中检索items进行个性化推荐。然而,这种基于检索的推荐范式面临两个限制:1)人工生成的items可能无法满足用户多样化的信息需求,2)用户通常通过点击等被动且低效的反馈来调整推荐。如今,人工智能生成内容(AI-Generated Content, AIGC)已经在各个领域取得了显著的成功,其具有克服这些限制的潜力:1)生成式人工智能可以生成个性化items,以满足用户特定的信息需求,2)新兴的ChatGPT等大语言模型给用户提供了另一种通过自然语言指令以更准确地表达信息需求的可能。在这种情况下,AIGC的兴起启发了下一代推荐范式的两个新目标:1)通过Generative AI生成个性化内容服务用户的多样化需求,2)收集用户的自然语言指令,以指导content generation。为此,我们提出了一种名为GeneRec的新型生成式推荐范式 (Generative Recommender paradigm),其采用AI generator来进行个性化content generation,并利用用户指令获取用户的信息需求。具体而言,我们通过instructor对用户的指令和传统反馈(例如点击)进行预处理,并输出generation guidance。基于generation guidance,我们通过AI editor和AI creator实例化AI generator,分别用于编辑现有items和生成新的items。最终,GeneRec可以融合内容检索、编辑和生成功能,以满足用户的信息需求。此外,为确保生成的items的可信度,我们强调各种fidelity checks的重要性,例如真实性和合法性检查。最后,我们研究了在短视频的生成推荐中实现AI editor和AI creator的可行性,并展现了不错的结果。
研究介绍
推荐系统往往检索items来满足用户的个性化信息需求。传统的推荐系统主要检索专家生成的item(例如电影)或用户生成的item(例如短视频)。然而,AIGC已经成为各个领域中的展现了强大的能力,如图1所示,ChatGPT展示出强大的自然语言对话能力,扩散模型(diffusion models)可以生成生动的图像并修改图像的指定内容,DualStyleGAN可以根据用户的要求轻松地转换图像风格。在AIGC的兴起推动下,推荐系统不应再受限于人工生成的内容,我们需要为推荐系统构想一种生成式推荐范式,自动地编辑现有items或生成新items来满足用户多样化的信息需求。
为了设计生成式推荐范式,我们首先回顾了传统的基于检索的推荐范式。如图2所示,传统的范式对item库中的人工生成的items进行打分排序,向用户推荐排名靠前的items,然后收集用户反馈(例如点击)和上下文(例如交互时间)以优化未来的排序。尽管这种传统范式取得了巨大的成功,但存在两个限制:1)item库中人工生成的内容可能不足以满足用户的个性化信息需求。例如,用户可能更喜欢某种特定风格的短视频,如卡通风格,但人工生成这种短视频耗时且成本高昂。2)用户目前主要通过被动反馈(例如点击)来优化推荐结果,无法明确高效地表达其信息需求。
AIGC提供了克服基于检索的推荐范式固有限制的潜力。具体地,1)生成式人工智能可以实时生成个性化内容,包括编辑现有items和生成新items,以补充用户多样化的信息需求。例如,它可以如图3所示,根据个性化用户偏好快速将短视频转换为任何风格。此外,2)新近发布的类ChatGPT模型为用户通过自然语言指令更准确地传达其多样化信息需求提供了强大的接口(如图1(a)所示),补充了传统用户的隐式反馈。由此,AIGC的兴起促使我们推动了下一代推荐系统发展,以实现:1)通过生成式人工智能自动生成个性化内容,以及 2)收集用户自然语言指令以指导content generation。
为此,我们提出了一种名为GeneRec的生成式推荐范式 (Generative Recommender paradigm),将强大的生成式人工智能集成到个性化content generation中,包括item的编辑和生成。图2说明了GeneRec如何在AI generator和用户之间新增一个反馈循环,将用户指令和反馈作为输入,AI generator需要理解用户的信息需求并生成个性化内容。然后,生成的内容可以添加到item库中进行排名,也可以直接推荐给用户。其中,用户指令不仅限于文本对话,还可以包括多模态对话,即将图像、视频、音频和自然语言融合起来表达信息需求。
为了实现GeneRec Paradigm,我们设计了一个模块来处理用户指令以及两个模块来实现AI generator。具体而言,instructor模块预处理用户指令和反馈以确定是否启动AI generator以更好地满足用户需求,并将指令和反馈进行编码以指导content generation。在给出指导后,AI editor重新利用现有items以满足用户的特定偏好,即个性化items编辑,而AI creator直接为用户生成新的个性化items。
为确保生成的items的可信度和高质量,我们强调从偏见、隐私、安全、真实性和合法性等方面进行各种fidelity checks的重要性。最后,为探索其范式的可行性,我们设计了几个短视频生成任务,并在一个高质量短视频数据集上进行了实验。实证结果表明,现有的AIGC方法可以完成一些编辑和生成任务,并且有望在未来实现GeneRec的目标。
概括来说,本文的贡献有以下三点:
1. 我们强调AIGC在推荐系统中的重要作用,并指出下一代推荐系统的新目标:朝着生成式推荐范式前进,通过多模态指令自然地与用户交互,并灵活地检索、编辑和生成items内容,以满足用户多样化的信息需求。
2. 我们提出通过设计instructor、AI editor和AI creator三个模块来实现生成式推荐范式,其中instructor用于处理用户指令,AI editor用于个性化items编辑,AI creator用于个性化items生成。
3. 我们调查了利用现有AIGC方法实现提出的生成式推荐范式的可行性,并为未来的工作提出了有潜力的研究方向。
生成式推荐范式介绍
受AIGC潮流的推动,我们为下一代推荐系统提出了两个新目标:1)利用AI自动编辑或生成items,以满足用户多样化的需求,2)利用自然语言交互来指导内容的编辑和生成。为了实现这些目标,我们提出了GeneRec,以补充传统的基于检索的推荐范式。
- Overview:图2展示了提出的GeneRec范式的概述,其中包含两个循环。在传统的检索-用户系统循环中,人类,包括领域专家(例如音乐家)和普通用户(例如短视频用户),生成和上传items到items库。这些items根据用户偏好进行排名,其中偏好是从历史推荐的上下文(例如交互时间)和用户反馈中学习的。为了补充这种传统范式,GeneRec在AI generator和用户之间添加了另一个循环。用户可以通过用户指示和反馈来控制由AI generator生成内容,以满足个性化需求。
- User Instruction:ChatGPT类模型的强大对话能力可以丰富用户和AI generator之间的交互模式。用户可以通过对话指令灵活地控制content generation,指令既可以是文本对话,也可以是多模态对话。通过指令,用户可以比基于交互反馈更快速有效地表达他们的信息需求。此外,使用交互式指令,用户可以随时自由地启用AI generator生成他们喜欢的内容。
- AI generator:在生成内容之前,AI generator可能需要对用户指令进行预处理,例如,一些预先训练的语言模型可能需要设计prompt或instruction tuning;扩散模型可能需要设计自然语言指令作为图像生成的输入。除了用户指令,用户反馈(例如点击)也可以指导content generation,因为用户指令可能会忽略一些用户偏好,而AI generator可以从用户的历史交互中推断出这些偏好。
随后,AI generator从用户指令和反馈中总结用户的个性化的信息需求,然后相应地生成个性化的items内容,包括生成全新items和编辑现有items。最后,post-processing是确保生成内容质量的关键,AI generator可以判断生成的内容是否能够满足用户的信息需求,并进一步进行精炼处理,例如为短视频添加标题和字幕。此外,确保生成内容的可信度也非常重要。
- Fidelity checks:为了确保生成的内容准确、公平、安全,GeneRec 应通过以下检查。
1)Bias and fairness:AI generator可能从有偏差的数据中学习,因此应确保生成的内容不会持续存在刻板印象,促进仇恨言论和歧视,对某些人口造成不公平或加强其他有害偏见。
2)Privacy:生成的内容不应传播任何可能侵犯某人隐私的敏感或个人信息。
3)Safety:AI generator不得对用户造成任何伤害风险,包括身体和心理伤害的风险。例如,针对青少年的生成短视频不应包含任何不健康的内容。此外,必须防止GeneRec受到各种攻击,如假评论攻击。
4)Authenticity:为防止误传信息,我们需要验证生成内容中所提到的事实、统计数据和声明是否基于可靠来源准确。
5)Legal compliance:AIGC必须遵守所有相关法律法规。例如,如果生成的短视频是关于推荐健康食品,它们必须遵守卫生保健的相关法规。在这方面,我们还强调,制定新法规来规范AIGC及其传播是必要和紧迫的。
6)Identifiability:为协助AIGC监督,我们建议将数字水印添加到AI生成的items内容中,以区分人类生成的和AI生成的items。此外,我们还可以开发AI技术来自动识别AI生成的items。此外,我们可以考虑在用户浏览后删除AI生成的items,以防止它们被修改于不适当的上下文中,从而减少AIGC的有害传播。
- Evaluation:为了评估生成的内容,我们提出了两种评估方法:1)基于item的评估,2)基于用户的评估。基于item的评估强调从item本身进行的测量,包括item质量的测量(例如使用 Fréchet Video Distance(FVD)度量短视频质量)和各种fidelity checks。基于用户的评估则基于用户的满意度来判断生成的内容质量。满意度可以通过显式反馈或隐式反馈(如传统基于检索的推荐系统中所用的方法)来收集。具体而言,1)显式反馈包括用户的评分和对话反馈,例如自然语言中的“我喜欢这个item”。此外,我们可以设计多个方面来帮助用户评估,例如风格、长度和短视频生成的缩略图。而2)隐式反馈(例如点击)也可以进行评估。常用的指标,如点击率、停留时间和用户保留率仍然适用于衡量用户的满意度。
实例化展示
为了实现GeneRec的提议,我们开发了三个模块:Instructor、AI editor和AI creator。如图4所示,Instructor负责预处理用户指令,而AI editor和AI creator则分别实现了用于个性化items编辑和生成的AI generator。
Instructor
Instructor旨在预处理用户指令和反馈,以指导AI generator的内容生成。
- Input:用户的多模态对话指令和对历史推荐items的反馈。
- Processing:给定输入,Instructor可能仍需要与用户进行多轮交互,以全面了解用户的信息需求。然后,Instructor分析多模态指令和用户反馈,确定是否有必要启动AI generator以满足用户的信息需求。如果用户通过指令明确请求AIGC或多次拒绝人工生成的items,Instructor可能会启用AI generator进行内容生成。然后,Instructor根据AI generator的输入要求,将用户的指令和反馈作为指导信号进行预处理。例如,一些预先训练的语言模型可能需要适当设计的提示,而扩散模型可能需要从用户的指令和历史喜欢的items特征中提取指导信息。
- Output:1)是否启动AI generator的决策,2)用于content generation的指导信号。
AI Generator
为了实现AI generator的content generation功能,我们制定了两个模块:AI editor和AI creator。
AI editor for personalized item editing: 如图4所示,AI editor旨在根据个性化用户指令和反馈,对items库中现有的items(由人或AI生成)进行细化和重新加工。
- Input:1)由指导者从用户指令和反馈中提取的指导信号,2)item库中的现有items,3)来自Web数据的事实和知识。
- Processing:针对输入数据,AI editor利用神经网络学习用户的信息需求和喜好,然后相应地重新加工输入items。这里的“事实和知识”可以提供一些事实事件、生产技能、常识、法律法规等内容,帮助生成准确、安全、合法的items。例如,基于用户指令,AI editor可能通过在Web上模仿卡通风格的示例,将短视频转换成卡通风格。
- Output:一个经过编辑的items,比原来的items更好地满足用户的信息偏好。
AI creator for personalized item creation: 除了AI editor外,我们还开发了一个AI creator,根据个性化用户指令和反馈来生成新的items。
- Input:1)由Instructor从用户指令和反馈中提取的指导信号,以及2)来自Web数据的事实和知识。
- Processing:根据指导信号、事实和知识,AI creator学习用户的信息需求,并生成新的items满足用户的需求。例如,AI creator可以根据用户指令确定一个关于“景观”的主题,从用户反馈中了解关于“卡通风格”的具体喜好,并利用一些事实和知识制作一部卡通风格的景观短视频。
- Output:一个满足用户信息需求的新item。
可行性分析
为了研究实例化GeneRec的可行性,我们采用AIGC方法在短视频数据集上实现AI editor和AI creator,图4提供了不同的实现方法。
结论
本文提出了一个全新的生成式推荐范式,可以通过用户指令和反馈获得用户的信息需求,实现item检索、编辑和生成,以满足用户的多样化信息需求。为实例化GeneRec,我们设计了三个模块:用于预处理用户指令和反馈的Instructor,用于编辑现有物品的AI editor和用于生成新物品的AI creator。此外,我们强调了多种fidelity checks的重要性,以确保生成内容的可信度,并指出了GeneRec的挑战和未来机遇。我们探索了在短视频生成上实现GeneRec的可行性,并在多种任务上展现了不错的结果。
本研究为未来工作留下了许多有价值的研究方向。具体来说,1)从用户的多模态指令和反馈中学习用户的信息需求至关重要。详细来说,GeneRec应该学习如何提出问题以便高效获得信息,减少模态差距以了解用户的多模态指令,并利用用户反馈以补充指令,提供更好的generation guidance。2)对于各种任务(如缩略图生成和短视频生成),开发更强大的生成模块是至关重要的,此外,我们可能通过一个统一模型来实现多个生成任务,这些任务可以相互促进。3)我们应该设计新的度量标准和技术来丰富AIGC的评估和检查,引入人机协作来评估GeneRec和进行检查也是一个不错的方向。