BigAlpha - AI 因子挖掘
比赛时间: -
AI 驭势量化,算法掘金因子(AI Leads Quant. Algorithms Mine Factors.)
主办方:BigAlpha
比赛介绍
## **赛事介绍**
在现代量化投资领域,阿尔法因子(Alpha Factor)是获取超额收益的核心。一个有效的因子,能够从海量、嘈杂的市场数据中精准地预测未来股价的动向。对于BigQuant而言,持续不断地挖掘、迭代高质量的因子,是推动量化投资行业创新发展的关键。
BigQuant(留白:可补充BigQuant品牌及业务相关介绍)
我们相信,最卓越的投资思想往往源于开放的探索与协作。因此,我们选择通过本次挑战赛,开放真实的、高颗粒度的市场数据,邀请全球顶尖高校的人才与我们共同迎接这一挑战。
在本次比赛中,您将有机会接触到稀缺、高质量的A股市场分钟级行情数据。您的任务是利用这些数据,构建一个能够预测未来股票收益的创新因子。您的因子模型将在两个阶段进行评估:首先是在历史数据上进行回测的“公榜”得分,然后是在全新的、动态更新的市场数据上进行模拟的“私榜”得分,以确保您的策略在真实世界中的稳健性。
通过本次竞赛,您将获得处理大规模金融时序数据的宝贵实战经验,深入理解市场微观结构,并直面量化领域在日常研究中遇到的真实挑战,尤其是如何适配不同技术路径(传统方法/AI技术)驱动因子挖掘、适配高中低频多策略场景的核心命题。我们期待看到参赛者们应用创新的方法,解决这个充满挑战且激动人心的量化投资难题。
**入门指南**
为了帮助参赛者更好地准备,我们与合作的线上量化平台共同准备了一系列入门资源:
1. **技术工作坊**:由平台方工程师主讲,详细介绍平台功能、API使用、数据结构及适配不同赛道(传统/AI)的因子分析框架,贴合高中低频策略与套利策略的研发逻辑。
2. **模版代码**:我们将提供一个包含数据读取、因子构建范例和评估流程的核心代码Notebook,帮助您快速上手,适配传统模型验证与AI模型训练、因子有效性验证的多元需求。
## **赛道设置**
本次竞赛设置双赛道并行模式,参赛者可根据自身研究方向选择单一赛道参赛,也可同时参与两个赛道(需分别提交对应赛道的因子方案):
### 传统量化赛道 (Heritage Track)
* **核心**:强调投资逻辑、统计显著性与经济解释性。
* **方法**:包括但不限于多因子模型、基本面分析、经典技术指标组合、物理模型模拟等。
* **评审导向**:重点评估因子背后的经济学逻辑合理性、统计检验的显著性、不同市场环境下的稳健性,以及因子可解释性。
### AI 智能赛道 (Intelligence Track)
* **核心**:利用大语言模型(LLM)、强化学习、遗传算法等技术进行因子自动生成或优化。
* **方法**:利用 AI 进行自动化特征工程、通过 Prompt Engineering 生成因子公式、使用神经元网络挖掘非线性因子等。
* **评审导向**:除因子有效性外,额外重点评估AI技术的应用深度与创新性,以及AI参与度(详见“评估系统”章节)。
## **数据说明**
本次竞赛提供高质量的A股市场数据,具体如下:
* **股票池**: 中证1000指数在历史相应时间点上的成分股。
* **时间范围**: 2023-01-01至2024-12-31。
* **数据内容**: 1分钟级别K线及盘口快照数据,财务数据,其他A股相关数据。
## **模版代码**
本次竞赛采用”**因子挖掘**”的方式,平台提供包含高频数据在内的各类特色数据,参赛者需按所属赛道构建日频因子并提交。主办方将提供如下多个模版代码供参赛者参考:
* 用 SQL 计算因子,参考 demo_sql.ipynb。【注:DAI数据引擎直接计算因子,速度更快,内存占比更低】
* 用 UDF 计算因子,参考 demo_udf.ipynb。【注:UDF支持用户自定义封装python函数并在dai数据引擎中执行,效率更高】
* 用 Python 计算因子,参考 demo_py.ipynb。【注:传统python计算,请注意内存使用情况】
* AI赛道专属模版:参考 demo_ai.ipynb(包含LLM因子生成、强化学习因子优化等基础示例)。
## **赛程安排**
### **阶段一:宣传报名**
* **时间周期**:2026-05-15 至 2026-06-24 属于宣传报名期,其中 5月25日-6月24日为正式报名期,报名截止时间为**2026-06-24**。
* **报名组队**:通过活动主页进行报名。可单人或多人组队(单一队伍最多不超过5人)。报名完成后可加入官方社群(微信/QQ群)寻找队友。
* **赛道选择**:报名时,要求在“传统”或“AI“两个赛道中选择一个作为本次比赛的参赛标签,比赛进行期间,可以更换,但您最终决赛的答辩内容要和选择赛道一致。
* **内测服务**:2026-06-08 至 2026-06-18 属于系统内测阶段,参赛者可以提交代码,用于测试系统稳定性及熟悉比赛系统,最终成绩不计入初赛,内测阶段结束后会重置排分榜单。
### **阶段二:初赛**
* **时间周期**:2026-06-25 至 2026-08-05
* **运行机制**:
* 以**2026-07-26 23:59:59**作为**截止日期**。
* 在截止日期前,利用平台提供的数据开发因子并按照规范提交代码,平台会使用验证集数据构建对应的因子数据并打分实时更新排名,以队伍最好的一次得分展示在”公榜(Public Leaderboard)”上;同时,参赛队伍可以选择和替换总计不超过2个因子作为截止日后的候选因子。
* 在截止日期后,参赛者将不允许修改候选因子的构建代码;平台在2026年2月24日至2026年2月27日期间的每个交易日盘后,会根据参赛者提供的代码增量构建因子数据,每日计算得分排名,并以队伍最好的一次得分展示在”私榜(Private Leaderboard)”上。
* **线上技术工作坊**:由合作平台方工程师主讲,分赛道介绍平台功能、API使用、数据结构及因子分析框架(传统赛道聚焦统计验证方法,AI赛道聚焦AI工具链使用)。
* **账号与数据发放**:向所有成功报名的队伍发放比赛专用账号,开放数据访问权限。
### **阶段三:决赛**
* **时间**:2026-08-10 至 2026-08-25
* **决赛名单公布**:组委会根据公榜成绩和私榜成绩进行评估,同时参考提交代码质量,最终公布10支入围决赛的队伍名单。
* **决赛辅导(按需)**:入围决赛的队伍如有深化研究报告的需求,可提交希望沟通的问题清单,组委会将于**8月12日**至**8月14日**安排线上会议进行答疑辅导(分传统/AI赛道专场)。如无特别需求,可直接准备提交材料。
* **提交材料**:参赛队伍需提供以下材料:
* 因子研究报告(.pdf,10–15页):一份结构完整、论证严谨的深度报告,不同赛道需针对性补充内容:
* 摘要(Abstract)
* 引言(Introduction):因子研究背景与文献综述
* 因子构建(Factor Construction):详细阐述数据预处理、因子计算公式与逻辑(AI赛道需额外说明AI技术应用环节)
* 实证分析(Empirical Analysis):全面的因子分析回测结果展示、绩效归因分析、稳健性检验(如不同市场周期、不同行业下的表现)
* 创新性与局限性讨论(Innovation and Limitations)(AI赛道需说明AI应用的创新点)
* 结论(Conclusion)
### **阶段四:答辩颁奖**
* **时间**:2026年8月25日
* **决赛答辩会**:采用"10分钟展示 + 5分钟评委问答"的形式,线下举行并同步线上直播。
* **颁奖典礼**:答辩结束后,公布最终名次,并举行颁奖典礼,邀请所有嘉宾、评委与选手共同参与。
## **评估系统**
本次竞赛在公榜(Public Leaderboard)与私榜(Private Leaderboard)阶段的排名,将按赛道分别计算,核心评估流程如下:
### **数据检测**
提交的因子数据必须通过以下所有检测,否则视为无效提交。
* **数据列检查**:
* 提交的文件必须且仅包含三列:`date`(交易日)、`instrument`(股票代码)、`factor`(因子值)。
* **请注意:平台不限制因子方向,默认因子值越大越好。参赛者需自行确保因子方向的逻辑正确性**。
* **交易日完整性检查**:因子数据不得缺失评估时间范围内的任何一个交易日。
* **因子覆盖度检查**:在每个交易日,因子值的缺失率不得高于 **40%**。
### **数据处理**
通过数据检测后,系统将原始因子与 BARRA 风险因子、本地因子库进行回归,并取残差作为新的因子,以评估该因子的增量影响。
### **最终得分**
$$
Score = 0.4 \times \text{Rank}_{IC_{mean}} + 0.3 \times \text{Rank}_{IC_{IR}} + 0.2 \times \text{Rank}_{SR} - 0.1 \times \text{Rank}_{COR}
$$
**指标说明**:
* $\text{Rank}_{IC_{mean}}$:IC均值排名
* $\text{Rank}_{IC_{IR}}$:IC_IR排名
* $\text{Rank}_{SR}$:多空组合的夏普比例排名
* $\text{Rank}_{COR}$:该因子值与其他参赛因子的相关性排名(惩罚项)
* 所有 $\text{Rank}_{指标}$ 代表该指标在对应赛道所有因子中的实时排名,采用排名加权以消除不同指标之间量纲不统一的问题。
### **决赛评估**
入围决赛的队伍将由评审委员会进行综合评估,评分标准如下:
* **因子质量与逻辑性**:
* 投资逻辑与经济解释性: 因子背后的经济学逻辑、市场微观结构解释是否清晰、合理。
* 有效性与稳健性: 因子在不同市场周期、不同行业下的表现是否稳定,统计显著性是否达标。
* **研究深度与规范性**:
* 报告质量: 报告结构是否严谨、分析是否深入、论证是否充分。
* 代码质量: 代码是否规范、可读性强、易于复现。
* **现场表现**:
* 陈述表达: 对研究工作的理解是否深刻,表达是否清晰、有条理。
* 问答互动: 回答评委提问是否精准、有逻辑,能否清晰阐述因子的经济意义。
* **AI创新性**: 适用AI赛道
* AI应用逻辑与创新性: AI技术选型与因子挖掘场景的适配性、AI应用环节的原创性。
* 有效性与AI参与度: 因子有效性、稳健性,以及AI参与度的实际落地效果
## **提交文件**
在本次比赛中,您只需要按照**模版代码**里的例子,按将因子构建代码写在**main**函数中并提交,平台会自动运行生成因子数据,计算得分并实时公布。需注意:
1. 传统赛道代码需标注核心统计方法、经济逻辑对应的实现环节;
2. AI赛道代码需标注AI技术应用的关键环节(如LLM调用、模型训练、自动化特征工程等);
3. 若有任何文本类的信息,请以markdown格式放在 notebook 中,如使用AI时涉及的提示词等;
4. main函数的返回数据格式需遵循以下规范:
| date | instrument | factor |
|------------|------------|-------|
| 2023-01-03 09:45:00 | 000001.SZ | 0.05 |
| 2023-01-03 09:45:00 | 000002.SZ | -0.12 |
| ... | ... | ... |
## **赛事奖励**
总计奖金池:500,000 元
奖励细节待定
---
## **代码要求**
本次竞赛为代码竞赛,所有提交必须通过合作的线上量化平台完成。为保证竞赛公平性,您的代码需满足以下条件:
* **平台提交**: 所有因子生成代码必须在指定的线上平台Notebook环境中运行并提交(AI赛道需使用平台指定的AI工具链/算力环境)。
* **运行时长限制**: CPU Notebook \<= 3 小时;AI赛道GPU Notebook \<= 6 小时。
* **禁止访问外部网络**: 为防止信息泄露和使用未来数据,Notebook的互联网访问权限将被禁用。
* **最终提交**: 您提交的必须是可以自动运行并生成因子文件的代码,而非因子数据文件本身;AI赛道需额外提交AI技术应用说明文档(说明AI参与度对应的代码环节)。
## **竞赛规则**
* **团队规模**: 每支队伍人数为1-3人,每位选手只能加入一支队伍(可选择单赛道或双赛道参赛,双赛道需分别提交代码)。
* **知识产权**: 参赛作品(代码、报告等)的知识产权归参赛队伍所有。主办方对所有作品拥有非商业性的评审、展示和宣传权利。对于获奖的优秀因子,主办方在同等条件下拥有优先的商业合作洽谈权。
* **诚信竞赛**: 严禁任何形式的抄袭、作弊或共享代码行为。一经发现,将立即取消该队伍的参赛资格。
* **赛道合规**: 传统赛道不得使用AI赛道限定的自动化因子生成技术;AI赛道需保证核心因子构建逻辑由AI主导,严禁伪AI应用(如仅标注AI环节但实际未使用)。
* **最终解释权**: 本赛事所有规则的最终解释权归BigQuant大赛组委会所有。
## **竞赛支持**
* **官方交流社群**:建立赛事官方微信/QQ群,分传统赛道、AI赛道专属社群,用于日常通知发布、技术问题解答和选手间交流。
* **FAQ文档**:在官网建立持续更新的“常见问题解答”页面,分赛道整理专属问题。
* **技术支持**:AI赛道提供专属AI工具链使用教程、算力调试指导;传统赛道提供统计检验、因子有效性验证的技术指导。
奖金&奖项
¥500000

