智源研究院发布CCI 4.0大型开源文本数据集
AI导读:
智源研究院在GOSIM全球开源创新论坛上发布了大型开源文本数据集CCI 4.0,该数据集兼顾多样性与高质量,首次采用CoT方法进行推理轨迹数据合成,由智源研究院联合多家机构共同打造。
北京商报讯(记者魏蔚)5月8日,北京商报记者从最新消息中了解到,智源研究院在GOSIM全球开源创新论坛上隆重发布了大型开源文本数据集CCI 4.0。据悉,CCI 4.0数据集不仅在多样性上有所突破,更确保了数据的高质量,成功实现了从单一语言向多语种数据集的跨越。本次发布率先涵盖了中文和英文两种语言,并预告将在后续版本中开源更多语言的版本。值得一提的是,CCI 4.0首次创新性地运用了CoT方法进行推理轨迹数据的合成,此举旨在显著提升预训练模型的基础推理能力。此次CCI 4.0数据集的发布,由智源研究院主导,携手阿里云、上海人工智能实验室、华为、出门问问、金山办公、昆仑万维、面壁智能、奇虎科技、美团、稀宇科技、月之暗面、紫东太初、中科闻歌、科大讯飞等多家机构共同打造,彰显了行业合作的强大力量。
(文章来源:北京商报,涉及人工智能、数据科学领域)
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。

