AI导读:

智源研究院在GOSIM全球开源创新论坛上发布了大型开源文本数据集CCI 4.0,该数据集兼顾多样性与高质量,首次采用CoT方法进行推理轨迹数据合成,由智源研究院联合多家机构共同打造。

  北京商报讯(记者魏蔚)5月8日,北京商报记者从最新消息中了解到,智源研究院在GOSIM全球开源创新论坛上隆重发布了大型开源文本数据集CCI 4.0。据悉,CCI 4.0数据集不仅在多样性上有所突破,更确保了数据的高质量,成功实现了从单一语言向多语种数据集的跨越。本次发布率先涵盖了中文和英文两种语言,并预告将在后续版本中开源更多语言的版本。值得一提的是,CCI 4.0首次创新性地运用了CoT方法进行推理轨迹数据的合成,此举旨在显著提升预训练模型的基础推理能力。此次CCI 4.0数据集的发布,由智源研究院主导,携手阿里云、上海人工智能实验室、华为、出门问问、金山办公、昆仑万维、面壁智能、奇虎科技、美团、稀宇科技、月之暗面、紫东太初、中科闻歌、科大讯飞等多家机构共同打造,彰显了行业合作的强大力量。

(文章来源:北京商报,涉及人工智能、数据科学领域)