My Academic Pages
You can find my CV here: CV.
教育经历
- 北京大学
- 关键软件(保研)硕士,软件与微电子学院
- 数据空间技术与系统研究中心
- 研究方向: Agent、RAG、大模型应用
- 时间: 2024年09月 - 2027年06月 (预计)
- 哈尔滨工业大学
- 软件工程 本科,计算学部软件学院
- 企业与服务智能计算研究中心
- 主修方向: 微服务、云原生
- 成绩排名: 6/81
- 时间: 2020年09月 - 2024年06月
研究兴趣
- Agent技术
- 检索增强生成 (RAG)
- 大型语言模型 (LLM) 及其应用
- 数联网
- 微服务
- 云原生
科研成果
- A fine-tuned large language model based molecular dynamics agent for code generation to obtain material thermodynamic parameters
- Scientific Reports (Nature子刊, JCR Q1)
- 第一作者
- 亮点: 针对材料工业软件代码生成任务,设计并实现了MDAgent多智能体框架,通过Multi-Agent协作完成子任务规划、代码生成和代码评估。构建了分子动力学数据集,并以Lammps为切入点微调LLM,提高了Actor代码生成能力和Critic代码评估能力。实验表明MDAgent框架的有效性,能够显著提高LLM对于Lammps代码的生成与评估能力,辅助入门级人员达到专家级水平,任务平均完成时间缩短42%。
- Meta data retrieval for data infrastructure via RAG
- 2024 IEEE International Conference on Web Services
- 第一作者
- 亮点: 针对数据基础设施中数据表征方法效率低、成本高的问题,提出了一种基于RAG和Agent的数据表征方式DOR-RAF。通过Multi-Agent协作多阶段多维度审核Rag流程中的检索与生成结果,并构建了数据基础设施场景的RAG评估数据集。实验结果表明,在检索数字对象任务中,DOR-RAF优于基于关键词搜索的传统方法,F1分数提高了18.6%,并且优于Naive RAG,Context Recall提高了23%,Answer Correctness提高了14.5%。
- RAGtag: A Retrieval-Augmented Generation-Based Topic Modeling Framework
- DMBD 2024
- 第一作者
- 亮点: 针对此前基于LLM的主题建模研究中TopicGPT存在的上下文窗口限制,提出了一种新的主题建模方法RAGtag。该方法分为四个阶段:文档压缩、动态检索相似文档并生成主题、聚合相同主题并分配主题、更新数据库。实验结果显示,RAGtag在主题一致性和聚类性能指标上优于TopicGPT和BertTopic,更适用于文档主题不可预测的工业场景。
实习经历
- 北京大数据先进技术研究院
- 大模型实习生
- 时间: 2024年03月 - 2024年09月
- 工作内容: 参与涉及RAG、Agent、微调等技术的大模型应用项目。基于LangChain、LangGraph本地数联网项目构建RAG接口,实现了结构化数据提取、Agentic RAG、多路召回、查询改写等优化方案,并将产出转化为科研论文。为项目设计基于LLM的主题建模方法,优化Prompt,尝试Cot、Reflection、多LLM一致性的模式,并增加RAG机制动态生成和分配主题,最终方法在项目业务数据集上F1 score达到0.88,并将产出转化为科研论文。
- 哈尔滨中冕智慧能源科技有限公司
- 研发实习生
- 时间: 2023年08月 - 2023年12月
- 工作内容: 负责为现有系统添加监控模块,使用Yolo算法对多路摄像头进行监控,识别异常并进行业务处理。技术栈包括Yolov8, Spring Cloud, Vue, 和 FFmpeg。解决了前后端实现和架构设计方面的难题,包括设计并实现新的监控识别模块网页,优化系统架构以在有限资源下处理上百个视频流的获取、目标识别与业务处理、推流。
其他
- 荣誉奖项:
- 蓝桥杯A组国家三等奖
- 蓝桥杯A组省级一等奖
- 五次人民奖学金(计算机类专业前10%)
- 校优秀学生干部
- 校优秀学生
- 英语水平:
- CET-4: 566
- CET-6: 485
- 专利:
- 授权1项
- 在审核1项