注册
登录
资源
文档 博客 数据集 术语表
定价 产品 最佳电子竞技即时竞猜平台。
连接到我们的Discord频道
集成: " github git
亚历山大·莱文 2 b35e06141
与GitLab同步
两年前
7 c97b2a9a3
DVC数据修复
两年前
82年b810b974
最后添加的检查点
两年前
97年c5b91e60
添加Code2vec文件夹
两年前
2 b35e06141
与GitLab同步
两年前
2 b35e06141
与GitLab同步
两年前
ee690b0621
SVM配置矩阵图3和3.1,验证chunk_size == 10
两年前
bdb584c714
在Git LFS中去掉csv
两年前
2 b35e06141
与GitLab同步
两年前
a4b1957697
添加了代码内注释分类
两年前
3 e3cfc582f
Makefile
两年前
2 b35e06141
与GitLab同步
两年前
ed844fb89f
通过上传添加文件
两年前
45 a0bcfcdb
改变名字
两年前
45 a0bcfcdb
改变名字
两年前
2 b35e06141
与GitLab同步
两年前
999年d24c49f
新增:金色884套新增;
两年前
2 b35e06141
与GitLab同步
两年前
3 f08f4b1c5
探索……
两年前
fc9e9f9c28
ramamazyant文件添加
两年前
fc9e9f9c28
ramamazyant文件添加
两年前
2 b35e06141
与GitLab同步
两年前
2 b35e06141
与GitLab同步
两年前
38 ffcf58fa
日志权重分析移到单独的笔记本
两年前
2 b35e06141
与GitLab同步
两年前
0 b9b0d2347
更新:graph_v4, graph_v5模型和数据
两年前
2 b35e06141
与GitLab同步
两年前
8 ba024a8c5
没有消息
三年前
08年a39d0906
添加了open_data文件夹(带Python150k)
两年前
2 b35e06141
与GitLab同步
两年前
2 b35e06141
与GitLab同步
两年前
7673348010
Upd:输出清晰;
两年前
2 b35e06141
与GitLab同步
两年前
2 b35e06141
与GitLab同步
两年前
d703f657c1
获取logg v3和v3.1的推理;
两年前
2 b35e06141
与GitLab同步
两年前
数据管道
传说
DVC托管文件
Git管理文件
度规
阶段文件
外部文件

README.md

你必须登录才能发表评论。登录

源代码分类

这是高等经济学院大数据分析方法实验室(HSE LAMBDA)的自然语言到机器学习(NL2ML)项目的一个版本。

项目官方回购存储在GitLab (HSE LAMBDA存储库)-https://gitlab.com/lambda-hse/nl2ml项目的完整的描述存储在Notion -https://www.notion.so/NL2ML-Corpus-1ed964c08eb049b383c73b9728c3a231项目的实验都存储在DAGsHub -//www.kkolawyers.com/levin/source_code_classification

项目目标

短期目标

构建对源代码块进行分类的模型,并指定检测到的类在块中的确切位置(标记分割)。

长期目标

通过获取一个简短的原始英语任务作为输入来构建一个模型生成代码。

库描述

这个存储库包含了项目团队一直使用的工具,用于标记带有知识图顶点的源代码块,并训练模型在将来识别这些顶点。通过知识图顶点,我们指的是ml管道的基本部分。当前最新版本的知识图谱包含以下高级顶点:['import', 'data_import', 'data_export', '预处理','可视化','模型','deep_learning_model', 'train' 'predict']

数据下载

下载项目数据及模型:

  1. 克隆此存储库
  2. 安装DVChttps://dvc.org/doc/install
  3. DVC拉拔数据DVC拉拔数据。注意:如果你失败了DVC pull [folder_to_pull],试着DVC pull [folder_to_pull]—jobs

内容:

我们用来实现项目目标的工具有:Kaggle API和Github API的笔记本解析、数据准备、regex标签、训练模型、验证模型、模型权重/系数分析、错误分析、同义词分析。

nl2ml_notebook_parser.py解析Kaggle笔记本并将其处理为JSON/CSV/Pandas的脚本。

bert_distances.ipynb-一个带有BERT实验的笔记本,涉及BERT嵌入之间的距距感,其中输入令牌被标记为源代码块。

bert_classifier.ipynb-一个笔记本与预处理和培训伯特流水线。

regex.ipynb一个用正则表达式为代码块创建标签的笔记本

logreg_classifier.ipynb-一个用tf-idf在正则表达式标签上训练逻辑回归模型并分析输出的笔记本

注释vs注释代码-一个笔记本,有一个模型区分nl注释和被注释的源代码

github_dataset.ipynb-一个笔记本,打开github_dataset

predict_tag.ipynb-一个笔记本与预测类别标签(标签)与任何模型

svm_classifier.ipynb-一个带有训练支持向量机的笔记本(由svm_train.py),并分析SVM输出

svm_train.py一个训练SVM模型的脚本

约定:

  • 输入CSV: encoding='utf-8', sep=',', CODE_COLUMN在所有输入CSV中必须== 'code_block'
  • 知识图谱:GRAPH_DIR必须是以下格式:'./graph/graph_v{}.txt'.format(GRAPH_VER)
提示!

新闻p要查看以前的文件或,n查看下一个文件

关于

nl2ml

合作者3.

评论

加载……