您确定要删除此访问键吗?
传说 |
---|
DVC托管文件 |
Git管理文件 |
度规 |
阶段文件 |
外部文件 |
传说 |
---|
DVC托管文件 |
Git管理文件 |
度规 |
阶段文件 |
外部文件 |
这是高等经济学院大数据分析方法实验室(HSE LAMBDA)的自然语言到机器学习(NL2ML)项目的一个版本。
项目官方回购存储在GitLab (HSE LAMBDA存储库)-https://gitlab.com/lambda-hse/nl2ml项目的完整的描述存储在Notion -https://www.notion.so/NL2ML-Corpus-1ed964c08eb049b383c73b9728c3a231项目的实验都存储在DAGsHub -//www.kkolawyers.com/levin/source_code_classification
构建对源代码块进行分类的模型,并指定检测到的类在块中的确切位置(标记分割)。
通过获取一个简短的原始英语任务作为输入来构建一个模型生成代码。
这个存储库包含了项目团队一直使用的工具,用于标记带有知识图顶点的源代码块,并训练模型在将来识别这些顶点。通过知识图顶点,我们指的是ml管道的基本部分。当前最新版本的知识图谱包含以下高级顶点:['import', 'data_import', 'data_export', '预处理','可视化','模型','deep_learning_model', 'train' 'predict']
。
下载项目数据及模型:
DVC拉拔数据
或DVC拉拔数据
。注意:如果你失败了DVC pull [folder_to_pull]
,试着DVC pull [folder_to_pull]—jobs
我们用来实现项目目标的工具有:Kaggle API和Github API的笔记本解析、数据准备、regex标签、训练模型、验证模型、模型权重/系数分析、错误分析、同义词分析。
nl2ml_notebook_parser.py解析Kaggle笔记本并将其处理为JSON/CSV/Pandas的脚本。
bert_distances.ipynb-一个带有BERT实验的笔记本,涉及BERT嵌入之间的距距感,其中输入令牌被标记为源代码块。
bert_classifier.ipynb-一个笔记本与预处理和培训伯特流水线。
regex.ipynb一个用正则表达式为代码块创建标签的笔记本
logreg_classifier.ipynb-一个用tf-idf在正则表达式标签上训练逻辑回归模型并分析输出的笔记本
注释vs注释代码-一个笔记本,有一个模型区分nl注释和被注释的源代码
github_dataset.ipynb-一个笔记本,打开github_dataset
predict_tag.ipynb-一个笔记本与预测类别标签(标签)与任何模型
svm_classifier.ipynb-一个带有训练支持向量机的笔记本(由svm_train.py),并分析SVM输出
svm_train.py一个训练SVM模型的脚本
新闻p或要查看以前的文件或,n或查看下一个文件
您确定要删除此访问键吗?
您确定要删除此访问键吗?