注册
登录
资源
文档 博客 数据集 术语表
定价 产品 最佳电子竞技即时竞猜平台。
连接到我们的Discord频道
集成: " gitlab git
Ekaterina 6 abce0ce94
更新readme.md
9个月前
bc26663c0e
新增远程yandex s3
一年前
bd896b3eeb
从github复制;
两年前
b93c56b94e
加载到Colab和数据集(竞赛描述+元数据)创建
一年前
6 abce0ce94
更新readme.md
9个月前
b7d17d05b1
合并分支'tfidfClustering'到'master'
两年前
df32769075
更新下载脚本
两年前
0 f4b963678
解决冲突
两年前
746年c33df45
添加embeddingscript
一年前
a6bb3f2c73
更新readme.md
10个月前
c974cd304c
self-supervised data2vec
10个月前
cf3af3f2fd
添加使用tfidf进行聚类的实验
两年前
f23a7f09e6
从https://github.com/whatevernevermindbro/source_code_classification克隆的Git
两年前
2 dc51626e7
更改数据目录
一年前
67年f29f2c6d
将code2vec替换为pycode2vec
两年前
bd896b3eeb
从github复制;
两年前
ae877d8024
补充:约定
两年前
79年f739ec5e
添加:未来语料库的基础
一年前
daa33d278d
添加新数据
两年前
5 f4b52cc1f
更新数据
两年前
9095年a79f2a
更新:保存了三个比赛表
两年前
b6f471f0c8
更新数据
一年前
319年f6a2523
增加:DVC YAML与regex阶段的管道
两年前
1 b6b911c09
乌利希期刊指南:评论
两年前
b203d702b3
带有增广结果的SVM
一年前
1 c7da81609
nb-svm在旧数据上的实验
两年前
dc835f45bb
更新:github sync;
两年前
bd896b3eeb
从github复制;
两年前
b203d702b3
带有增广结果的SVM
一年前
d86db5a93c
新增:解析器依赖项
一年前
数据管道
传说
DVC托管文件
Git管理文件
度规
阶段文件
外部文件

README.md

你必须登录才能发表评论。登录

源代码分类

这是高等经济学院大数据分析方法实验室(HSE LAMBDA)的自然语言到机器学习(NL2ML)项目的一个版本。

项目官方回购存储在GitLab (HSE LAMBDA存储库)-https://gitlab.com/lambda-hse/nl2ml项目的完整的描述存储在Notion -https://www.notion.so/NL2ML-Corpus-1ed964c08eb049b383c73b9728c3a231项目的实验都存储在DAGsHub -//www.kkolawyers.com/levin/source_code_classification

项目目标

短期目标

构建对源代码块进行分类的模型,并指定检测到的类在块中的确切位置(标记分割)。

长期目标

通过获取一个简短的原始英语任务作为输入来构建一个模型生成代码。

库描述

这个存储库包含了项目团队一直使用的工具,用于标记带有知识图顶点的源代码块,并训练模型在将来识别这些顶点。通过知识图顶点,我们指的是ml管道的基本部分。当前最新版本的知识图谱包含以下高级顶点:['import', 'data_import', 'data_export', '预处理','可视化','模型','deep_learning_model', 'train' 'predict']

数据下载

下载项目数据及模型:

  1. 克隆此存储库
  2. 安装DVChttps://dvc.org/doc/install
  3. DVC拉拔数据DVC拉拔数据.注意:如果你失败了DVC pull [folder_to_pull],试着DVC pull [folder_to_pull]—jobs

内容:

我们用来实现项目目标的工具有:Kaggle API和Github API的笔记本解析、数据准备、regex标签、训练模型、验证模型、模型权重/系数分析、错误分析、同义词分析。

nl2ml_notebook_parser.py解析Kaggle笔记本并将其处理为JSON/CSV/Pandas的脚本。

bert_distances.ipynb-一个带有BERT实验的笔记本,涉及BERT嵌入之间的距距感,其中输入令牌被标记为源代码块。

bert_classifier.ipynb-一个笔记本与预处理和培训伯特流水线。

regex.ipynb一个用正则表达式为代码块创建标签的笔记本

logreg_classifier.ipynb-一个用tf-idf在正则表达式标签上训练逻辑回归模型并分析输出的笔记本

注释vs注释代码-一个笔记本,有一个模型区分nl注释和被注释的源代码

github_dataset.ipynb-一个笔记本,打开github_dataset

predict_tag.ipynb-一个笔记本与预测类别标签(标签)与任何模型

svm_classifier.ipynb-一个带有训练支持向量机的笔记本(由svm_train.py),并分析SVM输出

svm_train.py一个训练SVM模型的脚本

约定:

  • 输入CSV: encoding='utf-8', sep=',', CODE_COLUMN在所有输入CSV中必须== 'code_block'
  • 知识图谱:GRAPH_DIR必须是以下格式:'./graph/graph_v{}.txt'.format(GRAPH_VER)
上一页
下一个
提示!

新闻p要查看以前的文件或,n查看下一个文件

关于

没有描述

合作者1

评论

加载……