Skip to main content

GitHub

本示例介绍了如何从 GitHub 存储库加载数据。 您可以将 GITHUB_ACCESS_TOKEN 环境变量设置为 GitHub 访问令牌,以增加速率限制和访问私有存储库。

设置

GitHub 加载器需要 ignore npm package 作为同等依赖项。可以像这样安装它

npm install ignore

用法

import { GithubRepoLoader } from "langchain/document_loaders/web/github";

export const run = async () => {
const loader = new GithubRepoLoader(
"https://github.com/hwchase17/langchainjs",
{ branch: "main", recursive: false, unknown: "warn" }
);
const docs = await loader.load();
console.log({ docs });
};

加载器将忽略像图像这样的二进制文件。

使用 .gitignore 语法

要忽略特定文件,您可以将 ignorePaths 数组传递到构造函数中

import { GithubRepoLoader } from "langchain/document_loaders/web/github";

export const run = async () => {
const loader = new GithubRepoLoader(
"https://github.com/hwchase17/langchainjs",
{ branch: "main", recursive: false, unknown: "warn", ignorePaths: ["*.md"] }
);
const docs = await loader.load();
console.log({ docs });
// Will not include any .md files
};