GitHub
本示例介绍了如何从 GitHub 存储库加载数据。
您可以将 GITHUB_ACCESS_TOKEN
环境变量设置为 GitHub 访问令牌,以增加速率限制和访问私有存储库。
设置
GitHub 加载器需要 ignore npm package 作为同等依赖项。可以像这样安装它
- npm
- Yarn
- pnpm
npm install ignore
yarn add ignore
pnpm add ignore
用法
import { GithubRepoLoader } from "langchain/document_loaders/web/github";
export const run = async () => {
const loader = new GithubRepoLoader(
"https://github.com/hwchase17/langchainjs",
{ branch: "main", recursive: false, unknown: "warn" }
);
const docs = await loader.load();
console.log({ docs });
};
加载器将忽略像图像这样的二进制文件。
使用 .gitignore 语法
要忽略特定文件,您可以将 ignorePaths
数组传递到构造函数中
import { GithubRepoLoader } from "langchain/document_loaders/web/github";
export const run = async () => {
const loader = new GithubRepoLoader(
"https://github.com/hwchase17/langchainjs",
{ branch: "main", recursive: false, unknown: "warn", ignorePaths: ["*.md"] }
);
const docs = await loader.load();
console.log({ docs });
// Will not include any .md files
};