feat(AI工具): 添加本地AI执行工具
- 新增LocalWindow类,实现本地AI推理功能- 更新LM类,添加推理相关方法 - 在Main类中添加AI工具类别和本地AI执行工具项 - 优化FridaWindow类,添加作者注释
This commit is contained in:
@@ -8,8 +8,8 @@ import com.axis.innovators.box.tools.LibraryLoad;
|
||||
* @author tzdwindows 7
|
||||
*/
|
||||
public class LM {
|
||||
public static boolean CUDA = false;
|
||||
public final static String DEEP_SEEK = FolderCreator.getModelFolder() + "//DeepSeek-R1-Distill-Qwen-1.5B-Q8_0.gguf";
|
||||
public static boolean CUDA = true;
|
||||
public final static String DEEP_SEEK = "G:/deepseek/deepseek/DeepSeek-R1-Distill-Qwen-1.5B-Q8_0/DeepSeek-R1-Distill-Qwen-1.5B-Q8_0.gguf";
|
||||
|
||||
static {
|
||||
if (!CUDA) {
|
||||
@@ -41,12 +41,51 @@ public class LM {
|
||||
*/
|
||||
public static native void llamaFreeModel(long modelHandle);
|
||||
|
||||
public static long createContext(long modelHandle){
|
||||
return createContext(modelHandle,
|
||||
4096,
|
||||
0,
|
||||
0,
|
||||
0,
|
||||
0,
|
||||
false,
|
||||
false,
|
||||
false,
|
||||
true,
|
||||
false
|
||||
);
|
||||
}
|
||||
|
||||
/**
|
||||
* 上下文创建
|
||||
* @param modelHandle 上下文句柄
|
||||
* @return 上下文句柄
|
||||
*
|
||||
* 创建一个新的上下文句柄,可以通过该句柄与模型进行交互。
|
||||
*
|
||||
* @param modelHandle 上下文句柄,表示已加载的模型实例的引用。
|
||||
* @param nCtx 上下文的大小,决定了处理的最大上下文量。
|
||||
* @param nBatch 批量大小,定义了每次处理的最大样本数。
|
||||
* @param nSeqMax 最大序列数,对于递归模型有用。
|
||||
* @param nThreads 用于生成的线程数。
|
||||
* @param nThreadsBatch 用于批处理的线程数。
|
||||
* @param logitsAll 是否计算所有 logits,而不仅仅是最后一个(弃用,改用 `llama_batch.logits`)。
|
||||
* @param embeddings 是否提取嵌入(同时提取 logits)。
|
||||
* @param offloadKqv 是否将 KQV 操作(包括 KV 缓存)卸载到 GPU 上。
|
||||
* @param flashAttn 是否启用闪存注意力(实验性功能)。
|
||||
* @param noPerf 是否禁用性能计时。
|
||||
* @return 返回创建的上下文句柄,如果创建失败,返回 0。
|
||||
*/
|
||||
public static native long createContext(long modelHandle);
|
||||
public static native long createContext(long modelHandle,
|
||||
int nCtx,
|
||||
int nBatch,
|
||||
int nSeqMax,
|
||||
int nThreads,
|
||||
int nThreadsBatch,
|
||||
boolean logitsAll,
|
||||
boolean embeddings,
|
||||
boolean offloadKqv,
|
||||
boolean flashAttn,
|
||||
boolean noPerf
|
||||
);
|
||||
|
||||
/**
|
||||
* 释放上下文资源
|
||||
@@ -54,18 +93,57 @@ public class LM {
|
||||
*/
|
||||
public static native void llamaFreeContext(long ctxHandle);
|
||||
|
||||
public static String inference(long modelHandle ,
|
||||
long ctxHandle,
|
||||
float temperature,
|
||||
String prompt,
|
||||
MessageCallback messageCallback){
|
||||
return inference(modelHandle,
|
||||
ctxHandle,
|
||||
temperature,
|
||||
0.05f,
|
||||
40,
|
||||
0.95f,
|
||||
0,
|
||||
5,
|
||||
2.0f,
|
||||
0,
|
||||
0,
|
||||
prompt,
|
||||
messageCallback
|
||||
);
|
||||
}
|
||||
|
||||
/**
|
||||
* 推理模型
|
||||
* @param modelHandle 模型句柄
|
||||
* @param ctxHandle 模型上下文句柄
|
||||
* @param temperature 温度
|
||||
* @param prompt 问题
|
||||
* @param messageCallback 回调接口
|
||||
* @return 最终内容
|
||||
* 推理方法,根据传入的参数进行推理并返回生成的结果。
|
||||
*
|
||||
* @param modelHandle 模型句柄,指向加载的推理模型实例。
|
||||
* @param ctxHandle 上下文句柄,指向推理上下文,用于维持推理状态。
|
||||
* @param temperature 控制生成的文本的多样性,较高的值(如0.8)生成更加多样化的文本,较低的值(如0.2)生成更加确定的文本。
|
||||
* @param minP 最小概率值,控制生成过程中所接受的最小概率的词汇,避免出现概率极低的词汇。
|
||||
* @param topK 控制每次采样时从候选词中选取的最大数量,较小的值会限制生成的多样性。
|
||||
* @param topP 控制每次采样时从累计概率最小的词汇池中选取的候选词比例,0到1之间的值。
|
||||
* @param dist 种子值,决定生成文本的随机性,通常设置为0或者使用某个固定值以获得确定性的结果。
|
||||
* @param penaltyLastN 控制对生成的最后n个词进行惩罚,0表示不惩罚,-1表示禁用惩罚。
|
||||
* @param penaltyRepeat 重复惩罚系数,避免生成重复的词汇,1.0表示禁用惩罚。
|
||||
* @param penaltyFreq 频率惩罚系数,避免过度重复高频词汇,0.0表示禁用。
|
||||
* @param penaltyPresent 当前词汇惩罚系数,避免过度使用相同词汇。
|
||||
* @param prompt 输入的提示文本,用于引导模型生成相关内容。
|
||||
* @param messageCallback 回调函数,当模型生成消息时调用该函数,传递生成的内容。
|
||||
*
|
||||
* @return 返回生成的文本结果,类型为字符串。若推理过程中出现错误,返回null。
|
||||
*/
|
||||
public static native String inference(long modelHandle ,
|
||||
long ctxHandle,
|
||||
float temperature,
|
||||
float minP,
|
||||
float topK,
|
||||
float topP,
|
||||
float dist,
|
||||
int penaltyLastN, // 最后n个要惩罚的标记(0 = disablepenalty-1 =上下文大小)
|
||||
float penaltyRepeat, // 1.0 =禁用
|
||||
float penaltyFreq, // 0.0 =禁用
|
||||
float penaltyPresent,
|
||||
String prompt,
|
||||
MessageCallback messageCallback);
|
||||
|
||||
@@ -85,7 +163,7 @@ public class LM {
|
||||
long modelHandle = llamaLoadModelFromFile(DEEP_SEEK);
|
||||
// 创建新的上下文
|
||||
long ctxHandle = createContext(modelHandle);
|
||||
inference(modelHandle, ctxHandle, 0.2f, "写一个ai", new MessageCallback() {
|
||||
inference(modelHandle, ctxHandle, 0.2f, "Tell me how gpt works in an easy way, in Chinese", new MessageCallback() {
|
||||
@Override
|
||||
public void onMessage(String message) {
|
||||
// 回调输出
|
||||
@@ -93,13 +171,13 @@ public class LM {
|
||||
}
|
||||
});
|
||||
// 推理模型
|
||||
inference(modelHandle, ctxHandle, 0.2f, "谢谢你", new MessageCallback() {
|
||||
@Override
|
||||
public void onMessage(String message) {
|
||||
// 回调输出
|
||||
System.out.print(message);
|
||||
}
|
||||
});
|
||||
//inference(modelHandle, ctxHandle, 0.2f, "谢谢你", new MessageCallback() {
|
||||
// @Override
|
||||
// public void onMessage(String message) {
|
||||
// // 回调输出
|
||||
// System.out.print(message);
|
||||
// }
|
||||
//});
|
||||
// 清理上下文
|
||||
llamaFreeContext(ctxHandle);
|
||||
}
|
||||
|
||||
Reference in New Issue
Block a user