如何使用Hue通过数据文件创建Collections

时间:2022-05-06
本文章向大家介绍如何使用Hue通过数据文件创建Collections,主要内容包括其使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。

温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。

1.文档编写目的


在CDH5.9版本及更新版本中,Hue新增一个全新工具从数据文件中创建Apache Solr的Collections,可以通过该工具轻松的将数据加载到Solr的Collection中。

过去,将数据索引到Solr是相当困难。这项任务涉及到编写一个Solr的Schema和一个morphlines文件,然后将一个Job提交给YARN来建索引。这种做法往往需要较长的时间,现在Hue的新功能可以以界面的方式在几分钟内为您启动一个YARN的作业来创建索引工作。本篇文章主要介绍如何使用Hue通过数据文件创建Collections。

  • 内容概述

1.安装依赖库

2.修改Hue配置及集成Solr

3.功能测试

  • 测试环境

1.CM和CDH版本为5.13.0

2.采用root用户操作

  • 前置条件

1.集群已安装Solr服务

2.安装依赖库

1.在HDFS上创建一个目录用于存放依赖库

[root@ip-172-31-9-33 conf]# hadoop fs -mkdir /tmp/smart_indexer_lib

2.将/opt/cloudera/parcels/CDH/jars目录下如下jar包上传至/tmp/smart_indexer_lib目录

[root@ip-172-31-6-148 smart_indexer_lib]# cd /opt/cloudera/parcels/CDH/jars
[root@ip-172-31-6-148 jars]# scp argparse4j-0.4.3.jar httpmime-4.2.5.jar search-mr-1.0.0-cdh5.13.0-job.jar kite-morphlines-core-1.0.0-cdh5.13.0.jar solr-core-4.10.3-cdh5.13.0.jar kite-morphlines-solr-core-1.0.0-cdh5.13.0.jar solr-solrj-4.10.3-cdh5.13.0.jar noggit-0.5.jar /root/smart_indexer_lib
[root@ip-172-31-6-148 jars] cd /root/smart_indexer_lib
[root@ip-172-31-6-148 jars] hadoop fs –put *.jar /tmp/smart_indexer_lib
[root@ip-172-31-6-148 smart_indexer_lib]# hadoop fs -ls /tmp/smart_indexer_lib

3.修改目录属主

[root@ip-172-31-6-148 jars]# sudo -u hdfs hadoop fs -chown -R hue:supergroup /tmp/smart_indexer_lib
[root@ip-172-31-6-148 jars]# hadoop fs -ls /tmp/smart_indexer_lib

3.修改Hue配置


1.登录Hue Server所在的服务器,修改/etc/hue/conf目录下的hue.ini文件

[root@ip-172-31-6-148 smart_indexer_lib]# cd /etc/hue/conf/
[root@ip-172-31-6-148 conf]# ll
total 72
-rwxr-xr-x 1 root root 61986 Dec 10 17:19 hue.ini
-rwxr-xr-x 1 root root  1843 Oct  4 20:12 log4j.properties
-rwxr-xr-x 1 root root  1809 Oct  4 20:12 log.conf
[root@ip-172-31-6-148 conf]# vim hue.ini
###########################################################################
# Settings to configure Solr Indexer
###########################################################################

[indexer]

  enable_new_indexer=true
  config_indexer_libs_path=/tmp/smart_indexer_lib

找到如上图标注部分,将enable_new_indexer设置为true,config_indexer_libs_path目录设置为HDFS上依赖库所在目录。

注意:这里需要将所有Hue Server服务的配置文件进行修改。

你也可以通过CM来配置:Hue Service →Configuration → Service-Wide → Advanced → Hue Service Advanced ConfigurationSnippet (Safety Valve) for hue_safety_valve.ini

4.Hue集成Solr


1.登录Cloudera Manager进入Solr服务

2.点击“配置”

点击“保存更改”,重启Hue服务

5.功能测试


1.在HDFS创建solrtest.csv测试文件

2.进入Indexs界面

3.点击“Create Index”,选择类型为“File”

4.选择HDFS上的数据文件

5.点击“Next”,进入下一步

6.点击“Submit”提交作业

等待作业执行成功

7.作业执行成功,可以看到数据已加载到solrtest的Collection中

搜索测试

为天地立心,为生民立命,为往圣继绝学,为万世开太平。

温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。